Foros del Desafío AbreDatos » Equipos

HTML Scrapper

  1. hjbarraza Miembro hace 1 year #

    Buscamos alguien que pueda hacer HTML scrapping en cualquier lenguage, el sitio en cuestion es el parlamento vasco.

    La estructura html y css permite un facil procesamiento.

    La idea como mencionamos aqui es crear una visualizacion sobre la actividad de los grupos parlamentarios para identificar el buen y mal desempeño asi como el resultado de sus actividades.

    Quien se apunta?

    /
  2. ernesto.jimenez Miembro hace 1 year #

    Hola hjbarraza,

    Si queréis hacer scraping sin complicaros demasiado podéis usar Yahoo YQL: http://developer.yahoo.com/yql

    Os permitirá hacer el scraping de forma sencilla y podéis crear vuestras propias tablas sabiendo un poquillo de javascript.

    Aquí podéis ver una consulta de ejemplo: http://developer.yahoo.com/yql/console/#h=select%20href%2C%20content%20from%20html%20where%20url%3D%27http%3A//www.parlamento.euskadi.net/comparla/c_comparla_alf_ACT.html%27%20and%20xpath%3D%27//table%5B@class%3D%5C%27parlamentarios%5C%27%5D/tr/td%5B@class%3D%5C%27miembro_persona%5C%27%5D/a%27

    Un saludo!

    /
  3. ernesto.jimenez Miembro hace 1 year #

    Por cierto, a parte de la tabla html para hacer scraping por XPath también está data.html.cssselect para usar selectores CSS: http://developer.yahoo.com/yql/console/?q=select%20href,%20content%20from%20html%20where%20url%3D'http://www.parlamento.euskadi.net/comparla/c_comparla_alf_ACT.html'%20and%20xpath%3D'//table[%40class%3D\'parlamentarios\']/tr/td[%40class%3D\'miembro_persona\']/a'&env=store://datatables.org/alltableswithkeys#h=select%20*%20from%20data.html.cssselect%20where%20url%3D%22www.yahoo.com%22%20and%20css%3D%22%23news%20a%22 :)

    /
  4. molpe Miembro hace 1 year #

    hjbarraza, ¿conoces parlio?: http://www.parlio.org

    Código fuente: http://github.com/probono/parlio
    Código fuente a integrar para soportar múltiples parlamentos: http://github.com/molpe/parlio

    /
  5. furilo Organizador hace 1 year #

    Molpe, No teníais una libreria específica para hacer el scraping? O está integrado dentro de Parlio?

    /
  6. molpe Miembro hace 1 year #

    Es una libreria llamada "legebiltzarra", pero por comodidad para la rumble se metió en el proyecto y la última versión sigue ahí, en la carpeta lib. 100% usable fuera, sólo hay que cogerla.

    http://github.com/probono/parlio/tree/master/lib/

    /
  7. hjbarraza Miembro hace 1 year #

    Wow,
    Gracias por toda la info y recursos.
    Mientras no estoy seguro poder hacerlo yo mismo para este concurso definitivamente me ayudara mucho para hacerlo con los grupos parlamentarios e incluso para el vasco fuera del marco de la concovatoria abredatos

    Si alguien esta interesado en ayudarnos a hacerlo (sin importar que no sea parte de la convocatoria) avisenme

    gracias : )

    /
  8. hjbarraza Miembro hace 1 year #

    @Molpe

    Te ganas 50 puntos por Parlio !!!
    y otros 50 por la libreria

    /
  9. molpe Miembro hace 1 year #

    Yo no voy a participar, pero continuar con parlio está en mi TO-DO, de modo que ya hablamos.

    /

Topic Closed

This topic has been closed to new replies.