En http://static.wikipedia.org/downloads donde están los dump en html de wikipedia desde April_2007 no se renueva el de la wikipedia en español. Han salido ya varias actualizaciones de otros idiomas una de August_2007 y otra de 2008-02. Hay alguna razón para que la wikipedia en español no esté en estas versiones más nuevas?
Me hace falta un dump más reciente. Alguien sabe si pudiera obtenerlo de algún otro lugar?
Zuzel Vera Pacheco escribió:
En http://static.wikipedia.org/downloads donde están los dump en html de wikipedia desde April_2007 no se renueva el de la wikipedia en español. Han salido ya varias actualizaciones de otros idiomas una de August_2007 y otra de 2008-02. Hay alguna razón para que la wikipedia en español no esté en estas versiones más nuevas?
Me hace falta un dump más reciente. Alguien sabe si pudiera obtenerlo de algún otro lugar?
Puedes obtener un dump XML en http://download.wikimedia.org/eswiki/20080317/ Los dumps estáticos siempre han sido poco regulares. Si hiciera falta, podrías generar uno estático a partir de los datos XML de la base de datos.
Me va costar bastante trabajo obtener los html de los xml pero haré el intento. Tengo entendido que tendría que montar el mediawiki con la wiki en español por acá y usar la extensión DumpHtml, si hay un proceso más fácil me dicen.
La ventaja de tenerlos en http://static.wikipedia.org/downloads/ es que todos los que necesiten el dump no tengan que hacer el proceso de conversión.
Gracias de todas formas por responder :)
Zuzel Vera Pacheco escribió:
Me va costar bastante trabajo obtener los html de los xml pero haré el intento. Tengo entendido que tendría que montar el mediawiki con la wiki en español por acá y usar la extensión DumpHtml, si hay un proceso más fácil me dicen.
La ventaja de tenerlos en http://static.wikipedia.org/downloads/ es que todos los que necesiten el dump no tengan que hacer el proceso de conversión.
Gracias de todas formas por responder :)
Ya lo sé, pero es el método que tienes. ¿Puedo preguntar para qué los necesitas? Tal vez no necesites generar los html.
La necesidad está relacionada con la distribución de la Wikipedia en español en CD/DVD. Intentamos colaborar con un proyecto de PyAr(CDPedia) porque tenemos objetivos comunes. Por acá tengo un proyectico con pylucene que actualmente hace las búsquedas contra los xml, pero devolverle al usuario el xml no es una opción :(.