DumpHtml

List overview All Threads
Download

newer

older

Nueva CAB

Re: [Wikies-l] Te invito a conocer...

Zuzel Vera Pacheco

15 Apr 2008 15 Apr '08

4:47 p.m.

En http://static.wikipedia.org/downloads donde están los dump en html de wikipedia desde April_2007 no se renueva el de la wikipedia en español. Han salido ya varias actualizaciones de otros idiomas una de August_2007 y otra de 2008-02. Hay alguna razón para que la wikipedia en español no esté en estas versiones más nuevas?

Me hace falta un dump más reciente. Alguien sabe si pudiera obtenerlo de algún otro lugar?

-- Saludos, Zuzel blog: http://deltha.uh.cu/~zuze -- "Al mundo nuevo corresponde la Universidad nueva" UNIVERSIDAD DE LA HABANA 280 aniversario

Show replies by date

Platonides

15 Apr 15 Apr

8:56 p.m.

Zuzel Vera Pacheco escribió:

...

En http://static.wikipedia.org/downloads donde están los dump en html de wikipedia desde April_2007 no se renueva el de la wikipedia en español. Han salido ya varias actualizaciones de otros idiomas una de August_2007 y otra de 2008-02. Hay alguna razón para que la wikipedia en español no esté en estas versiones más nuevas?

Me hace falta un dump más reciente. Alguien sabe si pudiera obtenerlo de algún otro lugar?

Puedes obtener un dump XML en http://download.wikimedia.org/eswiki/20080317/ Los dumps estáticos siempre han sido poco regulares. Si hiciera falta, podrías generar uno estático a partir de los datos XML de la base de datos.

Zuzel Vera Pacheco

10:33 p.m.

Me va costar bastante trabajo obtener los html de los xml pero haré el intento. Tengo entendido que tendría que montar el mediawiki con la wiki en español por acá y usar la extensión DumpHtml, si hay un proceso más fácil me dicen.

La ventaja de tenerlos en http://static.wikipedia.org/downloads/ es que todos los que necesiten el dump no tengan que hacer el proceso de conversión.

Gracias de todas formas por responder :)

-- Saludos, Zuzel blog: http://deltha.uh.cu/~zuze Mensaje citado por Platonides platonides@gmail.com: > Zuzel Vera Pacheco escribió: > > En http://static.wikipedia.org/downloads donde están los dump en html de > > wikipedia desde April_2007 no se renueva el de la wikipedia en español. > Han > > salido ya varias actualizaciones de otros idiomas una de August_2007 y > otra de > > 2008-02. Hay alguna razón para que la wikipedia en español no esté en > estas > > versiones más nuevas? > > > > Me hace falta un dump más reciente. Alguien sabe si pudiera obtenerlo de > algún > > otro lugar? > > Puedes obtener un dump XML en http://download.wikimedia.org/eswiki/20080317/ > Los dumps estáticos siempre han sido poco regulares. Si hiciera falta, > podrías generar uno estático a partir de los datos XML de la base de datos. > > > > _______________________________________________ > Wikies-l mailing list > Wikies-l@lists.wikimedia.org > https://lists.wikimedia.org/mailman/listinfo/wikies-l > -- "Al mundo nuevo corresponde la Universidad nueva" UNIVERSIDAD DE LA HABANA 280 aniversario

Platonides

16 Apr 16 Apr

10:44 a.m.

Zuzel Vera Pacheco escribió:

...

Me va costar bastante trabajo obtener los html de los xml pero haré el intento. Tengo entendido que tendría que montar el mediawiki con la wiki en español por acá y usar la extensión DumpHtml, si hay un proceso más fácil me dicen.

La ventaja de tenerlos en http://static.wikipedia.org/downloads/ es que todos los que necesiten el dump no tengan que hacer el proceso de conversión.

Gracias de todas formas por responder :)

Ya lo sé, pero es el método que tienes. ¿Puedo preguntar para qué los necesitas? Tal vez no necesites generar los html.

Zuzel Vera Pacheco

1:12 p.m.

La necesidad está relacionada con la distribución de la Wikipedia en español en CD/DVD. Intentamos colaborar con un proyecto de PyAr(CDPedia) porque tenemos objetivos comunes. Por acá tengo un proyectico con pylucene que actualmente hace las búsquedas contra los xml, pero devolverle al usuario el xml no es una opción :(.

-- Saludos, Zuzel blog: http://deltha.uh.cu/~zuze Mensaje citado por Platonides platonides@gmail.com: > Zuzel Vera Pacheco escribió: > > Me va costar bastante trabajo obtener los html de los xml pero haré el > intento. > > Tengo entendido que tendría que montar el mediawiki con la wiki en español > por > > acá y usar la extensión DumpHtml, si hay un proceso más fácil me dicen. > > > > La ventaja de tenerlos en http://static.wikipedia.org/downloads/ es que > todos > > los que necesiten el dump no tengan que hacer el proceso de conversión. > > > > Gracias de todas formas por responder :) > > Ya lo sé, pero es el método que tienes. ¿Puedo preguntar para qué los > necesitas? Tal vez no necesites generar los html. > > _______________________________________________ > Wikies-l mailing list > Wikies-l@lists.wikimedia.org > https://lists.wikimedia.org/mailman/listinfo/wikies-l > -- "Al mundo nuevo corresponde la Universidad nueva" UNIVERSIDAD DE LA HABANA 280 aniversario

5939

Age (days ago)

5940

Last active (days ago)

wikies-l@lists.wikimedia.org

4 comments

2 participants

tags (0)

participants (2)

Platonides
Zuzel Vera Pacheco