Hallo,
ich hab mir gerade die 470 MB Datei von
http://download.wikimedia.org/wikipedia/de/
heruntergeladen und entpackt. Man erhält eine
mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB.
Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten, Koordinaten
etc.). Leider kann keins meiner Programme
mit so riesigen Dateien etwas anfangen.
Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch an
der Größe zu scheitern. IE6 liest ja
zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei scheint
in Ordnung zu sein.
Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei
rausfiltern kann oder einen Editor, der diese
Riesendatei verarbeitet?
Stefan