Stefan Kühn wrote:
ich hab mir gerade die 470 MB Datei von
http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB.
Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten,
Koordinaten etc.). Leider kann keins meiner Programme
mit so riesigen Dateien etwas anfangen.
Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch
an der Größe zu scheitern. IE6 liest ja
zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei
scheint in Ordnung zu sein.
Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei
rausfiltern kann oder einen Editor, der diese
Riesendatei verarbeitet?
Das richtige Werkzeug für solche großen XML-Daten ist ein SAX-Parser [1]
- solche gibt es für alle üblichen Programmiersprachen. Die Datei muss
übrigens gar nicht auf der Platte entpackt - dass kann auch on-the-fly
geschehen:
gzip -dc | myscript
Gruß,
Jakob