[Wikide-l] Re: Wie verarbeitet man die neue XML-Datei?
Jakob Voss
jakob.voss at nichtich.de
Fr Aug 5 06:17:19 UTC 2005
Stefan Kühn wrote:
> ich hab mir gerade die 470 MB Datei von http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
> mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB.
>
> Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten, Koordinaten etc.). Leider kann keins meiner Programme
> mit so riesigen Dateien etwas anfangen.
>
> Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch an der Größe zu scheitern. IE6 liest ja
> zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei scheint in Ordnung zu sein.
>
> Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei rausfiltern kann oder einen Editor, der diese
> Riesendatei verarbeitet?
Das richtige Werkzeug für solche großen XML-Daten ist ein SAX-Parser [1]
- solche gibt es für alle üblichen Programmiersprachen. Die Datei muss
übrigens gar nicht auf der Platte entpackt - dass kann auch on-the-fly
geschehen:
gzip -dc | myscript
Gruß,
Jakob