[Wikide-l] Re: Wie verarbeitet man die neue XML-Datei?

5 Aug 2005

Stefan Kühn wrote:

...
  ich hab mir gerade die 470 MB Datei von
http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
 mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB. 

 Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten,
Koordinaten etc.). Leider kann keins meiner Programme
 mit so riesigen Dateien etwas anfangen. 

 Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch
an der Größe zu scheitern. IE6 liest ja
 zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei
scheint in Ordnung zu sein.

 Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei
rausfiltern kann oder einen Editor, der diese
 Riesendatei verarbeitet? 
Das richtige Werkzeug für solche großen XML-Daten ist ein SAX-Parser [1] 
- solche gibt es für alle üblichen Programmiersprachen. Die Datei muss 
übrigens gar nicht auf der Platte entpackt - dass kann auch on-the-fly 
geschehen:

gzip -dc | myscript

Gruß,
Jakob

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

[Wikide-l] Re: Wie verarbeitet man die neue XML-Datei?