Karl Eichwalder schrieb (in der bibliothekarischen Mailingliste INETBIB
in einem Thread über u.A. die Langzeitarchivierung der Wikipedia):
Wenn doch die Angebote der DDB und all der anderen
Bibliothek nur so
frei und offen wären, wie die Wikipedia-Daten...
Zugegeben, das SQL ist (noch) etwas MySQL-spezifisch, aber SQL ist ein
internationaler Standard. Und wenn alle Stricke reißen, kann man die
Wikipedia-Dumps sogar mit einem Texteditor lesen.
7-Bit ASCII ist auch ein Standard - dadurch wird noch lange nicht alles,
was sich darin ausdrücken lässt standardisiert.
PS: Die
Deutsche Bibliothek bietet seit 2001 eine Schnittstelle zur
dauerhaften Archivierung deutscher Netzpublikationen an:
http://deposit.ddb.de/netzpub/np_stepbystep.htm >
Genau die dort gewünschten Archivformate stehen doch bei
http://download.wikimedia.org/ zu Verfügung - gut, die DDB könnte
vielleicht auch .bz2 akzeptieren. Hinweise zum Dateiformat der
eigentlichen Publikation wären auch nicht schlecht.
Die Inhalte der Wikipedia sind zwar offen und frei verfügbar, aber
bislang leider nicht standardisiert. Der einzige Standard ist die
MediaWiki-Software, die zwar ebenso offen und frei aber ebensowenig
standardisiert und in ständiger Entwicklung begriffen.
Zur Zeit wird zumindest ein XML-Parser für die Syntax der gespeicherten
Texte entwickelt - bis zu einer festen (überprüfbaren und zwingenden)
Standardisierung der gesamten Inhalte (SQL-Tabellenstruktur und
Wikisyntax) ist es jedoch noch ein langer Weg. Bis dahin wird der
gesamte Inhalt samt Bearbeitungsgeschichte im Bereich von Terabyte
angelangt sein (zur Zeit 27.626 GByte gepackt!). Die
Langzeitarchivierung (im bibliothekarischen Sinne als
Langzeitverfügbarkeit) dieser Daten ist keine Aufgabe, die man eben mal
so wie ein normales Backups macht.
So wie sich die Wikipedia zur Zeit entwickelt, halte ich es nicht für
unangemessen zu behaupten, dass sie irgendwann den Rang eines
Weltkulturerbes erreicht. Der Verlust der Daten aus der Angangszeit wäre
wirklich schade. Schon jetzt ist es in Einzelfällen schwierig, den
Stand und das Erscheinungsbild einzelner Artikel zu bestimmten
Zeitpunkten zu ermitteln (zumindest wenn so genannte Vorlagen verwendet
wurden). Die Langzeitarchivierung der Wikipedia ist natürlich in Erster
Linie Sache der Wikimedia Foundation bzw. der im Projekt Engagierten
selbst, aber langfristig sind bibliothekarische Kenntnisse gefragt.
Gruss,
Jakob Voß
P.S: Folgendes Zitat sollte zu Denken geben. Von:
http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm
"Hinweis: Die Zahlen für die ersten Monate sind zu niedrig.
Ein Großteil der Versions-Geschichten bis Sommer 2002 ging leider verloren."