Karl Eichwalder schrieb (in der bibliothekarischen Mailingliste INETBIB in einem Thread über u.A. die Langzeitarchivierung der Wikipedia):
Wenn doch die Angebote der DDB und all der anderen Bibliothek nur so frei und offen wären, wie die Wikipedia-Daten...
Zugegeben, das SQL ist (noch) etwas MySQL-spezifisch, aber SQL ist ein internationaler Standard. Und wenn alle Stricke reißen, kann man die Wikipedia-Dumps sogar mit einem Texteditor lesen.
7-Bit ASCII ist auch ein Standard - dadurch wird noch lange nicht alles, was sich darin ausdrücken lässt standardisiert.
PS: Die Deutsche Bibliothek bietet seit 2001 eine Schnittstelle zur dauerhaften Archivierung deutscher Netzpublikationen an: http://deposit.ddb.de/netzpub/np_stepbystep.htm >
Genau die dort gewünschten Archivformate stehen doch bei http://download.wikimedia.org/ zu Verfügung - gut, die DDB könnte vielleicht auch .bz2 akzeptieren. Hinweise zum Dateiformat der eigentlichen Publikation wären auch nicht schlecht.
Die Inhalte der Wikipedia sind zwar offen und frei verfügbar, aber bislang leider nicht standardisiert. Der einzige Standard ist die MediaWiki-Software, die zwar ebenso offen und frei aber ebensowenig standardisiert und in ständiger Entwicklung begriffen.
Zur Zeit wird zumindest ein XML-Parser für die Syntax der gespeicherten Texte entwickelt - bis zu einer festen (überprüfbaren und zwingenden) Standardisierung der gesamten Inhalte (SQL-Tabellenstruktur und Wikisyntax) ist es jedoch noch ein langer Weg. Bis dahin wird der gesamte Inhalt samt Bearbeitungsgeschichte im Bereich von Terabyte angelangt sein (zur Zeit 27.626 GByte gepackt!). Die Langzeitarchivierung (im bibliothekarischen Sinne als Langzeitverfügbarkeit) dieser Daten ist keine Aufgabe, die man eben mal so wie ein normales Backups macht.
So wie sich die Wikipedia zur Zeit entwickelt, halte ich es nicht für unangemessen zu behaupten, dass sie irgendwann den Rang eines Weltkulturerbes erreicht. Der Verlust der Daten aus der Angangszeit wäre wirklich schade. Schon jetzt ist es in Einzelfällen schwierig, den Stand und das Erscheinungsbild einzelner Artikel zu bestimmten Zeitpunkten zu ermitteln (zumindest wenn so genannte Vorlagen verwendet wurden). Die Langzeitarchivierung der Wikipedia ist natürlich in Erster Linie Sache der Wikimedia Foundation bzw. der im Projekt Engagierten selbst, aber langfristig sind bibliothekarische Kenntnisse gefragt.
Gruss, Jakob Voß
P.S: Folgendes Zitat sollte zu Denken geben. Von: http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm
"Hinweis: Die Zahlen für die ersten Monate sind zu niedrig. Ein Großteil der Versions-Geschichten bis Sommer 2002 ging leider verloren."