Karl Eichwalder schrieb (in der bibliothekarischen Mailingliste INETBIB in einem Thread über u.A. die Langzeitarchivierung der Wikipedia):
Wenn doch die Angebote der DDB und all der anderen Bibliothek nur so frei und offen wären, wie die Wikipedia-Daten...
Zugegeben, das SQL ist (noch) etwas MySQL-spezifisch, aber SQL ist ein internationaler Standard. Und wenn alle Stricke reißen, kann man die Wikipedia-Dumps sogar mit einem Texteditor lesen.
7-Bit ASCII ist auch ein Standard - dadurch wird noch lange nicht alles, was sich darin ausdrücken lässt standardisiert.
PS: Die Deutsche Bibliothek bietet seit 2001 eine Schnittstelle zur dauerhaften Archivierung deutscher Netzpublikationen an: http://deposit.ddb.de/netzpub/np_stepbystep.htm >
Genau die dort gewünschten Archivformate stehen doch bei http://download.wikimedia.org/ zu Verfügung - gut, die DDB könnte vielleicht auch .bz2 akzeptieren. Hinweise zum Dateiformat der eigentlichen Publikation wären auch nicht schlecht.
Die Inhalte der Wikipedia sind zwar offen und frei verfügbar, aber bislang leider nicht standardisiert. Der einzige Standard ist die MediaWiki-Software, die zwar ebenso offen und frei aber ebensowenig standardisiert und in ständiger Entwicklung begriffen.
Zur Zeit wird zumindest ein XML-Parser für die Syntax der gespeicherten Texte entwickelt - bis zu einer festen (überprüfbaren und zwingenden) Standardisierung der gesamten Inhalte (SQL-Tabellenstruktur und Wikisyntax) ist es jedoch noch ein langer Weg. Bis dahin wird der gesamte Inhalt samt Bearbeitungsgeschichte im Bereich von Terabyte angelangt sein (zur Zeit 27.626 GByte gepackt!). Die Langzeitarchivierung (im bibliothekarischen Sinne als Langzeitverfügbarkeit) dieser Daten ist keine Aufgabe, die man eben mal so wie ein normales Backups macht.
So wie sich die Wikipedia zur Zeit entwickelt, halte ich es nicht für unangemessen zu behaupten, dass sie irgendwann den Rang eines Weltkulturerbes erreicht. Der Verlust der Daten aus der Angangszeit wäre wirklich schade. Schon jetzt ist es in Einzelfällen schwierig, den Stand und das Erscheinungsbild einzelner Artikel zu bestimmten Zeitpunkten zu ermitteln (zumindest wenn so genannte Vorlagen verwendet wurden). Die Langzeitarchivierung der Wikipedia ist natürlich in Erster Linie Sache der Wikimedia Foundation bzw. der im Projekt Engagierten selbst, aber langfristig sind bibliothekarische Kenntnisse gefragt.
Gruss, Jakob Voß
P.S: Folgendes Zitat sollte zu Denken geben. Von: http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm
"Hinweis: Die Zahlen für die ersten Monate sind zu niedrig. Ein Großteil der Versions-Geschichten bis Sommer 2002 ging leider verloren."
Jakob Voss schrieb:
P.S: Folgendes Zitat sollte zu Denken geben. Von: http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm
"Hinweis: Die Zahlen für die ersten Monate sind zu niedrig. Ein Großteil der Versions-Geschichten bis Sommer 2002 ging leider verloren."
Ja, der Hinweis stammt von mir. Auf meiner Benutzerseite habe ich eine längere Erklärung dazu geschrieben:
Bis Sommer 2002 setzte die deutschsprachige Wikipedia die UseMod-Software ein. In der Standardeinstellung wurden idiotischerweise nach ein paar Wochen ältere Versionen einer Seite automatisch gelöscht. In der englischen Wikipedia wurde dies schnell erkannt und behoben, um die anderen Sprachen kümmerte sich damals noch niemand. Nachdem uns in der deutschsprachigen Wikipedia der Fehler aufgefallen war bat ich auf der Wikipedia-Mailingliste um Abhilfe, leider ohne Reaktion. Erst nachdem Brion Vibber im Mai 2002 das Problem erneut zur Sprache brachte wurde der Fehler wohl behoben (oder er blieb bis zu Installation der neuen Software am 28.8.2002 bestehen, da bin ich mir nicht sicher). Daraus folgt: Die Versionsgeschichten der meisten Artikel, die ein "conversion script" in selbiger stehen haben, sind unvollständig, der erstgenannte Benutzer ist meist nicht der ursprüngliche Autor/Initiator des Artikels.
Kurt