[Wikide-l] Zeno.org-Datenbestand für Wikimedia und den Rest der Welt

Mo Dez 21 12:59:33 UTC 2009

Liebe Liste,

vor einigen Tagen hatte ich hier auf das Projekt TextGrid hingewiesen
und eine laufende Abstimmung zur Lizenzierung. Im Nachgang hatten Tim
und ich Kontakt mit TextGrid und relativ schnell stellte sich dabei
heraus, dass es hier um eine Ansammlung von Missverständnissen ging.
TextGrid hat mit freundlicher finanzieller Unterstützung des
Bundesministeriums für Bildung und Forschung (BMBF) von der Firma
editura eine Kopie des Datenbestandes von zeno.org unter der
"cc-by"-Lizenz erworben. Die in zeno.org enthaltenen Werke sind
gemeinfrei, allerdings kommen durch das Schnüren eines Paketes solcher
Werke und durch XML-Tagging nach durchaus vertretbarer Ansicht
Leistungsschutzrechte ins Spiel. Eine cc-by-Lizenzierung geht auf
solche Leistungsschutzrechte ein, nämlich in einer denkbar angenehmen
Form: Der Lizenzgeber verzichtet auf diese Rechte ("Soweit Datenbanken
oder Zusammenstellungen von Daten Schutzgegenstand dieser Lizenz oder
Teil dessen sind und einen immaterialgüterrechtlichen Schutz eigener
Art genießen, verzichtet der Lizenzgeber auf sämtliche aus diesem
Schutz resultierenden Rechte" [1]). Was die Attribution-Klausel von cc
angeht, handelt es sich auch eher um einen theoretischen Unterschied,
denn alleine schon die Sorgfaltspflicht gebietet es, die Herkunft
eines Textes zu kennzeichnen.

TextGrid wird Wikimedia Deutschland die Dateien in genau der Form
bereitstellen, in der sie sie auch von Editura erhalten haben. Wir
werden sie, sobald wir sie erhalten, dann den Projekten Wikisource und
Wikimedia Commons anbieten, die dann entscheiden können, ob und wie
sie die Daten in ihre Projekte importieren. Wer möchte, kann auch den
kompletten Datensatz für eigene Projekte nutzen, es sind immerhin 2
Milliarden Zeichen Text in deutscher Sprache. Auch wenn
Wikipedia-Texte auf zeno.org gespiegelt sind, enthält dieses Paket
keine Wikipedia-Texte (die ja dann eh nicht unter cc-by stehen
könnten).

Ich rechne damit, dass wir die Daten im Januar 2010 auf einen Server
gepackt haben, ich werde dazu noch eine entsprechende Mitteilung
machen.

Diese Texte sind auch aus Sicht der Wikipedia ziemlich interessant,
wenn man bedenkt, dass derzeit über 6000 Links auf zeno.org zeigen.
Ich habe unten noch die kurze Mitteilung an die interessierte
Öffentlichkeit beigefügt.

Auf die Gefahr hin, jetzt ein größeres Fass aufzumachen: Die ganze
Debatte um den Aufbau von Europeana, die Deutsche Digitale Bibliothek
und viele andere Digitalisierungsprojekte ist für uns immer wieder
Anlass für den Hinweis, dass Gemeinfreies auch noch nach der
Digitalisierung gemeinfrei ist und alle Kniffe, die freie
Weiternutzung von Digitalisaten zu verhindern, mehr als nur
unerfreulich sind. Wenn eine Bibliothek Drucke aus dem 17. Jahrhundert
oder ein Gemälde eines 1920 verstorbenen Malers digitalisiert, dann
sollte die Öffentlichkeit einfachen Zugriff auf das vollständige
Digitalisat erhalten, nicht nur auf ein Thumbnail oder eine
verkachelte, mit Wasserzeichen überklebte und mit Flash schwer
benutzbare und eingeschränkte Anzeigefunktion. Auch Beschränkungen wie
"für wissenschaftliche-nichtkommerzielle Nutzung kostenlos" schaden
der Allmende und natürlich auch direkt und indirekt den
digitalisierenden Institutionen. Und das nicht erst, wenn diese selbst
von woanders gerne an Daten kämen und sie nicht so einfach erhalten,
wie es technisch möglich wäre.

Wikisource und Wikimedia Commons sind in dieser Hinsicht hervorragende
Beispiele für frei verfügbare und frei nutzbare Inhalte und ich würde
mich sehr freuen, wenn diese aus dem zeno.org-Bestand Nutzen ziehen
könnten. Ich kann mir sehr gut vorstellen, dass die kreative Nutzung
dieser Daten auch im BMBF nicht unbemerkt bliebe und einen
entsprechenden Einfluss auf künftige Förderentscheidungen hätte.

Ganz besonders möchte ich mich bei allen an dieser Aktion Beteiligten
bedanken, den Angestellten der Universität Göttingen, Michael Weller
von Creative Commons, Tim Bartel und natürlich dem BMBF (Es lebe das
Förderkennzeichen 01UG0901A!).

Ich wünsche Euch frohe Feiertage, stehe für Rückfragen auf der
Mailingliste oder direkt zur Verfügung
(mathias.schindler at wikimedia.de).
Mathias

[1] http://creativecommons.org/licenses/by/3.0/de/legalcode Abschnitt
3, letzter Absatz

---

Text der Erklärung:

2.347.703.384 Zeichen kulturelles Erbe frei verfügbar

TextGrid, Wikimedia und Creative Commons Deutschland [1] kooperieren,
um eine umfangreiche Textsammlung für die Öffentlichkeit frei
verfügbar zu machen.

Der Forschungsverbund TextGrid hat kürzlich die Texte der
Online-Bibliothek zeno.org mit Mitteln des Bundesministeriums für
Bildung und Forschung (BMBF) erworben [2]. Diese digitale Sammlung ist
die umfangreichste ihrer Art im deutschen Sprachraum und enthält Texte
vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20.
Jahrhunderts.

TextGrid, Wikimedia Deutschland und Creative Commons Deutschland
kooperieren nun, um diese Textsammlung für die Allgemeinheit frei
nutzbar zu machen. Wikimedia wird die Sammlung mit Unterstützung von
TextGrid in Kürze bereitstellen. Soweit sie aus gemeinfreien Inhalten
besteht (insbesondere bzgl. der digitalisierten Texte selbst) wird
dann eine Nachnutzung ohne Einschränkungen möglich sein. Soweit
zusätzliche Erschließungsdaten enthalten sind (z.B. bibliografische
Metadaten) werden diese unter der Lizenz CC-BY 3.0 de [3] stehen.
Diese Lizenz erfordert hauptsächlich die Namensnennung des
Lizenzgebers und ist überdies durch die Free Software Foundation als
„free license“ anerkannt [4].

“Durch die Wahl der Creative Commons Lizenz entsteht für jeden
Nachnutzer der Texte Rechtssicherheit, da über den urheberrechtlichen
Status der eigentlichen Werke hinaus dadurch auch die Frage der
Leistungsschutzrechte geklärt ist und der Lizenzgeber auf sämtliche
aus diesem Schutz resultierenden Rechte soweit wie möglich
verzichtet“, erklärt Michael Weller von der Europäischen EDV-Akademie
des Rechts (Projektleitung Recht für Creative Commons Deutschland).

Jeder Internetnutzer erhält freien Zugriff auf die Dateien und kann
den Datenbestand unter Berücksichtigung der Namensnennung
weiterbearbeiten. Für die von der Wikimedia Foundation betriebenen
Projekte entstehen neue Möglichkeiten: “Durch den freien Zugriff auf
die Daten können die von der Wikimedia Foundation betriebenen Projekte
wie Wikisource und Wikimedia Commons und ihre Benutzer die Werke der
Textsammlung in ihrer Wissenssammlung anbieten und vernetzen“,
erläutert Mathias Schindler von Wikimedia Deutschland.

Von der Kooperation profitieren somit Öffentlichkeit wie
Fachwissenschaft: “Nicht mehr die Digitalisierung, wie noch in den
90er Jahren, sondern die methodisch innovative Erschließung der
strukturierten Datenmengen ist die Leitaufgabe der Digital Humanities.
Mit der Kooperation ermöglichen wir nicht nur der Fachwissenschaft,
sondern auch der allgemeinen Öffentlichkeit Zugriff auf diese
Informationen“, betont Dr. Heike Neuroth, TextGrid Projektleiterin an
der Niedersächsischen Staats- und Universitätsbibliothek Göttingen.

TextGrid wird die Sammlung nun innerhalb der nächsten drei Jahre für
die wissenschaftliche Verwendung aufbereiten (z.B. Konvertierung in
TEI, tiefere Auszeichnung für genauere Recherchen) und in einer
virtuellen Forschungsumgebung zusammen mit passenden Werkzeugen zur
Weiterverarbeitung bereit stellen. Die fachwissenschaftlichen
Communities sind zu einer Abstimmung über die gewünschten
Lizenzbedingungen für ihre dann auf dieser Basis entstehenden
Forschungsdaten aufgerufen [5].

[1] Projektleitung Recht für Creative Commons Deutschland, getragen
von der Europäischen EDV-Akademie des Rechts (EEAR) und dem Institut
für Rechtsinformatik der Universität des Saarlandes (IFRI).

[2] Pressemitteilung der Georg-August-Universität Göttingen vom 2.12.2009:

http://www.uni-goettingen.de/de/3240.html?cid=3426

[3] Creative Commons Lizenz cc-by:

http://creativecommons.org/licenses/by/3.0/de/

[4] Stellungnahmen der FSF zu den CC-Lizenztypen BY und BY-SA:

http://www.gnu.org/licenses/license-list.html#OtherLicenses

[5] Abstimmung über Lizenzbedingungen für die wissenschaftliche
Verwendung in TextGrid:

http://www.textgrid.de/abstimmung.html