[Wikide-l] Fwd: Umwandlung von 290.000 Wikipedia-Personendaten in PND-like-Datensätze

Mathias Schindler mathias.schindler at gmail.com
Fr Nov 20 08:32:52 UTC 2009


Hi,

nachfolgende Email ging vorhin an die Bibliothekarsmailingliste
inetbib, ich schicke Sie euch hier als Forward.

Viel Spaß damit :)

Mathias


---------- Forwarded message ----------
From: Mathias Schindler <mathias.schindler at gmail.com>
Date: 2009/11/20
Subject: Umwandlung von 290.000 Wikipedia-Personendaten in PND-like-Datensätze
To: Internet in Bibliotheken <inetbib at ub.uni-dortmund.de>


Liebe Liste,

wie vielleicht einigen schon bekannt, verknüpfen die Autoren der
Wikipedia seit 2005 Personeneinträge der deutschsprachigen Wikipedia
mit dem dazugehörigen PND-Datensatz, sofern verfügbar. Ein Nutzen
dieser Aktion ist beispielsweise das Bequeme Hinführen von Lesern zum
Katalog der DNB (prinzipiell zu jedem Katalog, der etwas mit
PND-Nummern anfangen kann). Von (alle zahlen sachte gerundet) 900.000
Artikeln der Wikipedia sind 300.000 über Personen, davon sind 100.000
davon mit PND-Nummern versehen. Zu den übrigen 200.000 Personen sind
entweder noch keine Datensätze in der PND vorhanden oder wir haben sie
noch nicht entdeckt und verknüpft (mehr Infos finden Sie unter
http://hsozkult.geschichte.hu-berlin.de/tagungsberichte/id=2806 und in
den dort verlinkten Vortragsfolien).

Ich möchte Ihnen daher eine kleine Technologiedemonstration zeigen,
die Christian Thiele entwickelt hat; wir nennen sie derzeit "Projekt
zur Entwicklung einer Elektronischen Normdatei für deutschsprachige
Enzyklopädisten" (PeEnDe). Titel und Abkürzung kann man schnell wieder
vergessen, der Inhalt zählt.

Dabei werden aus den in Wikipedia gespeicherten Informationen
Datensätze im PND-Format angelegt, z.B.:
http://toolserver.org/~apper/pd/PeEnDe.php?id=2155

Die ID in diesem Tool entspricht der internen Artikel-ID der Wikipedia
(und steht im HTML-Quelltext). Da sie nur halbwegs stabil ist, eignet
sie sich keinesfalls für eine dauerhafte externe Referenzierung.

Einen kompletten Abzug aller Daten finden Sie auf 23 MByte komprimiert
http://toolserver.org/~apper/pd/PeEnDe.zip

Ich freue mich sehr über Feedback, Fehlerberichte oder Anregungen, wie
zulässige Felder der PND noch automatisch aus Wikipedia besetzt werden
können. Unter anderem sollten wir noch in der Lage sein, aus den
Kategorien eines Artikels einen oder mehrere Berufe für Feld 315
verwenden zu können.

Zur Sicherheit eine Wiederholung: Dies ist kein eigenständiges
Normdatenprojekt, wir empfehlen weiterhin allen Interessierten die
Nutzung der echten PND.

Wenn Sie eine weitere thematisch passende Mailingliste für diese
Ankündigung kennen, leiten Sie diese bitte weiter.

Viele Grüße,
Mathias Schindler