Liebe Liste,
in den letzten Wochen habe ich sehr viel Spaß mit einem neuen Projekt von Google gehabt, dessen erste Ergebnisse in den nächsten Tagen online gehen. Wer mich aus dem IRC kennt, wird an meinen Schwärmereien nicht vorbeigekommen sein.
Google Co-op ist ein Projekt, das derzeit aus zwei Teilen besteht. Topics und Subscribed Links. Die deutlich angenehmere Lern- und Erfahrungskurve hatte meiner Meinung nach Subscribed Links, also habe ich damit einmal angefangen.
Exkurs: Was ist die Onebox.
Googles wichtigstes Element besteht aus den Resultaten. Zu einem gegebenen Suchbegriff gibt Google mehr oder weniger einheitlich Treffer aus. Die Rangfolge ergibt sich aus der angenommenen Relevant der Suchtreffer für den Anfragenden. Suche ich nach "Angela Merkel", warum auch immer, wirft mir die deutschsprachige Suche von Google zuerst angela-merkel.de aus, an zweiter Stelle den deutschsprachigen Wikipedia-Eintrag zu dieser Frau. Wikipedia hat generell ein gutes Standbein bei Google, da die Inhalte ausführlich, aktuell, gut verlinkt, barrierefrei und mit (als ob das noch jemanden 2006 interessieren sollte) gut mit Metadaten ausgestattet sind.
Rechts daneben findet sich für denjenigen, der das nicht browserseitig herausfiltert, noch das Geschäftsmodell von Google in Form von Werbung. Bei bestimmten Suchanfragen wird in der Zeile über den Suchtreffern noch die sogenannte onebox eingeblendet. Die Suchanfrage "Was ist eine Primzahl" triggert beispielsweise das Define-Feature von Google und hin und wieder Google Scholar, die Suchmaschine für wissenschaftliche Veröffentlichungen. Teilweise werden auch in dieser Region Werbeanzeigen eingeblendet. Gängige Oneboxen sind Treffer aus Google Booksearch, Zugverbindungen, Nachrichtentreffer, Kataloginhalte und andere. Teilweise gibt es auch Suchprotokolltreffer für diejenigen, die sich auf google angemeldet haben.
Inkurs: Was ist Google Co-op/Subscribed Links?
Subscribed Links sind von Diensteanbietern frei erstellbare Oneboxen.
Die Basics:
Ein Benutzer googelt nach "Angela Merkel". Wikipedia hat, wie wir wissen, nette Inhalte zu Angela Merkel. Wikipedia bietet, nichts liegt näher als dies, also eine Onebox an.
dewp hat derzeit über 410.000 Seiten, von denen die meisten Artikel sind. Sonderfälle sind hierbei Listen und BKLs. Ohne jetzt die genauen Statistiken gesehen zu haben, glaube ich, daß wir als deutschsprachige Wikipedia einen wirklich großen Anteil der üblichen Suchanfragen in Form eines Lemmas haben. Selbstverständlich suchen Menschen auch nach "Telefonnummer Karlheinz Müller" oder sonstige Anfragen, aber alle Zweifler seien auf Google Zeitgeist verwiesen (vorsicht, das wird rekursiv, in Deutschland ist Wikipedia seit einigen Monaten der populärste Suchbegriff, gefolgt von Suchanfragen, zu denen wir allesamt etwas anbieten können, ohne eine große geistige Transferleistung hinzulegen.
Das schöne an Google Co-op ist, daß es von Menschen entwickelt wurde, die nachgedacht haben, bevor sie losgelegt haben. Die Onebox-Konfiguration und Befütterung geschieht über XML-Dateien, die entweder hochgeladen werden können oder auf eigenen Webservern liegen.
Für das Beispiel Angela Merkel ist das also folgendes:
Beispiel.
<ResultSpec id="mw3"> <Query>Angela Merkel</Query> <Response> <Output name="title">Wikipedia:Angela Merkel</Output> <Output name="more_url">http://de.wikipedia.org/wiki/Angela_Merkel</Output> <Output name="text1">Angela Dorothea Merkel (* 17. Juli 1954 in Hamburg) ist eine deutsche Politikerin.</Output> <Output name="text2">Sie ist seit dem 22. November 2005 Bundeskanzlerin der Bundesrepublik Deutschland...</Output> </Response> </ResultSpec>
Diese Dateien sind einigermaßen gut automatisch zu erstellen, es ist übrigens nochmal ein guter Grund, warum wir eine brauchbare Leadsection haben sollten.
Klingt soweit ganz gut, ist es eigentlich auch. Angezeigt bekommt jemand diese Subscribed Links dann, wenn er in google co-op auf diese Inhalte subscribed (default). Es gibt noch einen anderen Weg, auf den ich bei Gelegenheit zu sprechen komme.
Jetzt wird es witzig.
Googles Entwickler haben sich bei subscribed Links fröhlich austoben können und einige features eingebaut, mit denen man noch mehr Spaß pro Byte haben kann: Pattern.
Man definiert einfach Suchmuster (Beispielsweise "Geburtsdatum [Name]) und legt in wie üblich einer XML-Datei dann die Antworten dazu ab:
<Results>
<AuthorInfo description="Gib das Geburtsdatum einer Person aus" author="Mathias Schindler"/>
<ResultSpec id="GeburtsdatumMatch1"> <Query>Geburtsdatum [Geburtsdatum]</Query> <Response> <Output name="title">Geburtsdatum von [0.fullname]</Output> <Output name="more_url">de.wikipedia.org/wiki/[0.fullname]</Output> <Output name="text1">Das Geburtsdatum von [0.fullname] ist</Output> <Output name="text2">[0.dob] (laut Wikipedia).</Output> </Response> </ResultSpec>
<DataObject id="5" type="Geburtsdatum"> <QueryName value="Ang Lee" /> <Attribute name="fullname" value="Ang Lee"/> <Attribute name="dob" value="23. Oktober 1954"/> </DataObject>
</Results>
Wer also nach "Geburtsdatum Angela Merkel" sucht, bekommt dann in seiner Onebox nicht nur den Link auf den Artikel zu Angela Merkel angezeigt, sondern gleich die gewünschte Antwort. Auch diese Dateien sind einfach zu erzeugen, denn wir haben dazu die Personendaten.
Jakob Voss stellt auf dem Toolserver Daten bereit, die aus der Wikipedia und ihren Personendaten extrahiert wurden, die Zeile von Angela Merkel liesst sich:
145^IAngela Merkel^IMerkel, Angela^I^I[[Bundeskanzler (Deutschland)|Bundeskanzlerin]] der [[Deutschland|Bundesrepublik Deutschland]] ([[Christlich Demokratische Union Deutschlands|CDU]])^I[[17. Juli]] [[1954]]^I[[Hamburg]]^I^I^I119545373$
Folgende Anfragen sind aus den Personendaten direkt erzeugbar:
1. Wann wurde [Name] geboren? (aka. Geburtsdatum [Name], Geburtstag [Name]) -> GEBURTSDATUM 2. Wo wurde [Name] geboren? -> GEBURTSORT 3. Wann starb [Name]? -> STERBEDATUM 4. Wo starb [Name]? -> STERBEORT
Dann gibt es noch gewisse Varianten daraus:
5. Wie alt ist [Name]? (Feld ALTER, generiert aus $TODAY - $GEBURTSDATUM) - macht nur bei lebenden Personen Sinn
Die anderen Felder sind denkbar:
6. Alias [Name] 7. Welchen Beruf hat/hatte [Name]? (dürfte bei vielen Personendateneinträgen für Schmunzeln sorgen, weil Beruf nicht immer Alleinstellungsmerkmal. 8. Literatur [Name] -> Link auf die PND-Suche von Jakob oder wahlweise auf die DDB
Das nächste Feld sind natürlich auch die Geodaten vom WikiProjekt Georeferenzierung. Hier habe ich testweise mal was zusammengehackt, das zu einem gegebenen Ort das Land, in dem sichdieser Ort befindet anzeigt.
Solange Wikidata und/oder Semantic Mediawiki noch auf sich warten lässt, gibt es noch ein paar andere, aber nicht mehr allzu viele Anwendungsmöglichkeiten für Wikipedia. Denkbar sind Spielereien mit den Taxoboxen, den Townboxen und einigen anderen Dingen. Auch Kategorien könnten möglicherweise ganz interessant sein.
Ich bin hier auf Vorschläge und Hilfestellungen und Mithilfe dankbar. Ganz besonders dankbar bin ich denen, die mir in den letzten Wochen geholfen haben, einige Dinge hinzubekommen: Stefan Kühn, Jens Frank, Magnus Manske und die Leute bei Google, die co-op zum Laufen gebracht haben.
Unter http://meta.wikimedia.org/wiki/Google_Co-op ist eine grobe zusammengeschriebene Zusammenfassung des Standes der Entwicklung, die Rohdaten gibt es an verteilten Orten und sind dort verlinkt.
Mathias