Moin,
-------- Original-Nachricht --------
Datum: Thu, 16 Oct 2008 08:56:53 +0200 Von: Daniel Kinzler daniel@brightbyte.de An: "Mailingliste des Wikimedia Deutschland e.V. / mailing list of the German Wikimedia association" vereinde-l@lists.wikimedia.org Betreff: Re: [VereinDE-l] PediaPress auf der Buchmesse
Heiko schrieb:
church.of.emacs.ml schrieb:
- Auf der Homepage von pediapress lässt sich ein Beispielbuch als PDF
downloaden. In diesem Buch ist die GFDL abgedruckt, die Liste der Autoren konnte ich allerdings nicht entdecken. Wie ist dies zu
erklären?
die ist jeweils am ende der artikel. tatsächlich nutzen wir zur bestimmung der "hauptautoren" nur die letzten 500 revisionen, gefiltert um anonymous und bots - das ist sicherlich nicht optimal. wir haben uns, auch wenn es nicht so erscheint, viele gedanken darüber gemacht und verschiedene ansätze ausprobiert. die problematik liegt zum einen
darin,
dass meines wissens eine genaue definition fehlt, die festlegt wie die hauptautoren bestimmt werden. so basierte unser erster ansatz auf den dumps mit der vollen versionshistorie, darin die häufigsten autoren
für
jeden artikel zu bestimmen, gewichtet mit der größe der edits. leider war dieser ansatz erstens sehr rechenaufwendig, funktioniert zweitens nur für wikis die einen full-history-dump bereitstellen und ist
drittens
fehleranfällig (einfach regelmäßig 5k spam an artikel anhängen und hoffen, dass der algorithmus zur bestimmung der hauptautoren keine künstliche intelligenz nutzt).
Eine Lösung dieses Problems würde WikiTrust [1] liefern. WikiTrust kann zu jedem Wort Angeben, wer es beigetragen hat, unter Brücksichtigung von Umstrukturierungen und Reverts. Damit ließen sich leicht die Hauptautoren ermitteln (nach % der zur aktuellen Version beigetragenen Wörter), und sogar bei Bedarf im Text hervorheben, wer was geschrieben hat, ähnlich wie Wikigenes [2] das tut. Ich hoffe sehr, dass wir WikiTrust bald (im Laufe von 2009) bekommen.
-- daniel
[1] http://trust.cse.ucsc.edu/ [2] http://www.wikigenes.org/
Für die Wikipress-Bücher haben wir damals einen ähnlichen Weg genommen wie Wikitrust. Die Identifizierung der Reihenfolge der Hauptautoren erfolgte auf der Basis eines Triplettvergleichs (immer drei aufeinanderfolgende Zeichen) des importierten Textes über ein Tool, dass im Volldumb die Versionsgeschichte durchscannte und jedes Triplett mit dem Endtext verglich. Im Ergebniss resultierten Gesamtzeichenlisten wie sie bsp. unter http://www.wikipress.de/Erde (ganz unten) abgebildet sind. In die Bücher wurden dann die Autoren vollständig für jeden einzelnen Artikel absteigend nach ihrem Beitrag gelistet, IPs wurden zusammengefasst.
Einzelheiten zu dem Tool lassen sich evtl. über Vlado oder Raul (beide directmedia/Zenodot) erfahren. Problem hier: Ein Dumb mit allen Versionsgeschichten muss verfügbar sein.
Wie ich bereits schrieb: Das pure Abzählen der Einzeledits halte ich für sehr bedenklich und überhaupt nicht geeignet, Hauptautoren zu filtern. Die Begrenzung auf die letzten 500 Edits ist zudem vor allem bei zentralen und alten Artikeln extrem kritisch; und im Regelfall sind gerade die zentralen auch die alten und viel editierten. Als Beispiel die [[Krokodile]], die ich in der Zeit bis Dezember 2004 ausgebaut habe und die sich seitdem inhaltlich kaum verändert haben - aber sicher weit mehr als 500 Edits seitdem aufweisen; nach der pedia-Methode würde ich also aus der Autorenliste rausfallen, obwohl der Text substanziell von mir stammt.
Im Ergebnis: Es wird echt Zeit, dass es eine brauchbare Implementierung in der Wikipedia gibt, nach der auf Knopfdruck brauchbare Haupautorenlisten erscheinen (und nicht jeder Verwerter immer was eigenes entwicklen muss, was im Endeffekt in den seltensten Fällen, hier Pediapress und auch Bertelsmann brauchbar ist) - evtl wäre das ja auch ein prima Job für Daniel oder für einen externen Programmierauftrag?
Gruß, Achim