Re: [VereinDE-l] PediaPress auf der Buchmesse

16 Oct 2008


      Moin,
-------- Original-Nachricht --------
...
Datum: Thu, 16 Oct 2008 08:56:53 +0200
Von: Daniel Kinzler daniel@brightbyte.de
An: "Mailingliste des Wikimedia Deutschland e.V. / mailing list of the German 	Wikimedia association" vereinde-l@lists.wikimedia.org
Betreff: Re: [VereinDE-l] PediaPress auf der Buchmesse
...
Heiko schrieb:
...
church.of.emacs.ml schrieb:
...

Auf der Homepage von pediapress lässt sich ein Beispielbuch als PDF

downloaden. In diesem Buch ist die GFDL abgedruckt, die Liste der
Autoren konnte ich allerdings nicht entdecken. Wie ist dies zu
erklären?
...
die ist jeweils am ende der artikel. tatsächlich nutzen wir zur 
bestimmung der "hauptautoren" nur die letzten 500 revisionen, gefiltert 
um anonymous und bots - das ist sicherlich nicht optimal. wir haben uns,
auch wenn es nicht so erscheint, viele gedanken darüber gemacht und 
verschiedene ansätze ausprobiert. die problematik liegt zum einen
darin,
...
dass meines wissens eine genaue definition fehlt, die festlegt wie die 
hauptautoren bestimmt werden. so basierte unser erster ansatz auf den 
dumps mit der vollen versionshistorie, darin die häufigsten autoren
für
...
jeden artikel zu bestimmen, gewichtet mit der größe der edits. leider 
war dieser ansatz erstens sehr rechenaufwendig, funktioniert zweitens 
nur für wikis die einen full-history-dump bereitstellen und ist
drittens
...
fehleranfällig (einfach regelmäßig 5k spam an artikel anhängen und 
hoffen, dass der algorithmus zur bestimmung der hauptautoren keine 
künstliche intelligenz nutzt).
Eine Lösung dieses Problems würde WikiTrust [1] liefern. WikiTrust kann
zu jedem
Wort Angeben, wer es beigetragen hat, unter Brücksichtigung von
Umstrukturierungen und Reverts. Damit ließen sich leicht die Hauptautoren
ermitteln (nach % der zur aktuellen Version beigetragenen Wörter), und
sogar bei
Bedarf im Text hervorheben, wer was geschrieben hat, ähnlich wie
Wikigenes [2]
das tut. Ich hoffe sehr, dass wir WikiTrust bald (im Laufe von 2009)
bekommen.
-- daniel
[1] http://trust.cse.ucsc.edu/
[2] http://www.wikigenes.org/

Für die Wikipress-Bücher haben wir damals einen ähnlichen Weg genommen wie Wikitrust. Die Identifizierung der Reihenfolge der Hauptautoren erfolgte auf der Basis eines Triplettvergleichs (immer drei aufeinanderfolgende Zeichen) des importierten Textes über ein Tool, dass im Volldumb die Versionsgeschichte durchscannte und jedes Triplett mit dem Endtext verglich. Im Ergebniss resultierten Gesamtzeichenlisten wie sie bsp. unter http://www.wikipress.de/Erde (ganz unten) abgebildet sind. In die Bücher wurden dann die Autoren vollständig für jeden einzelnen Artikel absteigend nach ihrem Beitrag gelistet, IPs wurden zusammengefasst.
Einzelheiten zu dem Tool lassen sich evtl. über Vlado oder Raul (beide directmedia/Zenodot) erfahren. Problem hier: Ein Dumb mit allen Versionsgeschichten muss verfügbar sein.
Wie ich bereits schrieb: Das pure Abzählen der Einzeledits halte ich für sehr bedenklich und überhaupt nicht geeignet, Hauptautoren zu filtern. Die Begrenzung auf die letzten 500 Edits ist zudem vor allem bei zentralen und alten Artikeln extrem kritisch; und im Regelfall sind gerade die zentralen auch die alten und viel editierten. Als Beispiel die [[Krokodile]], die ich in der Zeit bis Dezember 2004 ausgebaut habe und die sich seitdem inhaltlich kaum verändert haben - aber sicher weit mehr als 500 Edits seitdem aufweisen; nach der pedia-Methode würde ich also aus der Autorenliste rausfallen, obwohl der Text substanziell von mir stammt.
Im Ergebnis: Es wird echt Zeit, dass es eine brauchbare Implementierung in der Wikipedia gibt, nach der auf Knopfdruck brauchbare Haupautorenlisten erscheinen (und nicht jeder Verwerter immer was eigenes entwicklen muss, was im Endeffekt in den seltensten Fällen, hier Pediapress und auch Bertelsmann brauchbar ist) - evtl wäre das ja auch ein prima Job für Daniel oder für einen externen Programmierauftrag?
Gruß,
Achim
-- 
Psssst! Schon vom neuen GMX MultiMessenger gehört? Der kann`s mit allen: http://www.gmx.net/de/go/multimessenger

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

Re: [VereinDE-l] PediaPress auf der Buchmesse