[Wikide-l] Hauptautoren

Ulrich Fuchs mail at ulrich-fuchs.de
Mo Mär 21 20:21:56 UTC 2005


Am Montag, 21. März 2005 20:18 schrieb elwp at gmx.de:

> Die Hauptautoren eines Artikels bzw. ihren Anteil an der aktuellen
> Version zu bestimmen ist sehr einfach. 

Ganz so einfach ist es leider nicht:
> Ich habe ein kleines Skript, 
> das genau das macht, auf Wikipedia:Hauptautoren abgelegt. Es teilt
> die Texte in überlappende Sequenzen von 5 Wörtern auf und bestimmt
> dann, in welcher Version diese zuerst auftraten.

Verstehe ich das richtig: Wenn ein User B in einer 5-Wort-Sequenz des Users A 
einen Tippfehler korrigiert, kriegt User B die 5 Worte komplett zugeschlagen?  
Wenn das so ist, kannst Du davon ausgehen, dass Dein Algorithmus in 95% aller 
Artikel ziemlich falsch liegen wird - diese Mini-Korrekturen stellen den 
Hauptteil der Änderungen in Wikipedia. Du filterst allerdings schonmal die 
Linksetzungen raus - das ist gut, die machen einen Gutteil der 
Mini-Änderungen aus. Aber das Tippfehlerproblem bleibt.

Leider kann ich kein Perl (ich will keine Sprache können, für die man ein GOTO 
L1 braucht ;-)) - drum kann ich's an Deinem Programm nicht nachvollziehen und 
muss fragen, wie das mit den "überlappenden" Sequenzen funktioniert: Wenn Du 
eine Sequenz von fünf Worten hast und die in der ersten Version findest, wie 
gehts weiter? Hinter dem fünften Wort, oder hinter dem zweiten?

> Es wäre meiner Meinung nach sinnvoll, eine Hauptautor-Funktion in
> die Mediawiki-Software zu integrieren. Die Versionsgeschichten sind
> mittlerweile völlig unübersichtlich und zu diesem Zweck nicht mehr
> zu gebrauchen.

Bei Artikeln mit langen Versionsgeschichten 100% ACK. (Bei kurzen gehts noch). 
Ich glaube aber behaupten zu können, dass auch automatisierte Verfahren da an 
die Grenzen kommen - die Fragmente, die man Autoren zuweisen kann, werden zu 
kleinteilig.

Dein Ansatz, alle Versionsgeschichten anzukucken, hat übrigens Vor- und 
Nachteile. Der große Vorteil ist, dass Dir auf die Art 
Vandalismusgeschichten/Reverts etc. nichts ausmachen. Der Nachteil ist, dass 
Du immer alle Versionen durchkucken musst, wenn Du die Hauptautoren für eine 
neue Version rechnen willst: Das dürfte ziemlich aufwändig werden, gerade bei 
den Monsterhistorie-Artikeln. Mein Algorithmus rechnet jedesmal nur die 
Deltas von einer Version zur nächsten, weil er je Version weiß, von welchem 
Autor welche Textstelle ist. Nachteil dabei ist, dass er bei jeder 
Komplettlöschung von Textstellen und anschließender Neueinstellung durch 
einen Dritten (Vandalismusreverts!) versagt. 

Ich umgehe das Problem folgendermaßen (zweiter Vorteil meines Ansatzes, 
wenngleich etwas umständlich zu bedienen): Ich habe eine spezielle 
Kopierfunktion zwischen Artikeln (statt Copy- und Paste). Die schleppt die 
Autorenattribute des kopierten Textes in den neuen Artikel mit rüber - wieder 
etwas GNU FDL konformer. Und kann natürlich auch zum Kopieren zwischen 
Versionen benutzt werden, sprich für (bei mir hoffentlich nur selten 
notwendig werdende) Vandalismus-Reverts.

Uli