Re: [Wikide-l] Re: Vorschlag für effizientere Kontrolle der neuen Beiträge

11 Mar 2004


      ...
Ich habe ausgerechnet, ob die Möglichkeit der Artikelkontrolle
tatsächlich mit der Größe der Wikipedia skaliert:
Zuerst ein paar Definitionen:
A: Anzahl der pro Tag zu prüfenden Artikel
B: Anzahl der Benutzer, die die Artikel prüfen
P: Anzahl der Prüfungen pro Benutzer und Tag
Dann gibt N=BP/A an, wie oft ein Artikel
im Mittel geprüft wird.
Annahme: Kein Benutzer prüft Artikel mehrfach und
wählt unabhängig von den anderen Benutzern
die Artikel, die er prüft, zufällig aus.
Die Wahrscheinlichkeit w für einen Artikel, von
keinem Benutzer geprüft zu werden ist:
w = X^N
mit X=(1-P/A)^(A/P)
Zum Verständnis: 1-P/A ist die Wahrscheinlichkeit,
dass ein ganz bestimmter Benutzer einen ganz bestimmten
Artikel nicht prüft. w=(1-P/A)^B ist die Wahrscheinlichkeit,
dass kein Benutzer den Artikel prüft. Mit N*(A/P)=B stimmt
also die Behauptung von el.
...
Um w möglichst klein zu halten, sollte auch
X möglichst klein sein. Für den Genzfall
A/P->unendlich ist X=1/e. ...
Zur Erläuterung: die eulersche Zahl e=2,71... lässt sich
genau durch den Grenzwert
lim (1-1/x)^x = 1/e
          x->inf.
definieren.
...
... Schlimmer kann es
nicht werden. Wenn man sich im Bereich
A>>P befindet (so wie jetzt: A=1000, B=100
(geschätzt)), kann man also sagen, dass die
Funktionsweise der Wikipedia perfekt mit
der Aktivität skaliert. Nur ist diese
Funktionsweise wenig effektiv: Wenn ein
Artikel im Schnitt von 2 Benutzern geprüft
wird, werden ca. 14% der Artikel von niemandem
geprüft. Bei N=3 ist immer noch w=5%. Dieses
Gießkannenprinzip funktioniert zwar irgendwie,
aber besonders intelligent finde ich es nicht.
Ich finde es immerhin recht genial, dass man
(unter obigen Annahmen) ausrechnen kann, wieviele
Artikel ungeprüft bleiben.
Was passiert, wenn sich die Prüfungen nicht (wie oben
angenommen) gleichmäßig auf die Prüfenden verteilen?
Dass Ergebniss sollte dann doch besser ausfallen,
da die Annahme "jeder prüft einen Artikel nur einmal"
wohl richtig ist.
Problematischer ist die Annahme, dass ein Benutzer
den zu prüfenden Artikel völlig zufällig wählt. In
der Regel arbeitet er in einem gewissen Zeitfenster.
und prüft dann alle Artikel, die gewisse Kriterien
besitzen. Das Zeitfenster ist kein Problem. Man kann
hier wieder eine Worst-Case-Betrachtung machen. Statt
einem Tag, wählt man 10min und betrachet dann die 10min
des Tages (der Woche), mit den ungünstigsten Paramtern.
Schwierig sind nur die Kriterien. Ich geh in der Liste
der neuen Artikel alle besonder kurzen Artikel durch,
wenn ich mal Bock drauf hab. Dann fliegen vor allem
Artikel raus, die zu wenig Inhalt besitzen. URVs finde
ich damit aber keine.
D.h., man muss die Betrachtungen für jede Sorte von
Fehlerquelle durchführen. Dann kann man sagen, so und
so viel Prozent der Artikel sind nicht auf dieses oder
jenes Kriterium geprüft worden.
Wir sollten die Parameter mittels Umfragen mal von
Zeit zu Zeit überprüfen und ausrechnen wie schlecht oder
gut wir in welchem Bereich (im schlimmsten Fall) sind.
Dann können wir auch bessere Maßnamen abstimmen, um die
Qualität zu erhöhen. Nicht zu letzt gibt uns dass auch
ein Argument gegen Brockhaus und Co in die Hand. Wenn
mit mathematischen Methoden nachrechnen, wie gut wir
sind, fällt es denen schwerer Einspruch zu erheben.
...
Wir haben den Bereich A>>P auch erst in den
letzten Monaten erreicht. Vorher war die
Möglichkeit, effizient zu kontrollieren, erheblich
besser (d.h. X war viel kleiner).
Der Vorschlag, den ich gemacht hatte, läuft
darauf hinaus, das Verhältnis A/P möglichst
klein zu halten. Im optimalen Fall A/P=1
wird X=0 und damit w=0.
Zur Erläuterung: A/P wird dadurch klein, dass sich die
Prüfer abstimmen. Wenn sich zwei Prüfer abstimmen und
nur Artikel prüfen, die der andere nicht prüft, kann man
sie nach diesem Modell als ein Prüfer betrachten, die
doppelt so viele Artikel prüfen (lässt sich nat. auch auf
mehere Prüfer verallgemeinern).
Der bestmögliche Fall tritt dann ein, wenn sich alle Prüfer
zu einem Prüfer zusammenschließen. Er wird otimal, wenn
dieser eine Prüfer alle Artikel prüfen kann. Logisch, darauf
zielt das System ja ab. Aber selbst wenn das nicht reicht,
wissen wir genau, wieviel uns durch die Lappen geht.
...
...
Erik Möller(?) hatte vor einigen Wochen auf wiki-tech vorgeschlagen
eine checkbox auf jede neue Seite legen, die ein Admin aktivieren
kann und damit in der "new articles" Liste signalisiert, dass der
betreffende Artikel schon überprüft wurde. Wer so etwas
implementieren will, wird damit bestimmt auf  wiki-tech auf offene
Ohren treffen.
Das finde ich nicht ausreichend. Ich prüfe wie oben schon
erläutert häufiger mal die kurzen neuen Artikel. Ich ändere
sie aber in der Regel nicht, auch wenn sie Halbsätze enthalten,
nicht wikif. sind usw. Es sollte mehere Checkboxen geben, in
denen man ankreuzen kann, was an dem Artikel noch zu erledigen
ist.
...
Ein solcher Mechanismus wäre auch nicht schlecht,
sollte aber nicht an den Adminstatus gebunden sein.
Andererseits macht es auch wenig Sinn, jedem eine
solche Bewertung zu ermöglichen. Man bräuchte einen
neuen Status wie "erfahrener Benutzer" o.ä., was alles
wieder ziemlich kompliziert machen würde.
Im Grunde läuft deine Idee auf dem von mir schon vor langer Zeit
vorgeschlagenen Reviewers-Mode hinaus. Man klickt auf einen Button "Review"
und bekommt einen ungeprüfen Artikel vorgesetzt, den man prüfen, bewerten,
verbessern kann. Das System entscheidet dann, welchen Artikel es aufgrund
der Bewertung nochmal jemand anderem Vorsetzen muss, am besten nach dessen
vorlieben...
Vollständig geprüfte Artikel werden niemandem mehr vorgesetzt...
--Ivo Köthnig

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

Re: [Wikide-l] Re: Vorschlag für effizientere Kontrolle der neuen Beiträge