[Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

Bjoern Hoehrmann derhoermi at gmx.net
Fr Jan 29 11:15:00 UTC 2010


* Bjoern Hoehrmann wrote:
>  Ich hab vor einiger Zeit mit etwas Fassungslosigkeit zur Kenntnis ge-
>nommen, dass die Kontrolle von neuen Artikeln inklusive dem Stellen von
>Schnelllöschanträgen bzw. dem administrativem Schnelllöschen im Wesent-
>lichen manuell erfolgt. Ich hab daraufhin angeregt, die neuen Artikel
>einfach mal durch einen klassichen Spamfilter zu schicken um so Tasta-
>turtests und derlei automatisch zu erkennen (und dann gegebenenfalls
>gleich zu verhindern).

Ich hab das Experiment nochmal wiederholt von 2010-01-24T18:51:18Z bis
2010-01-26T09:38:30Z mit 2127 neuen Artikeln bzw. Weiterleitungen. Die
Lernmethode habe ich leicht angepasst, wenn der Hyperspace classifier
einen pR-Wert von unter 0.55 liefert, wird der Artikel nachgelernt. Es
wurde jeweils die Kombination "Lemma - Benutzer - ZQ - Text" betrachtet.

Nicht betrachtet habe ich diesmal Weiterleitungen und zähle es nicht
als Fehler, wenn die erste Revision einer Neuanlage automatisch ge-
sichtet wurde, CRM114 aber eine Löschung prophezeit. Die Fehler teilen
sich so auf:

46 mal (inklusive der Lernphase) falsch "löschen", davon inzwischen

   2 x URV
   4 x Gelöscht (sprich, nach Ende der Aufzeichnung)
   5 x Redirect draus gemacht
  12 x LA
  23 x Ausgebaut, Erkennungsfehler, ...

77 mal (inklusive der Lernphase) falsch "behalten", davon inzwischen

  1 x Wieder da als URV
  2 x Wieder da als Redirect
  1 x Wieder da nach BNR Überarbeitung
 73 x Blieb gelöscht

Das wäre also eine Fehlerrate von irgendwo zwischen

  (46 + 77) / 2127 = 5.78%
  (23 + 73) / 2127 = 4.51%

Eine gewisse Fehlerrate ist natürlich zwangsläufig, Relevanz und Re-
dundanz und Urheberrechtsverletzungen lassen sich so natürlich nicht
aufspüren, ebenfalls findet man schnelle Ausbauten nicht, zum Beispiel
http://de.wikipedia.org/w/index.php?oldid=69757056 wäre ein Fall wo
die Löschung nahe lag, zwei Stunden später dann aber nicht mehr. Und
natürlich sind auch einige nicht nachvollziehbare Schnellöschungen da-
bei.

Bei den Neuanlagen die gelöscht wurden schaffte es nur ein Drittel
länger als zwei Minuten zu bleiben, ein Drittel war in unter einer
halben Minute weg, der Median liegt um und bei 53 Sekunden.

Damit sehe ich meine im Dezember geäusserte Vermutung bestätigt, dass
man den Anteil der richtigen Voraussagen problemlos auf 95% steigern
kann, allerdings reichte eine leicht angepasste Lernmethode und eine
etwas saubere Datenbasis aus, bei der Evaluierung sehe ich auch nicht,
dass man über eine Analyse des Wikifizierungsgrades oder derlei noch
viel herausholen könnte. Die Benutzeraktivität habe ich hier insoweit
berücksichtigt, als dass ich das automatische Sichten der ersten Re-
vision herangezogen habe.

Interessanter Weise, wie ich grad noch festgestellt habe, ist der In-
halt der Kommentarzeile (zusammen damit, Sichtern alles durchgehen zu
lassen) fast ausreichend um auf eine Richtig-Erkennungs-Rate von 92%
zu kommen. Offenbar ist "Lemma - Benutzer - ZQ - Text" analysieren zu
lassen auch nicht unbedingt die beste Methode, nimmt man "- Text -"
alleine verbessert sich die Rate auf 95.25%, nimmt man noch ein paar
von den Problemfällen von oben hinzu (ohne jetzt geguckt zu haben wie
die genauen Auswirkungen sind) wäre man damit wohl bei bei einer Feh-
lerrate von unter 4%.
-- 
Björn Höhrmann · mailto:bjoern at hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/