[Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

Bjoern Hoehrmann derhoermi at gmx.net
Sa Dez 19 02:47:04 UTC 2009


* Peter Jacobi wrote:
>Björn, leider fehlt die wichtige Aufgliederung der "falschen"
>Entscheidungen in die Fälle falsch positiv und falsch negativ.

Die Frage ist nicht unbedingt sinnvoll. Mir ging es darum mal zu sehen
was man ohne sich vorher mit dem Thema beschäftigt zu haben in ein paar
Stunden machen kann; die Zahlen bedingen hier auch einander. Ich hab
grad mal den Lernmechanismus sehr grob verändert, so dass vor allem be-
halten-Entscheidungen dazugelernt werden und Löschungen vernachlässigt.
Damit werden dann behalten-Entscheidungen mit einer Treffsicherheit von
99% vorausgesagt, Löschentscheidungen aber nur noch mit 37%.

(Immer wenn richtig klassifiziert wird lass ich den Text lernen wenn
sich die "Wahrscheinlichkeit" in einem bestimmten Bereich befindet,
dafür hat CRM114 einen "pR" Wert, beim Löschen muss der zwischen 0.51
und 0.55 sein, beim behalten kleiner als 1.0).

Ferner gibt es ja das Problem mit der Erwartungshaltung. Im Datensatz
ist zum Beispiel ein Artikel, ein grammatikalisch schlechter Wörterbuch-
eintrag in einem Satz zu einem Begriff aus der Pornographie zu dem es
einen Artikel gibt; mein Skript erwartet Löschung, der Artikel wurde
aber zu einer Weiterleitung gemacht und behalten. Das zählt dann als
Fehler.

Ein anderes Beispiel ist ein Artikel der in der falschen Sprache war,
aber offensichtlich mitsamt {{inuse}} zur Übersetzung die dann folgte
importiert. Mein Skript erwartet hier auch eher die Löschung, wurde
aber behalten, wieder ein Fehler.

Hinzu kommen dann mehrere dutzend Artikel bei denen ich die Löschung
nicht gut nachvollziehen kann, oder die Begründung falsch ist (wobei
ich die Begründung ohnehin schon ignoriere). Ich nehme da mal als ein
Beispiel einen Artikel zu einer Hilfsorganisation von einem angemelde-
ten Benutzer der schon länger angemeldet ist und andere Artikelarbeit
verrichtet hat; die Organisation ist fern ab von offensichtlicher Ir-
relevanz, der Artikel war durchaus umfangreich und inhaltlich stimmig,
mit leicht werblichem Charakter (und allerdings auch Kritik).

Nach 101 Sekunden musste der Artikel schnellverschwinden ohne Antrag,
ohne Ansprache, "[[WP:WWNI|Reiner Werbeeintrag]]". Wenn man Skript da
eine Behaltensentscheidung vorhersagt kann ich das kaum als Fehler ein-
ordnen.

Bei einigen Fällen muss man wohl auch die geheime Versionsgeschichte
zu Hilfe ziehen um die Löschung irgendwie nachvollziehen zu können. So
zum Beispiel bei einem überaus relevantem deutschem, inzwischen ver-
storbenen Archäologen mit einem sehr brauchbaren Stub. Wurde keine 10
Minuten später schnellentfernt, angeblich (ich kann das ja selbst nicht
nachprüfen) weil der Autor die Seite geleert hat. "Kein Artikel". Da
kann man dem Skript das behalten auch nicht vorwerfen.

Ein Stadtteil der kroatischen Hauptstadt von einem altgedienten Be-
nutzer musste auch mit fast schon böswilligem Löschkommentar schnell-
verschwinden, und ist nach Löschprüfung wieder da. Ist da ein Löschen
jetzt die richtige, oder die falsche Einschätzung?

So kann man das noch das eine oder andere dutzend Beiträge weiterführen.
Da bietet es sich nicht an, daraus derart detailierte Zahlen abzuleiten,
zumal ja ohnehin wieviele der schnelllöschfähigen Beiträge durch miser-
able Benutzerführung zustande kommen. Man benutzt die Suchbox, es gibt
zu der genauen Anfrage keinen Artikel aber einen rot leuchtenden Link
gleich ganz oben über den sonstigen Ergebnissen; den klicked man, dann
kommt eine grosse Textbox, da gibt man was ein und schickt es ab. Wenn
man den Link in den Sucherebnissen unter statt über die Einzelergebnisse
nimmt, und statt einen Roten zur Erstellungsmaske zu setzen, lieber nen
blauen zu "Neuen Artikel erstellen", hätte man schon mal eine weitgehend
andere Artikeleingangssituation (behaupte ich mal bis zum Beweis des Ge-
genteils).

(Davon abgesehen, um die Frage zu beantworten, wenn ich mich recht er-
innere waren die "Fehl"-einschätzungen anteilig an der Klassengrösse in
etwa gleich auf, für genaueres bräuchte ich auch eine Zählmethode. Wenn
man einen Artikel erstellt, man fängt an ihn zu ändern, dann wird er ge-
löscht, und mit dem Speichern erstellt man ihn neu, und dann wird er er-
neut gelöscht. Zählt das als ein neuer Artikel oder zwei?)
-- 
Björn Höhrmann · mailto:bjoern at hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/