* Peter Jacobi wrote:
Björn, leider fehlt die wichtige Aufgliederung der "falschen" Entscheidungen in die Fälle falsch positiv und falsch negativ.
Die Frage ist nicht unbedingt sinnvoll. Mir ging es darum mal zu sehen was man ohne sich vorher mit dem Thema beschäftigt zu haben in ein paar Stunden machen kann; die Zahlen bedingen hier auch einander. Ich hab grad mal den Lernmechanismus sehr grob verändert, so dass vor allem be- halten-Entscheidungen dazugelernt werden und Löschungen vernachlässigt. Damit werden dann behalten-Entscheidungen mit einer Treffsicherheit von 99% vorausgesagt, Löschentscheidungen aber nur noch mit 37%.
(Immer wenn richtig klassifiziert wird lass ich den Text lernen wenn sich die "Wahrscheinlichkeit" in einem bestimmten Bereich befindet, dafür hat CRM114 einen "pR" Wert, beim Löschen muss der zwischen 0.51 und 0.55 sein, beim behalten kleiner als 1.0).
Ferner gibt es ja das Problem mit der Erwartungshaltung. Im Datensatz ist zum Beispiel ein Artikel, ein grammatikalisch schlechter Wörterbuch- eintrag in einem Satz zu einem Begriff aus der Pornographie zu dem es einen Artikel gibt; mein Skript erwartet Löschung, der Artikel wurde aber zu einer Weiterleitung gemacht und behalten. Das zählt dann als Fehler.
Ein anderes Beispiel ist ein Artikel der in der falschen Sprache war, aber offensichtlich mitsamt {{inuse}} zur Übersetzung die dann folgte importiert. Mein Skript erwartet hier auch eher die Löschung, wurde aber behalten, wieder ein Fehler.
Hinzu kommen dann mehrere dutzend Artikel bei denen ich die Löschung nicht gut nachvollziehen kann, oder die Begründung falsch ist (wobei ich die Begründung ohnehin schon ignoriere). Ich nehme da mal als ein Beispiel einen Artikel zu einer Hilfsorganisation von einem angemelde- ten Benutzer der schon länger angemeldet ist und andere Artikelarbeit verrichtet hat; die Organisation ist fern ab von offensichtlicher Ir- relevanz, der Artikel war durchaus umfangreich und inhaltlich stimmig, mit leicht werblichem Charakter (und allerdings auch Kritik).
Nach 101 Sekunden musste der Artikel schnellverschwinden ohne Antrag, ohne Ansprache, "[[WP:WWNI|Reiner Werbeeintrag]]". Wenn man Skript da eine Behaltensentscheidung vorhersagt kann ich das kaum als Fehler ein- ordnen.
Bei einigen Fällen muss man wohl auch die geheime Versionsgeschichte zu Hilfe ziehen um die Löschung irgendwie nachvollziehen zu können. So zum Beispiel bei einem überaus relevantem deutschem, inzwischen ver- storbenen Archäologen mit einem sehr brauchbaren Stub. Wurde keine 10 Minuten später schnellentfernt, angeblich (ich kann das ja selbst nicht nachprüfen) weil der Autor die Seite geleert hat. "Kein Artikel". Da kann man dem Skript das behalten auch nicht vorwerfen.
Ein Stadtteil der kroatischen Hauptstadt von einem altgedienten Be- nutzer musste auch mit fast schon böswilligem Löschkommentar schnell- verschwinden, und ist nach Löschprüfung wieder da. Ist da ein Löschen jetzt die richtige, oder die falsche Einschätzung?
So kann man das noch das eine oder andere dutzend Beiträge weiterführen. Da bietet es sich nicht an, daraus derart detailierte Zahlen abzuleiten, zumal ja ohnehin wieviele der schnelllöschfähigen Beiträge durch miser- able Benutzerführung zustande kommen. Man benutzt die Suchbox, es gibt zu der genauen Anfrage keinen Artikel aber einen rot leuchtenden Link gleich ganz oben über den sonstigen Ergebnissen; den klicked man, dann kommt eine grosse Textbox, da gibt man was ein und schickt es ab. Wenn man den Link in den Sucherebnissen unter statt über die Einzelergebnisse nimmt, und statt einen Roten zur Erstellungsmaske zu setzen, lieber nen blauen zu "Neuen Artikel erstellen", hätte man schon mal eine weitgehend andere Artikeleingangssituation (behaupte ich mal bis zum Beweis des Ge- genteils).
(Davon abgesehen, um die Frage zu beantworten, wenn ich mich recht er- innere waren die "Fehl"-einschätzungen anteilig an der Klassengrösse in etwa gleich auf, für genaueres bräuchte ich auch eine Zählmethode. Wenn man einen Artikel erstellt, man fängt an ihn zu ändern, dann wird er ge- löscht, und mit dem Speichern erstellt man ihn neu, und dann wird er er- neut gelöscht. Zählt das als ein neuer Artikel oder zwei?)