[Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

Bjoern Hoehrmann derhoermi at gmx.net
Fr Dez 18 17:08:20 UTC 2009


* Thomas R. Koll wrote:
>crm114 verspricht 99,9% was ich auch glaube weil ich mich mit den bayes'schen
>theoremen genug auseinandergesetzt habe. Die Diskrepanz kann nicht an
>deiner unvollständigen Datenmenge liegen, da diese Filter schon ab zweihundert
>Datensätzen stabil laufen.

Naja das Versprechen kommt in der Form von "has been seen" und die Frage
wäre 99,9% von was genau, es gibt ja eine Reihe von Löschgründen die man
so nicht vorhersagen kann, und wenn man die Grenzen der Methode berück-
sichtigt, und ständig nachtrainiert bei Fehlentscheidungen und geringem
Entscheidungsfaktor, dann sind 99,9% natürlich die fast logische Folge.

Meinem Eindruck nach sind rund 5% der Schnelllöschungen so, dass da auch
Menschen sich uneins darüber wären, ob der jeweilige Artikel jetzt unbe-
dingt schnellgelöscht werden musste, da bräuchte es dann schon struktu-
relle Änderungen (wie zum Beispiel die Administratoren zur Verwendung
von leicht maschinenlesbaren und vor allem zutreffenden Löschbegründun-
gen anzuhalten) um in die Nähe derlei Raten zu kommen.

Sicherlich richtig ist wohl, dass man mit etwas mehr Aufwand und Ahnung
vom Thema da auch noch ein bisschen rauskitzeln kann, ich verwende mit
TOE ("train on error") zum Beispiel die falsche Lernmethode für den Hy-
perspace Matcher (bei dem das Bayestheorem übrigens nicht zum Einsatz
kommt). Wenn das jemand näher verfolgen möchte stelle ich auch Nachfrage
mein Skript zur Datensammlung bzw. die damaligen Rohdaten gerne zur Ver-
fügung.

Mir ging es viel eher darum mal zu gucken was man als Ahnungsloser da
an nem Nachmittag schon erreichen kann.

>Was dir in deiner Datenmenge wahrscheinlich fehlt sind ein paar Artikel
>die schon mehrere Edits hinter sich haben. Könntest du diese also bitte
>auch noch mit einbeziehen?

Das kann ich so nicht nachvollziehen, zumal die Zahl der Neuen Artikel
die praktisch fertig sind (mit Infobox, Kategorien, Tabellen, Listen,
Quellen, Weblinks, und Bildern) erschreckend hoch ist. Ich wüsste dem-
nach nicht, welche zusätzlichen Artikel ich da einspeisen sollte.

(Interessant wäre es übrigens mal die deutschsprachige Wikipedia zu
klonen, wobei allerdings von jedem Artikel nur die erste Version ge-
nommen wird. Das wäre eventuell mal ein Lehrstück in Sachen Wikiprin-
zip.)
-- 
Björn Höhrmann · mailto:bjoern at hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/