[Wikide-l] Automatisierte Kontrolle von Neuen Artikeln
Christian Thiele
apper at apper.de
Do Dez 17 16:58:30 UTC 2009
Hallo,
das ist nur halb korrekt. Ich habe bereits seit zwei Jahren ein Programm
laufen, das auf Basis von Naive Bayes [1] sämtliche neue Artikel von IPs
bewertet [2]. Dabei sind alle Artikel positiv, die nach 7 Tagen noch
existieren, alle anderen negativ (also alle, die schnellgelöscht wurden
sind "SPAM"). Seit das läuft wurden 440.000 Artikel bewertet, wovon
350.000 SPAM waren (also innerhalb der ersten 7 Tage wurden knapp 80%
gelöscht). Wie das bei Naive Bayes so ist kann man schön für jedes Wort
sehen, wie oft es in SPAM-Artikeln vorkam und wie oft in HAM-Artikeln und
es gibt wenige Überraschungen (67% aller Vorkommen von "das" waren in
Spam-Artikeln - das liegt im Durchschnitt, wohingegen über 99% aller
Vorkommen von "mudda" in Spam-Artikeln waren und nur 35% aller Vorkommen
von "Kirche" in Spam-Artikeln waren).
Für jeden neuen Artikel wird eine Spam-Klassifikation vorgenommen, die von
0 bis 100% reicht. Um den Erfolg zu messen, protokolliere ich, wie es sich
dann wirklich verhält. Es lässt sich dabei erkennen, dass der Anteil
echter SPAM-Artikel mit der Spam-Wahrscheinlichkeit korreliert. Aber
selbst von den Artikeln mit 0% werden am Ende knapp über 50% gelöscht und
von denen mit über 98% Spam-Wahrscheinlichkeit werden trotzdem rund 3,5%
behalten!
Automatisch kann man daher mit einfachen Mitteln meiner Meinung nach nicht
viel tun. Vermutlich kann man mit besseren Algorithmen ein wenig mehr
erreichen (Naive Bayes ist ja einer der einfachsten, aber Thunderbird
arbeitet auch mit nicht viel besserem). 100% Sicherheit wird man aber
nicht hinbekommen.
Und ich spreche mich stark dagegen aus, etwas automatisch zu löschen. Bei
all den Diskussionen sind die Artikel, die so einwandfrei Spam sind, dass
sie ein Algorithmus erkennen könnte, nicht das Problem - diese werden zu
den meisten Zeiten verdammt schnell gelöscht - das kostet ja kaum Zeit.
Problematisch sind die Fälle, in denen halt selbst für einen Menschen
schwierig zu entscheiden ist, was man mit dem schlechten Artikelanfang
macht.
Grüße,
Christian Thiele
[1] http://de.wikipedia.org/wiki/Bayes-Klassifikator
[2] http://toolserver.org/~apper/npp/