[Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

Christian Thiele apper at apper.de
Do Dez 17 16:58:30 UTC 2009


Hallo,

das ist nur halb korrekt. Ich habe bereits seit zwei Jahren ein Programm  
laufen, das auf Basis von Naive Bayes [1] sämtliche neue Artikel von IPs  
bewertet [2]. Dabei sind alle Artikel positiv, die nach 7 Tagen noch  
existieren, alle anderen negativ (also alle, die schnellgelöscht wurden  
sind "SPAM"). Seit das läuft wurden 440.000 Artikel bewertet, wovon  
350.000 SPAM waren (also innerhalb der ersten 7 Tage wurden knapp 80%  
gelöscht). Wie das bei Naive Bayes so ist kann man schön für jedes Wort  
sehen, wie oft es in SPAM-Artikeln vorkam und wie oft in HAM-Artikeln und  
es gibt wenige Überraschungen (67% aller Vorkommen von "das" waren in  
Spam-Artikeln - das liegt im Durchschnitt, wohingegen über 99% aller  
Vorkommen von "mudda" in Spam-Artikeln waren und nur 35% aller Vorkommen  
von "Kirche" in Spam-Artikeln waren).

Für jeden neuen Artikel wird eine Spam-Klassifikation vorgenommen, die von  
0 bis 100% reicht. Um den Erfolg zu messen, protokolliere ich, wie es sich  
dann wirklich verhält. Es lässt sich dabei erkennen, dass der Anteil  
echter SPAM-Artikel mit der Spam-Wahrscheinlichkeit korreliert. Aber  
selbst von den Artikeln mit 0% werden am Ende knapp über 50% gelöscht und  
von denen mit über 98% Spam-Wahrscheinlichkeit werden trotzdem rund 3,5%  
behalten!

Automatisch kann man daher mit einfachen Mitteln meiner Meinung nach nicht  
viel tun. Vermutlich kann man mit besseren Algorithmen ein wenig mehr  
erreichen (Naive Bayes ist ja einer der einfachsten, aber Thunderbird  
arbeitet auch mit nicht viel besserem). 100% Sicherheit wird man aber  
nicht hinbekommen.

Und ich spreche mich stark dagegen aus, etwas automatisch zu löschen. Bei  
all den Diskussionen sind die Artikel, die so einwandfrei Spam sind, dass  
sie ein Algorithmus erkennen könnte, nicht das Problem - diese werden zu  
den meisten Zeiten verdammt schnell gelöscht - das kostet ja kaum Zeit.  
Problematisch sind die Fälle, in denen halt selbst für einen Menschen  
schwierig zu entscheiden ist, was man mit dem schlechten Artikelanfang  
macht.

Grüße,
Christian Thiele

[1] http://de.wikipedia.org/wiki/Bayes-Klassifikator
[2] http://toolserver.org/~apper/npp/