Hallo,
Ich hab vor einiger Zeit mit etwas Fassungslosigkeit zur Kenntnis ge-
nommen, dass die Kontrolle von neuen Artikeln inklusive dem Stellen von
Schnelllöschanträgen bzw. dem administrativem Schnelllöschen im Wesent-
lichen manuell erfolgt. Ich hab daraufhin angeregt, die neuen Artikel
einfach mal durch einen klassichen Spamfilter zu schicken um so Tasta-
turtests und derlei automatisch zu erkennen (und dann gegebenenfalls
gleich zu verhindern).
Um zu schauen wie da die Trefferquote wäre hab ich das schnell mal im-
plementiert, wie ich auch schon auf der Liste erwähnte. Ich hab das an
einem zweiten Datensatz nochmal verifiziert. Beim zweiten Anlauf ist
der Prozess denkbar einfach: Ich hab von 2009-12-06T00:43:49Z bis hin
zu 2009-12-07T14:10:07Z alle Neueinstellungen inklusive Löschungen und
Verschiebungen mitgeschnitten.
Darunter waren 1737 neue Artikel. Ich hab dann versucht die von CRM114
(http://crm114.sourceforge.net/) in eine von zwei Kategorien ("+", "-")
einzuteilen. Dazu hab ich zu jeder Neueinstellung das "Lemma", den Be-
nutzer und seinen Einstellungskommentar sowie das Wiki-Markup zu einem
Textzusammengefasst und den an CRM114 weitergegeben.
Ich bin davon ausgegangen, wenn der Artikel im Beobachtungszeitraum
schnellgelöscht wurde, dann soll er in die Kategorie "-", ansonsten in
die Kategorie "+". Jedesmal wenn CRM114 dem widerspricht wird der Text
zum "lernen" übergeben, wenn CRM114 richtig rät wird das als Erfolg ge-
wertet.
So ist in der Erwartungshaltung natürlich einiges an Rauschen drin, zum
Beispiel gibt es von der Artikelqualität her einige recht gute Beiträge
für das Humorarchiv, ebensowenig lassen sich Artikel mit leicht werb-
lichen Charakter, Redundanzen, Urheberrechtsverletzungen, und so weiter
auf diese Weise zuverlässig erkennen. Im Datensatz sind auch ein paar
Fälle mit dabei wo das administative Schnelllöschen wenig nachvollzieh-
bar ist.
Die Löschkommentare geben es derzeit leider nicht her, dass man damit
wirklich sinnvoll solche Datenprobleme beseitigen kann; in der englisch-
sprachigen Wikipedia gibt es ein Codesystem für Schnelllöschungen. Ich
weiss nicht wie da die Disziplin der Administratoren ist, aber es sieht
von aussen durchaus wohlstrukturiert aus. Vor allem können Löschopfer
da auch eine detailiertere Erklärung anhand des Codes nachlesen.
Ich hab vornehmlich den experimentellen "hyperspace" Matcher verwendet
da der schnell durchläuft und augenscheinlich gute Ergebnisse liefert.
Über den gesamten Datensatz entscheidet der (inklusive der Lernphase,
beim ersten Artikel entscheidet ja praktisch der Zufall) in 87% der
Fälle richtig.
Betrachtet man die 1000 Fälle (von etwas unter 1737, bei einigen der
Artikel war mein Skript nicht schnell genug um den Text zu beziehen),
bei denen CRM114 sich am sichersten war, oder einfach nur die letzten
1000 Artikel, liegt CRM114 in rund 92% der Fälle richtig.
Nach manueller Durchsicht der Fehlentscheidungen gehe ich davon aus,
dass man mit etwas sauberer Datenbasis (man bräuchte eigentlich für
jeden Artikel "Sollte ein Filter hier 'behalten' oder 'löschen' ent-
scheiden?" mit der dazugehörigen Portion Realismus, sowie mehr als
die 38 Stunden Daten die ich benutzt habe), so wie ein paar mehr Da-
ten ala "Neuautor vs. Alter Hase", oder wahrscheinlich eher noch "Hat
Markup, Überschriften, Kategorien" dass man das auf 95% steigern kann.
Das dürfte in etwa der Erfolgsquote der momentanen manuellen Kontrolle
entsprechen. Die ist damit also rein technisch und theoretisch durchaus
vermeidbar. Ich würde entsprechend mal anraten, dass ein geneigter Bot-
schreiber mit Zugriff auf die "archive" Tabelle das Experiment hier mal
für einen Monat an Daten wiederholt und die Ergebnisse veröffentlicht.
--
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
Hi,
Mir sind jetzt öfters schon diverse Anekdoten über die Inhaltsstruktur
der deutschsprachigen Wikipedia über den Weg gelaufen, konnte die aber
meist nicht anhand reputabler Quellen nachvollziehn. Läuft die Wikipedia
über mit Hochschullehrerbiographien oder Harry Potter Artiklen? Gammeln
da die Artikel zu Vierligaballschubsern ungelesen herum? Wieviele
Artikel gibt es eigentlich zur Netzkultur? Liesst jemand die Artikel zu
den 36 Strassen in Lübeck?
Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten-
daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge-
wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch
verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar-
gestellt) ins Netz gestellt.
Wenn man einen schnellen Rechner mit viel Speicher und Adobe Flash hat,
und ein paar statistische Grundkenntnisse, und alle wichtigen Tabs ge-
schlossen hat, kann man sich das unter
http://katograph.appspot.com/
angucken. Ist die Anwendung einmal geladen, kann man sich die Daten die
zur Bestimmung der Färbung und der Blockgrösse herangezogen werden
sollen aussuchen und wie tief gezoomt werden soll (die option "Zu viel"
ist dort durchaus ernst gemeint, wenn man zum Beispiel in der Räumlich-
en Systematik ist).
Dabei stehen diverse Metriken zur Verfügung. Die Standardeinstellung ist
es, die Blöcke nach dem Median der Zugriffe zu färben und nach der Zahl
der Artikel in der Kategorie (inklusive allen Unterkategorien) zu ska-
lieren. Die Farben verlaufen dabei von hellem Blau nach Orange.
Als Beispiel, in der Kategorie "Chemie" findet man einen Haufen Blöche
in Orange, bis auf einen recht grossen grauen Block, die "Chemiker".
Der ist grau weil der Median der Zugriffe auf Artikel in der Kategorie
bei 7 liegt, also wurden die Artikel in der Kategorie zur Hälfte min-
destens 7 mal aufgerufen und zur Hälfte höchstens 7 mal aufgerufen (im
Beobachtungszeitraum von drei Tagen).
Ein Drittel der Kategorien hat einen niedrigeren Median, zwei Drittel
haben einen höheren, daraus ergibt sich die Färbung des Blocks. Die Ka-
tegorie "Lebensmittelchemie" liegt optisch in der Nähe, hat aber einen
Median von 78, was nur von 4% der Kategorien überboten wird, daher hat
die Kategorie eine knallige Orangefärbung. Der "Chemiepreis" hingegen
hat einen Median von 5 und ist damit hellblau.
Ändert man die Einstellung für die Grössenbestimmung z.B. auf die Option
"Zugriffe (Summe)" wird die Kategorie "Chemiker" ein ganzes Stück klei-
ner, da absolut nicht so oft auf die Artikel in der Kategorie zuge-
griffen wurde wie zum Beispiel auf die Chemischen Verbindungen. Ändert
man es auf "Zugriffe (Median)" wird sie nochmal kleiner, weil auch auf
die Artikel verteilt andere Kategorien viel besser dastehen.
Zur Verfügung stehen für die Färbung die Optionen Artikelzahl, Zugriffe
insgesamt, im median, im mittel, und die Standardabweichung, sowie bei
der Grössenbestimmung das jeweilige Inverse, damit man auch die sonst zu
klein dargestellten Sachen zu Gesicht bekommt.
So kann man sich durch das gesamte Kategoriesystem navigieren. Natürlich
lassen sich keinesfalls leicht Schlüsse aus den Daten ziehen, nur weil
die E-Sportler mit nur 30 Artikeln insgesamt so viele Zugriffe hatten
wie die Bogenschützen mit gut 300 Artikeln, heisst das ja nicht, dass
man dringend einen Ausgleich schaffen sollte. Oder der eine Hochschul-
lehrer aus Jordanien viel stärker nachgefragt wird als der zyprische.
Genaugenommen wird man anhand der Datenmasse überhaupt Probleme haben,
aus den Ansichten etwas mitzunehmen, ausser unterbewusst mal einen Ein-
druck bekommen zu haben. Einige nützliche Daten fallen allerdings auch
auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000
Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu-
ordnung. In jedem Fall kann es recht kurzweilig sein da durch die Ge-
gend zu klicken, in dem Sinne, viel Spass.
--
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
Hallo!
Ich hatte mich vor ein paar Wochen schon einmal wegen einer Umfrage
für meine Diplomarbeit gemeldet. Vielen Dank zunächst an alle, die
schon daran teilgenommen haben!
Um bessere Ergebnisse zu erhalten wäre es allerdings schön, noch ein
paar Antworten mehr zu bekommen. Daher noch einmal der Link, unter dem
der Fragebogen zu finden ist:
http://www.informatik.uni-frankfurt.de/~adler/fragebogen/
Natürlich besteht auch weiterhin die Möglichkeit für alle Teilnehmer,
sich nach dem Abschluss der Auswertung Ergebnisse zuschicken zu
lassen. Außerdem werden alle Angaben selbstverständlich vertraulich
behandelt und nicht an Dritte weitergegeben.
Viele Grüße,
Stefanie Raab
hi
Da Björn Hoehrmann dankenswerter Weise einmal einen Tag die SLAs
mitprotokolliert hat und mir das Ergebnis (genauer: komplette Liste der
schnellgelöschten Artikel in Erstversion mit Inhalt und Löschlog)
überlassen hat, habe ich einmal diese aufgedröselt. Erhebungszeitraum
ist 25. bis 26.11. 12:50 UTC.
- insgesamt wurden 674 Seiten im Artikelraum schnellgelöscht.
- davon sind 573 indiskutabler Müll. Also Selbstdarstellungen von
Schülern, wirre Zeichenfolgen und ähnliches. Beschimpfungen habe ich
davon 5 protokolliert, keine ist klar zuzuordnen. Dazu ein
offensichtlicher Fake einer Gemeinde in D.
- drei Seiten waren irgendwelche Texte in falscher Sprache (je einmal
englisch, spanisch und ungarisch).
- 20 mal lebt der Artikel unter einem anderen Lemma weiter, hier wurden
nur Verschiebeleichen gelöscht.
- 7 Artikel haben im Benutzerraum überlebt und harren dort der
Überarbeitung. Mindestens einer davon (der Aufhänger der ganzen Sache
hier) ist inzwischen zurück.
- 6 Seiten wurden als unbrauchbare URVs gelöscht (wo ich nicht immer mit
dem "Unbrauchbar" einverstanden bin).
- 3 Seiten sind jetzt Redirects (waren jeweils redundante Artikel), zwei
davon habe ich eben selbst als solche erst erstellt.
- eine Seite landete im Humorarchiv.
- eine Seite wurde als "Babelfish-Unfall" gelöscht (ich halte ihn für
rettbar).
Bleiben also genau 60 Seiten, die die Bezeichnung "ernsthafter Versuch
eines Artikels" verdienen. Weder die Relevanzkriterien (die teilweise
sehr offensichtlich unterlaufen werden) noch die Artikelqualität
(Hauptproblem: Werbung) sind dabei berücksichtigt.
Insgesamt ist so eine Liste von 69 Begriffen entstanden, deren Löschung
meiner Meinung nach nicht unter die Vandalismusbekämpfung fällt.
Hierunter sind allerdings auch einige Firmen und Sportvereine, deren
Nichterfüllung der Relevanzkriterien teilweise recht eindeutig ist.
Gestrichen ist der einzige (!) Wiedergänger des Tages. Zahlreiche der
unten genannten sind mit "kein Artikel", einige sogar als "Unfug"
gelöscht worden.
*Fevmar
*InterMedia Solutions [Werbung]
*Fahrbare Weidehütte [Werbung]
*Fleischrasierer
*Vorgelegemotor
*Sprühschnee [viel Klamauk drin]
*Ret-Protoonkogen [Könnte Quatsch sein]
*Kaltabreise [Markaber]
*FC Ehekirchen
*Bengalische Quitte [jaja, die Biologen werden mich lynchen, dass ich
den aufliste..]
*Laukaitis & Kapfer [Werbung]
*Drift City [Browserspiel, etwas werbend]
*Newark (New York) [mit offensichtlichen sachlichen Fehlern, aber dass
ein Artikel angebracht ist, ist klar erkennbar]
*Schöner Sportclub DSC
*Cheaptickets [Werbung]
*Nona Tyson
*Charles Williams (US-amerikanischer Schriftsteller)
*Screening (Wirtschaftswissenschaft)
*Vicky Chase
*Help! 7 Song Radio Sampler
*Dead Rabbids
*Gerhard Jantzen
*VDA QMC [Werbung]
*Isolierklinker [Werbung]
*Konrad Guhl
*DAVID GmbH - Software. Systeme. Lösungen. [Werbung]
*Robert Pfleger
*Rompel, Georg
*Jens Alder
*Kent Johansson
*Zendesk [Werbung]
*Floriano Sauer
*Uelde [ein Dorf in D]
*Frank Nopper
*Emre Gülec [Profifußballer?]
*BellandDual GmbH
*Melrose Place (2009)
*Schlagzeuger matthias rumpf
*Gustaf Larson [wenn der Substub nicht lügt, der Firmengründer von Volvo!]
*Markus Hoffmann. [Nicht identisch mit der unter dem Lemma ohne Punkt
vorhandenen Person]
*Peter Tigges
*FC Bechlingen
*Stefan Dösselmann
*Blair Witch Project: The Beginning
*Penagina
*SV Blau Weiss Petershagen Eggersdorf
*Disklavier [Werbung]
*Josef Schöpf
*Surprise (heftli) [Inzwischen am Ziel angekommen]
*Toxic Smile
*Hartford (Michigan)
*Borjgali
*Kofuz
*Leon Fromkess
*TSV Mühlenfeld
*Gröninger Privatbrauerei [Werbung]
*Johanniskirche (Klein Berkel)
*Hajener landbrot [Werbung]
*Hitex Development Tools [Werbung]
*HiTOP [Werbung]
*Oldenburg (Texas) [Schon zahlreiche Male gelöscht worden, sollte man
einmal als Artikelwunsch betrachten]
*Reichs-Straßenverkehrsordnung [nur Gesetzestext]
*Google Bilder
*Hasselbrink-Schule
*B+S Banksysteme [Werbung]
*Konsoldierungshilfe
*Kamado
*Milchindustrie-Verband e.V. [Werbung]
*W&co MediaServices [Werbung]
--
Kai F. Lahmann
Reinhard Kraasch schrieb am Sat Jan 09 2010
> Wobei es m.E. nicht nur um Personen geht, sondern eben doch - nun gut:
> nicht um den Bäckerladen um die Ecke - aber sehr wohl um das
> Kleinunternehmen mit 30 Beschäftigten, den Tennisverein oder die
> Dorffeuerwehr.
Nya, das ist ja im Grunde noch fast lösbar. Nur de Frage der Mehrheiten. Es geht doch aber ja gerade um eine
Abschaffung der RK, nicht nur um eine deutliche Lockerung für die ein MB reicht. ;)
schöne Grüße,
Thomas
Hallo,
ich bin relativ neu in der Wikipedia und habe die ganzen Relevanz- und
Löschdikussionen nur am Rande verfolgt, schaue aber gerade das Video der
Diskussion vom 26c3 und habe eine Idee zu den Relevanz- und Löschdikussionen.
Es werden Relevanzlevel eingeführt und jeder Artikel der durchgesehen wurde
oder über den es eine Diskussion zur Relevanz oder Löschung gibt wird von
einem Admin oder einer anderen evtl. noch zu schaffenden Instanz in
Relevanzlevel eingeordnet. Z.B.:
Gesichteter Artikel
Guter Artikel
Global relevant
Lokal relevant
Wenig relevant
Kurzer Artikel
Schlechter Artikel
Artikel mit ungenügender Quellenlage
Schlechter Artikel mit Verbesserungspotential
Gelöschter Artikel
Derzeitig aktuell
Relevanz unklar
usw.
Im Zuge der Einführung der Relevanzlevel wird eine neue
Konfigurationsmöglichkeit für die Benutzer eingeführt, in der jeder Benutzer
einstellen kann, welches Relevanzlevel er sehen möchte.
Für nicht angemeldete Benutzer könnte es eine harte Voreinstellung geben die
beispielsweise den derzeitigen Kriterien einer Enzyklopädie entspricht.
Verändert ein nicht eingeloggter Benutzer diese Einstellung, kann sie per
Cookie gespeichert werden damit der Benutzer die Relevanzlevel auch ohne
Anmeldung nicht bei jedem Besuch neu konfigurieren muss.
Bei Links innerhalb der Wikipedia werden Links die auf einen Artikel verlinken
der außerhalb des vom Benutzer gewählten Relevanzlevels liegt in einer neuen
Farbe gekennzeichnet (Nicht als "noch nicht erstellt", sondern als "außerhalb
deines Relevanzlevels).
Was haltet ihr von der Idee? Währe das Praktikabel?
Grüße
Floh1111
Um mich da mal wieder einzumischen^^, es geht interessanterweise vor allem um Leute. Es verwundert eigentlich
kaum, daß es den meisten gar nicht darum geht einen Artikel zum Bäckerladen um die Ecke zu haben. Offenbar
gibt es da doch auch bei sehe inclusionistisch veranlagten Leuten einen gewisse Hemmschwelle. Meist geht es ja
um Menschen die gar nicht irrelevant sein könne. Wenn man sich aber mal das Recht so durch den Kopf gehen läßt
- sollen wir Artikel schreiben für Leute von denen wir kein Bild veröffentlichen dürfen? Mag sein, etliche
Leute kämen sich geschmeichelt vor, nichts geleistet zu haben und dennoch mit Bild in der Wikipedia zu stehen
- ob dem noch so wäre, wenn JEDER drin steht erscheint mir im Übrigen fraglich. Aber Bilder sind doch nur
möglich bei Personen der Zeitgeschichte.
Nehmen wir mal Schriftsteller. Absolute Personen der Zeitgeschichte? Mhm. Verne, Courts-Mahler, dann hört es
langsam auf. Ob z.B London oder Lovecraft nicht 'nur' relative Person der Zeitgeschichte sind wäre die Frage.
Jeden Autor von zwei Büchern bereits als Person der Zeitgeschichte zu betrachten ist fast schon grenzwertig,
was für 'subnationale' abgeordnete auch gilt, und nur mit relativ größer öffentlicher Wahrnehmung dieser
Spezies ^^ zu erklären. Aber was machen wie denn wenn der nächste klagt, gegen seinen Eintrag? Ich bin mir
z.B. ziemlich sicher, daß ich ein Recht darauf haben, daß kein Fotos von mir veröffentlicht werden und auch
nicht jeder mein Lebenslauf im Internet nachlesen darf. Schon deshalb halte ich vergleichsweise hohe Hürden
bei lebenden Personen für ganz wichtig.
schöne Grüße,
Thomas
Am 6.1.2010 um 16:58 schrieb Nando Stöcklin <nando.stoecklin(a)gmail.com>
> Wir könnten ja bei Artikeln, die in den letzten 12 Monaten weniger als x mal
> bearbeitet wurden eine Meldung "Vorsicht, dieser Artikel wird derzeit kaum
> gepflegt" oder ähnlich anzeigen lassen.
Das kann auch schlicht daran liegen, dass der Artikel gut ist und es nicht Wesentliches daran zu verbessern gibt. (Nicht alle Artikel behandeln aktuelle Themen.) Solchen Artikeln würden wir mit einem derartigen Bapperl einen argen Bärendienst erweisen.
Jossi