WikiDE-l January 2010

wikide-l@lists.wikimedia.org

37 participants
13 discussions

Automatisierte Kontrolle von Neuen Artikeln

by Bjoern Hoehrmann

Hallo, Ich hab vor einiger Zeit mit etwas Fassungslosigkeit zur Kenntnis ge- nommen, dass die Kontrolle von neuen Artikeln inklusive dem Stellen von Schnelllöschanträgen bzw. dem administrativem Schnelllöschen im Wesent- lichen manuell erfolgt. Ich hab daraufhin angeregt, die neuen Artikel einfach mal durch einen klassichen Spamfilter zu schicken um so Tasta- turtests und derlei automatisch zu erkennen (und dann gegebenenfalls gleich zu verhindern). Um zu schauen wie da die Trefferquote wäre hab ich das schnell mal im- plementiert, wie ich auch schon auf der Liste erwähnte. Ich hab das an einem zweiten Datensatz nochmal verifiziert. Beim zweiten Anlauf ist der Prozess denkbar einfach: Ich hab von 2009-12-06T00:43:49Z bis hin zu 2009-12-07T14:10:07Z alle Neueinstellungen inklusive Löschungen und Verschiebungen mitgeschnitten. Darunter waren 1737 neue Artikel. Ich hab dann versucht die von CRM114 (http://crm114.sourceforge.net/) in eine von zwei Kategorien ("+", "-") einzuteilen. Dazu hab ich zu jeder Neueinstellung das "Lemma", den Be- nutzer und seinen Einstellungskommentar sowie das Wiki-Markup zu einem Textzusammengefasst und den an CRM114 weitergegeben. Ich bin davon ausgegangen, wenn der Artikel im Beobachtungszeitraum schnellgelöscht wurde, dann soll er in die Kategorie "-", ansonsten in die Kategorie "+". Jedesmal wenn CRM114 dem widerspricht wird der Text zum "lernen" übergeben, wenn CRM114 richtig rät wird das als Erfolg ge- wertet. So ist in der Erwartungshaltung natürlich einiges an Rauschen drin, zum Beispiel gibt es von der Artikelqualität her einige recht gute Beiträge für das Humorarchiv, ebensowenig lassen sich Artikel mit leicht werb- lichen Charakter, Redundanzen, Urheberrechtsverletzungen, und so weiter auf diese Weise zuverlässig erkennen. Im Datensatz sind auch ein paar Fälle mit dabei wo das administative Schnelllöschen wenig nachvollzieh- bar ist. Die Löschkommentare geben es derzeit leider nicht her, dass man damit wirklich sinnvoll solche Datenprobleme beseitigen kann; in der englisch- sprachigen Wikipedia gibt es ein Codesystem für Schnelllöschungen. Ich weiss nicht wie da die Disziplin der Administratoren ist, aber es sieht von aussen durchaus wohlstrukturiert aus. Vor allem können Löschopfer da auch eine detailiertere Erklärung anhand des Codes nachlesen. Ich hab vornehmlich den experimentellen "hyperspace" Matcher verwendet da der schnell durchläuft und augenscheinlich gute Ergebnisse liefert. Über den gesamten Datensatz entscheidet der (inklusive der Lernphase, beim ersten Artikel entscheidet ja praktisch der Zufall) in 87% der Fälle richtig. Betrachtet man die 1000 Fälle (von etwas unter 1737, bei einigen der Artikel war mein Skript nicht schnell genug um den Text zu beziehen), bei denen CRM114 sich am sichersten war, oder einfach nur die letzten 1000 Artikel, liegt CRM114 in rund 92% der Fälle richtig. Nach manueller Durchsicht der Fehlentscheidungen gehe ich davon aus, dass man mit etwas sauberer Datenbasis (man bräuchte eigentlich für jeden Artikel "Sollte ein Filter hier 'behalten' oder 'löschen' ent- scheiden?" mit der dazugehörigen Portion Realismus, sowie mehr als die 38 Stunden Daten die ich benutzt habe), so wie ein paar mehr Da- ten ala "Neuautor vs. Alter Hase", oder wahrscheinlich eher noch "Hat Markup, Überschriften, Kategorien" dass man das auf 95% steigern kann. Das dürfte in etwa der Erfolgsquote der momentanen manuellen Kontrolle entsprechen. Die ist damit also rein technisch und theoretisch durchaus vermeidbar. Ich würde entsprechend mal anraten, dass ein geneigter Bot- schreiber mit Zugriff auf die "archive" Tabelle das Experiment hier mal für einen Monat an Daten wiederholt und die Ergebnisse veröffentlicht. -- Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

14 years, 2 months

Visualisierung der Inhaltsstruktur

by Bjoern Hoehrmann

Hi, Mir sind jetzt öfters schon diverse Anekdoten über die Inhaltsstruktur der deutschsprachigen Wikipedia über den Weg gelaufen, konnte die aber meist nicht anhand reputabler Quellen nachvollziehn. Läuft die Wikipedia über mit Hochschullehrerbiographien oder Harry Potter Artiklen? Gammeln da die Artikel zu Vierligaballschubsern ungelesen herum? Wieviele Artikel gibt es eigentlich zur Netzkultur? Liesst jemand die Artikel zu den 36 Strassen in Lübeck? Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten- daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge- wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar- gestellt) ins Netz gestellt. Wenn man einen schnellen Rechner mit viel Speicher und Adobe Flash hat, und ein paar statistische Grundkenntnisse, und alle wichtigen Tabs ge- schlossen hat, kann man sich das unter http://katograph.appspot.com/ angucken. Ist die Anwendung einmal geladen, kann man sich die Daten die zur Bestimmung der Färbung und der Blockgrösse herangezogen werden sollen aussuchen und wie tief gezoomt werden soll (die option "Zu viel" ist dort durchaus ernst gemeint, wenn man zum Beispiel in der Räumlich- en Systematik ist). Dabei stehen diverse Metriken zur Verfügung. Die Standardeinstellung ist es, die Blöcke nach dem Median der Zugriffe zu färben und nach der Zahl der Artikel in der Kategorie (inklusive allen Unterkategorien) zu ska- lieren. Die Farben verlaufen dabei von hellem Blau nach Orange. Als Beispiel, in der Kategorie "Chemie" findet man einen Haufen Blöche in Orange, bis auf einen recht grossen grauen Block, die "Chemiker". Der ist grau weil der Median der Zugriffe auf Artikel in der Kategorie bei 7 liegt, also wurden die Artikel in der Kategorie zur Hälfte min- destens 7 mal aufgerufen und zur Hälfte höchstens 7 mal aufgerufen (im Beobachtungszeitraum von drei Tagen). Ein Drittel der Kategorien hat einen niedrigeren Median, zwei Drittel haben einen höheren, daraus ergibt sich die Färbung des Blocks. Die Ka- tegorie "Lebensmittelchemie" liegt optisch in der Nähe, hat aber einen Median von 78, was nur von 4% der Kategorien überboten wird, daher hat die Kategorie eine knallige Orangefärbung. Der "Chemiepreis" hingegen hat einen Median von 5 und ist damit hellblau. Ändert man die Einstellung für die Grössenbestimmung z.B. auf die Option "Zugriffe (Summe)" wird die Kategorie "Chemiker" ein ganzes Stück klei- ner, da absolut nicht so oft auf die Artikel in der Kategorie zuge- griffen wurde wie zum Beispiel auf die Chemischen Verbindungen. Ändert man es auf "Zugriffe (Median)" wird sie nochmal kleiner, weil auch auf die Artikel verteilt andere Kategorien viel besser dastehen. Zur Verfügung stehen für die Färbung die Optionen Artikelzahl, Zugriffe insgesamt, im median, im mittel, und die Standardabweichung, sowie bei der Grössenbestimmung das jeweilige Inverse, damit man auch die sonst zu klein dargestellten Sachen zu Gesicht bekommt. So kann man sich durch das gesamte Kategoriesystem navigieren. Natürlich lassen sich keinesfalls leicht Schlüsse aus den Daten ziehen, nur weil die E-Sportler mit nur 30 Artikeln insgesamt so viele Zugriffe hatten wie die Bogenschützen mit gut 300 Artikeln, heisst das ja nicht, dass man dringend einen Ausgleich schaffen sollte. Oder der eine Hochschul- lehrer aus Jordanien viel stärker nachgefragt wird als der zyprische. Genaugenommen wird man anhand der Datenmasse überhaupt Probleme haben, aus den Ansichten etwas mitzunehmen, ausser unterbewusst mal einen Ein- druck bekommen zu haben. Einige nützliche Daten fallen allerdings auch auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000 Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu- ordnung. In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass. -- Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

14 years, 3 months

Erinnerung: Umfrage zu Wikipedia

by sraab＠stud.uni-frankfurt.de

Hallo! Ich hatte mich vor ein paar Wochen schon einmal wegen einer Umfrage für meine Diplomarbeit gemeldet. Vielen Dank zunächst an alle, die schon daran teilgenommen haben! Um bessere Ergebnisse zu erhalten wäre es allerdings schön, noch ein paar Antworten mehr zu bekommen. Daher noch einmal der Link, unter dem der Fragebogen zu finden ist: http://www.informatik.uni-frankfurt.de/~adler/fragebogen/ Natürlich besteht auch weiterhin die Möglichkeit für alle Teilnehmer, sich nach dem Abschluss der Auswertung Ergebnisse zuschicken zu lassen. Außerdem werden alle Angaben selbstverständlich vertraulich behandelt und nicht an Dritte weitergegeben. Viele Grüße, Stefanie Raab

14 years, 3 months

Analyse der Schnelllöschungen

by Kai F. Lahmann

hi Da Björn Hoehrmann dankenswerter Weise einmal einen Tag die SLAs mitprotokolliert hat und mir das Ergebnis (genauer: komplette Liste der schnellgelöschten Artikel in Erstversion mit Inhalt und Löschlog) überlassen hat, habe ich einmal diese aufgedröselt. Erhebungszeitraum ist 25. bis 26.11. 12:50 UTC. - insgesamt wurden 674 Seiten im Artikelraum schnellgelöscht. - davon sind 573 indiskutabler Müll. Also Selbstdarstellungen von Schülern, wirre Zeichenfolgen und ähnliches. Beschimpfungen habe ich davon 5 protokolliert, keine ist klar zuzuordnen. Dazu ein offensichtlicher Fake einer Gemeinde in D. - drei Seiten waren irgendwelche Texte in falscher Sprache (je einmal englisch, spanisch und ungarisch). - 20 mal lebt der Artikel unter einem anderen Lemma weiter, hier wurden nur Verschiebeleichen gelöscht. - 7 Artikel haben im Benutzerraum überlebt und harren dort der Überarbeitung. Mindestens einer davon (der Aufhänger der ganzen Sache hier) ist inzwischen zurück. - 6 Seiten wurden als unbrauchbare URVs gelöscht (wo ich nicht immer mit dem "Unbrauchbar" einverstanden bin). - 3 Seiten sind jetzt Redirects (waren jeweils redundante Artikel), zwei davon habe ich eben selbst als solche erst erstellt. - eine Seite landete im Humorarchiv. - eine Seite wurde als "Babelfish-Unfall" gelöscht (ich halte ihn für rettbar). Bleiben also genau 60 Seiten, die die Bezeichnung "ernsthafter Versuch eines Artikels" verdienen. Weder die Relevanzkriterien (die teilweise sehr offensichtlich unterlaufen werden) noch die Artikelqualität (Hauptproblem: Werbung) sind dabei berücksichtigt. Insgesamt ist so eine Liste von 69 Begriffen entstanden, deren Löschung meiner Meinung nach nicht unter die Vandalismusbekämpfung fällt. Hierunter sind allerdings auch einige Firmen und Sportvereine, deren Nichterfüllung der Relevanzkriterien teilweise recht eindeutig ist. Gestrichen ist der einzige (!) Wiedergänger des Tages. Zahlreiche der unten genannten sind mit "kein Artikel", einige sogar als "Unfug" gelöscht worden. *Fevmar *InterMedia Solutions [Werbung] *Fahrbare Weidehütte [Werbung] *Fleischrasierer *Vorgelegemotor *Sprühschnee [viel Klamauk drin] *Ret-Protoonkogen [Könnte Quatsch sein] *Kaltabreise [Markaber] *FC Ehekirchen *Bengalische Quitte [jaja, die Biologen werden mich lynchen, dass ich den aufliste..] *Laukaitis & Kapfer [Werbung] *Drift City [Browserspiel, etwas werbend] *Newark (New York) [mit offensichtlichen sachlichen Fehlern, aber dass ein Artikel angebracht ist, ist klar erkennbar] *Schöner Sportclub DSC *Cheaptickets [Werbung] *Nona Tyson *Charles Williams (US-amerikanischer Schriftsteller) *Screening (Wirtschaftswissenschaft) *Vicky Chase *Help! 7 Song Radio Sampler *Dead Rabbids *Gerhard Jantzen *VDA QMC [Werbung] *Isolierklinker [Werbung] *Konrad Guhl *DAVID GmbH - Software. Systeme. Lösungen. [Werbung] *Robert Pfleger *Rompel, Georg *Jens Alder *Kent Johansson *Zendesk [Werbung] *Floriano Sauer *Uelde [ein Dorf in D] *Frank Nopper *Emre Gülec [Profifußballer?] *BellandDual GmbH *Melrose Place (2009) *Schlagzeuger matthias rumpf *Gustaf Larson [wenn der Substub nicht lügt, der Firmengründer von Volvo!] *Markus Hoffmann. [Nicht identisch mit der unter dem Lemma ohne Punkt vorhandenen Person] *Peter Tigges *FC Bechlingen *Stefan Dösselmann *Blair Witch Project: The Beginning *Penagina *SV Blau Weiss Petershagen Eggersdorf *Disklavier [Werbung] *Josef Schöpf *Surprise (heftli) [Inzwischen am Ziel angekommen] *Toxic Smile *Hartford (Michigan) *Borjgali *Kofuz *Leon Fromkess *TSV Mühlenfeld *Gröninger Privatbrauerei [Werbung] *Johanniskirche (Klein Berkel) *Hajener landbrot [Werbung] *Hitex Development Tools [Werbung] *HiTOP [Werbung] *Oldenburg (Texas) [Schon zahlreiche Male gelöscht worden, sollte man einmal als Artikelwunsch betrachten] *Reichs-Straßenverkehrsordnung [nur Gesetzestext] *Google Bilder *Hasselbrink-Schule *B+S Banksysteme [Werbung] *Konsoldierungshilfe *Kamado *Milchindustrie-Verband e.V. [Werbung] *W&co MediaServices [Werbung] -- Kai F. Lahmann

14 years, 3 months

4. WP-Workshop in Köln

by Raimond Spekking

Der Kölner Wikipedia-Stammtisch veranstaltet vom 19.–21. März 2009 seinen 4. Workshop und lädt alle Wikimedianer herzlichst ein. Ein neuer Veranstaltungsort auf der Schäl Sick von Köln bietet Platz (und Luft) für ca. 40 Teilnehmer. Themen für Arbeitsgruppen können noch eingetragen werden. http://de.wikipedia.org/wiki/Wikipedia:Workshop_K%C3%B6ln http://de.wikipedia.org/wiki/Wikipedia:Workshop_K%C3%B6ln_2010/Arbeitsgrupp… Raymond

14 years, 3 months

Re: [Wikide-l] WikiDE-l Nachrichtensammlung, Band 78, Eintrag 11

by Thomas König

Reinhard Kraasch schrieb am Sat Jan 09 2010 > Wobei es m.E. nicht nur um Personen geht, sondern eben doch - nun gut: > nicht um den Bäckerladen um die Ecke - aber sehr wohl um das > Kleinunternehmen mit 30 Beschäftigten, den Tennisverein oder die > Dorffeuerwehr. Nya, das ist ja im Grunde noch fast lösbar. Nur de Frage der Mehrheiten. Es geht doch aber ja gerade um eine Abschaffung der RK, nicht nur um eine deutliche Lockerung für die ein MB reicht. ;) schöne Grüße, Thomas

14 years, 3 months

Relevanzlevel

by Clemens John

Hallo, ich bin relativ neu in der Wikipedia und habe die ganzen Relevanz- und Löschdikussionen nur am Rande verfolgt, schaue aber gerade das Video der Diskussion vom 26c3 und habe eine Idee zu den Relevanz- und Löschdikussionen. Es werden Relevanzlevel eingeführt und jeder Artikel der durchgesehen wurde oder über den es eine Diskussion zur Relevanz oder Löschung gibt wird von einem Admin oder einer anderen evtl. noch zu schaffenden Instanz in Relevanzlevel eingeordnet. Z.B.: Gesichteter Artikel Guter Artikel Global relevant Lokal relevant Wenig relevant Kurzer Artikel Schlechter Artikel Artikel mit ungenügender Quellenlage Schlechter Artikel mit Verbesserungspotential Gelöschter Artikel Derzeitig aktuell Relevanz unklar usw. Im Zuge der Einführung der Relevanzlevel wird eine neue Konfigurationsmöglichkeit für die Benutzer eingeführt, in der jeder Benutzer einstellen kann, welches Relevanzlevel er sehen möchte. Für nicht angemeldete Benutzer könnte es eine harte Voreinstellung geben die beispielsweise den derzeitigen Kriterien einer Enzyklopädie entspricht. Verändert ein nicht eingeloggter Benutzer diese Einstellung, kann sie per Cookie gespeichert werden damit der Benutzer die Relevanzlevel auch ohne Anmeldung nicht bei jedem Besuch neu konfigurieren muss. Bei Links innerhalb der Wikipedia werden Links die auf einen Artikel verlinken der außerhalb des vom Benutzer gewählten Relevanzlevels liegt in einer neuen Farbe gekennzeichnet (Nicht als "noch nicht erstellt", sondern als "außerhalb deines Relevanzlevels). Was haltet ihr von der Idee? Währe das Praktikabel? Grüße Floh1111

14 years, 3 months

Hilferuf aus dem Maschinenraum

by Kurt Jansson

Ich habe einen Beitrag zur Debatte um die Relevanzkriterien auf Spiegel Online veröffentlicht: http://www.spiegel.de/netzwelt/netzpolitik/0,1518,666407,00.html Viele Grüße Kurt

14 years, 3 months

Relevanz? Wissenssammlung?

by Thomas König

Um mich da mal wieder einzumischen^^, es geht interessanterweise vor allem um Leute. Es verwundert eigentlich kaum, daß es den meisten gar nicht darum geht einen Artikel zum Bäckerladen um die Ecke zu haben. Offenbar gibt es da doch auch bei sehe inclusionistisch veranlagten Leuten einen gewisse Hemmschwelle. Meist geht es ja um Menschen die gar nicht irrelevant sein könne. Wenn man sich aber mal das Recht so durch den Kopf gehen läßt - sollen wir Artikel schreiben für Leute von denen wir kein Bild veröffentlichen dürfen? Mag sein, etliche Leute kämen sich geschmeichelt vor, nichts geleistet zu haben und dennoch mit Bild in der Wikipedia zu stehen - ob dem noch so wäre, wenn JEDER drin steht erscheint mir im Übrigen fraglich. Aber Bilder sind doch nur möglich bei Personen der Zeitgeschichte. Nehmen wir mal Schriftsteller. Absolute Personen der Zeitgeschichte? Mhm. Verne, Courts-Mahler, dann hört es langsam auf. Ob z.B London oder Lovecraft nicht 'nur' relative Person der Zeitgeschichte sind wäre die Frage. Jeden Autor von zwei Büchern bereits als Person der Zeitgeschichte zu betrachten ist fast schon grenzwertig, was für 'subnationale' abgeordnete auch gilt, und nur mit relativ größer öffentlicher Wahrnehmung dieser Spezies ^^ zu erklären. Aber was machen wie denn wenn der nächste klagt, gegen seinen Eintrag? Ich bin mir z.B. ziemlich sicher, daß ich ein Recht darauf haben, daß kein Fotos von mir veröffentlicht werden und auch nicht jeder mein Lebenslauf im Internet nachlesen darf. Schon deshalb halte ich vergleichsweise hohe Hürden bei lebenden Personen für ganz wichtig. schöne Grüße, Thomas

14 years, 3 months

Re: [Wikide-l] Hilferuf aus dem Maschinenraum

by Klaus Bailly

Am 6.1.2010 um 16:58 schrieb Nando Stöcklin <nando.stoecklin(a)gmail.com> > Wir könnten ja bei Artikeln, die in den letzten 12 Monaten weniger als x mal > bearbeitet wurden eine Meldung "Vorsicht, dieser Artikel wird derzeit kaum > gepflegt" oder ähnlich anzeigen lassen. Das kann auch schlicht daran liegen, dass der Artikel gut ist und es nicht Wesentliches daran zu verbessern gibt. (Nicht alle Artikel behandeln aktuelle Themen.) Solchen Artikeln würden wir mit einem derartigen Bapperl einen argen Bärendienst erweisen. Jossi

14 years, 3 months

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

WikiDE-l January 2010