WikiDE-l December 2009

wikide-l@lists.wikimedia.org

56 participants
51 discussions

Automatisierte Kontrolle von Neuen Artikeln

by Bjoern Hoehrmann

Hallo, Ich hab vor einiger Zeit mit etwas Fassungslosigkeit zur Kenntnis ge- nommen, dass die Kontrolle von neuen Artikeln inklusive dem Stellen von Schnelllöschanträgen bzw. dem administrativem Schnelllöschen im Wesent- lichen manuell erfolgt. Ich hab daraufhin angeregt, die neuen Artikel einfach mal durch einen klassichen Spamfilter zu schicken um so Tasta- turtests und derlei automatisch zu erkennen (und dann gegebenenfalls gleich zu verhindern). Um zu schauen wie da die Trefferquote wäre hab ich das schnell mal im- plementiert, wie ich auch schon auf der Liste erwähnte. Ich hab das an einem zweiten Datensatz nochmal verifiziert. Beim zweiten Anlauf ist der Prozess denkbar einfach: Ich hab von 2009-12-06T00:43:49Z bis hin zu 2009-12-07T14:10:07Z alle Neueinstellungen inklusive Löschungen und Verschiebungen mitgeschnitten. Darunter waren 1737 neue Artikel. Ich hab dann versucht die von CRM114 (http://crm114.sourceforge.net/) in eine von zwei Kategorien ("+", "-") einzuteilen. Dazu hab ich zu jeder Neueinstellung das "Lemma", den Be- nutzer und seinen Einstellungskommentar sowie das Wiki-Markup zu einem Textzusammengefasst und den an CRM114 weitergegeben. Ich bin davon ausgegangen, wenn der Artikel im Beobachtungszeitraum schnellgelöscht wurde, dann soll er in die Kategorie "-", ansonsten in die Kategorie "+". Jedesmal wenn CRM114 dem widerspricht wird der Text zum "lernen" übergeben, wenn CRM114 richtig rät wird das als Erfolg ge- wertet. So ist in der Erwartungshaltung natürlich einiges an Rauschen drin, zum Beispiel gibt es von der Artikelqualität her einige recht gute Beiträge für das Humorarchiv, ebensowenig lassen sich Artikel mit leicht werb- lichen Charakter, Redundanzen, Urheberrechtsverletzungen, und so weiter auf diese Weise zuverlässig erkennen. Im Datensatz sind auch ein paar Fälle mit dabei wo das administative Schnelllöschen wenig nachvollzieh- bar ist. Die Löschkommentare geben es derzeit leider nicht her, dass man damit wirklich sinnvoll solche Datenprobleme beseitigen kann; in der englisch- sprachigen Wikipedia gibt es ein Codesystem für Schnelllöschungen. Ich weiss nicht wie da die Disziplin der Administratoren ist, aber es sieht von aussen durchaus wohlstrukturiert aus. Vor allem können Löschopfer da auch eine detailiertere Erklärung anhand des Codes nachlesen. Ich hab vornehmlich den experimentellen "hyperspace" Matcher verwendet da der schnell durchläuft und augenscheinlich gute Ergebnisse liefert. Über den gesamten Datensatz entscheidet der (inklusive der Lernphase, beim ersten Artikel entscheidet ja praktisch der Zufall) in 87% der Fälle richtig. Betrachtet man die 1000 Fälle (von etwas unter 1737, bei einigen der Artikel war mein Skript nicht schnell genug um den Text zu beziehen), bei denen CRM114 sich am sichersten war, oder einfach nur die letzten 1000 Artikel, liegt CRM114 in rund 92% der Fälle richtig. Nach manueller Durchsicht der Fehlentscheidungen gehe ich davon aus, dass man mit etwas sauberer Datenbasis (man bräuchte eigentlich für jeden Artikel "Sollte ein Filter hier 'behalten' oder 'löschen' ent- scheiden?" mit der dazugehörigen Portion Realismus, sowie mehr als die 38 Stunden Daten die ich benutzt habe), so wie ein paar mehr Da- ten ala "Neuautor vs. Alter Hase", oder wahrscheinlich eher noch "Hat Markup, Überschriften, Kategorien" dass man das auf 95% steigern kann. Das dürfte in etwa der Erfolgsquote der momentanen manuellen Kontrolle entsprechen. Die ist damit also rein technisch und theoretisch durchaus vermeidbar. Ich würde entsprechend mal anraten, dass ein geneigter Bot- schreiber mit Zugriff auf die "archive" Tabelle das Experiment hier mal für einen Monat an Daten wiederholt und die Ergebnisse veröffentlicht. -- Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

14 years, 2 months

Analyse der Schnelllöschungen

by Kai F. Lahmann

hi Da Björn Hoehrmann dankenswerter Weise einmal einen Tag die SLAs mitprotokolliert hat und mir das Ergebnis (genauer: komplette Liste der schnellgelöschten Artikel in Erstversion mit Inhalt und Löschlog) überlassen hat, habe ich einmal diese aufgedröselt. Erhebungszeitraum ist 25. bis 26.11. 12:50 UTC. - insgesamt wurden 674 Seiten im Artikelraum schnellgelöscht. - davon sind 573 indiskutabler Müll. Also Selbstdarstellungen von Schülern, wirre Zeichenfolgen und ähnliches. Beschimpfungen habe ich davon 5 protokolliert, keine ist klar zuzuordnen. Dazu ein offensichtlicher Fake einer Gemeinde in D. - drei Seiten waren irgendwelche Texte in falscher Sprache (je einmal englisch, spanisch und ungarisch). - 20 mal lebt der Artikel unter einem anderen Lemma weiter, hier wurden nur Verschiebeleichen gelöscht. - 7 Artikel haben im Benutzerraum überlebt und harren dort der Überarbeitung. Mindestens einer davon (der Aufhänger der ganzen Sache hier) ist inzwischen zurück. - 6 Seiten wurden als unbrauchbare URVs gelöscht (wo ich nicht immer mit dem "Unbrauchbar" einverstanden bin). - 3 Seiten sind jetzt Redirects (waren jeweils redundante Artikel), zwei davon habe ich eben selbst als solche erst erstellt. - eine Seite landete im Humorarchiv. - eine Seite wurde als "Babelfish-Unfall" gelöscht (ich halte ihn für rettbar). Bleiben also genau 60 Seiten, die die Bezeichnung "ernsthafter Versuch eines Artikels" verdienen. Weder die Relevanzkriterien (die teilweise sehr offensichtlich unterlaufen werden) noch die Artikelqualität (Hauptproblem: Werbung) sind dabei berücksichtigt. Insgesamt ist so eine Liste von 69 Begriffen entstanden, deren Löschung meiner Meinung nach nicht unter die Vandalismusbekämpfung fällt. Hierunter sind allerdings auch einige Firmen und Sportvereine, deren Nichterfüllung der Relevanzkriterien teilweise recht eindeutig ist. Gestrichen ist der einzige (!) Wiedergänger des Tages. Zahlreiche der unten genannten sind mit "kein Artikel", einige sogar als "Unfug" gelöscht worden. *Fevmar *InterMedia Solutions [Werbung] *Fahrbare Weidehütte [Werbung] *Fleischrasierer *Vorgelegemotor *Sprühschnee [viel Klamauk drin] *Ret-Protoonkogen [Könnte Quatsch sein] *Kaltabreise [Markaber] *FC Ehekirchen *Bengalische Quitte [jaja, die Biologen werden mich lynchen, dass ich den aufliste..] *Laukaitis & Kapfer [Werbung] *Drift City [Browserspiel, etwas werbend] *Newark (New York) [mit offensichtlichen sachlichen Fehlern, aber dass ein Artikel angebracht ist, ist klar erkennbar] *Schöner Sportclub DSC *Cheaptickets [Werbung] *Nona Tyson *Charles Williams (US-amerikanischer Schriftsteller) *Screening (Wirtschaftswissenschaft) *Vicky Chase *Help! 7 Song Radio Sampler *Dead Rabbids *Gerhard Jantzen *VDA QMC [Werbung] *Isolierklinker [Werbung] *Konrad Guhl *DAVID GmbH - Software. Systeme. Lösungen. [Werbung] *Robert Pfleger *Rompel, Georg *Jens Alder *Kent Johansson *Zendesk [Werbung] *Floriano Sauer *Uelde [ein Dorf in D] *Frank Nopper *Emre Gülec [Profifußballer?] *BellandDual GmbH *Melrose Place (2009) *Schlagzeuger matthias rumpf *Gustaf Larson [wenn der Substub nicht lügt, der Firmengründer von Volvo!] *Markus Hoffmann. [Nicht identisch mit der unter dem Lemma ohne Punkt vorhandenen Person] *Peter Tigges *FC Bechlingen *Stefan Dösselmann *Blair Witch Project: The Beginning *Penagina *SV Blau Weiss Petershagen Eggersdorf *Disklavier [Werbung] *Josef Schöpf *Surprise (heftli) [Inzwischen am Ziel angekommen] *Toxic Smile *Hartford (Michigan) *Borjgali *Kofuz *Leon Fromkess *TSV Mühlenfeld *Gröninger Privatbrauerei [Werbung] *Johanniskirche (Klein Berkel) *Hajener landbrot [Werbung] *Hitex Development Tools [Werbung] *HiTOP [Werbung] *Oldenburg (Texas) [Schon zahlreiche Male gelöscht worden, sollte man einmal als Artikelwunsch betrachten] *Reichs-Straßenverkehrsordnung [nur Gesetzestext] *Google Bilder *Hasselbrink-Schule *B+S Banksysteme [Werbung] *Konsoldierungshilfe *Kamado *Milchindustrie-Verband e.V. [Werbung] *W&co MediaServices [Werbung] -- Kai F. Lahmann

14 years, 3 months

Hilferuf aus dem Maschinenraum

by Kurt Jansson

Ich habe einen Beitrag zur Debatte um die Relevanzkriterien auf Spiegel Online veröffentlicht: http://www.spiegel.de/netzwelt/netzpolitik/0,1518,666407,00.html Viele Grüße Kurt

14 years, 3 months

Re: [Wikide-l] WikiDE-l Nachrichtensammlung, Band 77, Eintrag 48

by Thomas König

Kurt Jansson schrieb am Sun Dec 27 2009: >> > Planwirtschaft hat schon in der UdSSR nicht besonders gut geklappt > Bitte 5 Euro ins Phrasenschwein. Recht hat er trotzdem. Ich vermag nicht zu erkennen Was man da groß vorausplanen sollte, Höchsten zukünftig nicht schon Monate im Voraus so ein Gewesen darum machen. Nee? Nya, fromme Wünsche wird man ja noch haben dürfen. schöne Grüße, Thomas

14 years, 4 months

Eine Million Artikel

by Henning Schlottmann

Erstmal Gratulation an uns alle für die Leistung, die größte und beste Enzyklopädie deutscher Sprache aufgebaut zu haben. Dann aber zum Thema: Lasst uns mal diskutieren, was heute morgen passiert ist und was dabei besser hätte laufen können. Innerhalb einer Minute wurden mehrere hundert vorproduzierte Neuanlagen eingestellt. Ich nenne sie hier bewusst nicht Artikel, weil ein großer Teil der Beiträge, die ich mir angesehen habe, in dieser Fassung sofort ein QS- oder LA-Bapperl verdienen. Die Auswahl des Ein-Millionsten-Artikels erfolgte diesmal durch jemanden, der nicht auf die Qualität geschaut hat sondern nur eine mehr oder weniger begründete statistische Auswertung vorgenommen hat. Früher wurde der beste Artikel aus dem zeitlichen Umfeld als Meilenstein gewählt. Der vermeintliche Millionen-Artikel hat sofort und zu Recht einen LA kassiert und wird, wenn fachliche Argumente durchdringen, gelöscht werden. Dies ist jedoch problematisch, weil wir uns mit dem Eintrag auf den Meilensteinen festgelegt haben. Frage: Was hätte besser laufen können? Einzelne Thesen zum Start einer Diskussion ohne Anspruch auf Konsistenz: * der spielerische Ansatz ist für viele Wikipedianer wesentlicher Teil ihrer Motivation. Meilensteine sind ein Sport. * Löschdiskussionen sind die Wikipedia-Variante der Spiele aus "Brot und Spiele". Hier kann jeder "Kreuzige" rufen oder den Daumen nach oben heben. Man muss sich mit nichts auskennen, nicht schreiben können, nicht systematisch mitarbeiten, aber man kann von seinem Schreibtisch aus Spass haben und das Gefühl von Machtausübung. * Das offene System der Wikipedia führt dazu, dass jedermann Edits machen kann, die große Öffentlichkeitswirkung entfalten. Hier war es die Auswahl des Meilensteins, die offensichtlich nicht die früher mal üblichen Kriterien erfüllte. * Wo ist eigentlich der Verein? Ich vermisse eine Pressemitteilung oder Stellungnahme im Blog. War da nichts vorbereitet? * Ist es möglich und sinnvoll, die Außendarstellung und wesentliche, nach außen wirksame Aktivitäten stärker als bisher zu organisieren oder gar zu kontrollieren? Oder gehört es gerade zu unserer Außendarstellung, dass die Wikipedia eben nicht kontrolliert und kontrollierbar ist und jeder dort sein Ding machen kann? Ciao Henning

14 years, 4 months

Zeno.org-Datenbestand für Wikimedia und den Rest der Welt

by Mathias Schindler

Liebe Liste, vor einigen Tagen hatte ich hier auf das Projekt TextGrid hingewiesen und eine laufende Abstimmung zur Lizenzierung. Im Nachgang hatten Tim und ich Kontakt mit TextGrid und relativ schnell stellte sich dabei heraus, dass es hier um eine Ansammlung von Missverständnissen ging. TextGrid hat mit freundlicher finanzieller Unterstützung des Bundesministeriums für Bildung und Forschung (BMBF) von der Firma editura eine Kopie des Datenbestandes von zeno.org unter der "cc-by"-Lizenz erworben. Die in zeno.org enthaltenen Werke sind gemeinfrei, allerdings kommen durch das Schnüren eines Paketes solcher Werke und durch XML-Tagging nach durchaus vertretbarer Ansicht Leistungsschutzrechte ins Spiel. Eine cc-by-Lizenzierung geht auf solche Leistungsschutzrechte ein, nämlich in einer denkbar angenehmen Form: Der Lizenzgeber verzichtet auf diese Rechte ("Soweit Datenbanken oder Zusammenstellungen von Daten Schutzgegenstand dieser Lizenz oder Teil dessen sind und einen immaterialgüterrechtlichen Schutz eigener Art genießen, verzichtet der Lizenzgeber auf sämtliche aus diesem Schutz resultierenden Rechte" [1]). Was die Attribution-Klausel von cc angeht, handelt es sich auch eher um einen theoretischen Unterschied, denn alleine schon die Sorgfaltspflicht gebietet es, die Herkunft eines Textes zu kennzeichnen. TextGrid wird Wikimedia Deutschland die Dateien in genau der Form bereitstellen, in der sie sie auch von Editura erhalten haben. Wir werden sie, sobald wir sie erhalten, dann den Projekten Wikisource und Wikimedia Commons anbieten, die dann entscheiden können, ob und wie sie die Daten in ihre Projekte importieren. Wer möchte, kann auch den kompletten Datensatz für eigene Projekte nutzen, es sind immerhin 2 Milliarden Zeichen Text in deutscher Sprache. Auch wenn Wikipedia-Texte auf zeno.org gespiegelt sind, enthält dieses Paket keine Wikipedia-Texte (die ja dann eh nicht unter cc-by stehen könnten). Ich rechne damit, dass wir die Daten im Januar 2010 auf einen Server gepackt haben, ich werde dazu noch eine entsprechende Mitteilung machen. Diese Texte sind auch aus Sicht der Wikipedia ziemlich interessant, wenn man bedenkt, dass derzeit über 6000 Links auf zeno.org zeigen. Ich habe unten noch die kurze Mitteilung an die interessierte Öffentlichkeit beigefügt. Auf die Gefahr hin, jetzt ein größeres Fass aufzumachen: Die ganze Debatte um den Aufbau von Europeana, die Deutsche Digitale Bibliothek und viele andere Digitalisierungsprojekte ist für uns immer wieder Anlass für den Hinweis, dass Gemeinfreies auch noch nach der Digitalisierung gemeinfrei ist und alle Kniffe, die freie Weiternutzung von Digitalisaten zu verhindern, mehr als nur unerfreulich sind. Wenn eine Bibliothek Drucke aus dem 17. Jahrhundert oder ein Gemälde eines 1920 verstorbenen Malers digitalisiert, dann sollte die Öffentlichkeit einfachen Zugriff auf das vollständige Digitalisat erhalten, nicht nur auf ein Thumbnail oder eine verkachelte, mit Wasserzeichen überklebte und mit Flash schwer benutzbare und eingeschränkte Anzeigefunktion. Auch Beschränkungen wie "für wissenschaftliche-nichtkommerzielle Nutzung kostenlos" schaden der Allmende und natürlich auch direkt und indirekt den digitalisierenden Institutionen. Und das nicht erst, wenn diese selbst von woanders gerne an Daten kämen und sie nicht so einfach erhalten, wie es technisch möglich wäre. Wikisource und Wikimedia Commons sind in dieser Hinsicht hervorragende Beispiele für frei verfügbare und frei nutzbare Inhalte und ich würde mich sehr freuen, wenn diese aus dem zeno.org-Bestand Nutzen ziehen könnten. Ich kann mir sehr gut vorstellen, dass die kreative Nutzung dieser Daten auch im BMBF nicht unbemerkt bliebe und einen entsprechenden Einfluss auf künftige Förderentscheidungen hätte. Ganz besonders möchte ich mich bei allen an dieser Aktion Beteiligten bedanken, den Angestellten der Universität Göttingen, Michael Weller von Creative Commons, Tim Bartel und natürlich dem BMBF (Es lebe das Förderkennzeichen 01UG0901A!). Ich wünsche Euch frohe Feiertage, stehe für Rückfragen auf der Mailingliste oder direkt zur Verfügung (mathias.schindler(a)wikimedia.de). Mathias [1] http://creativecommons.org/licenses/by/3.0/de/legalcode Abschnitt 3, letzter Absatz --- Text der Erklärung: 2.347.703.384 Zeichen kulturelles Erbe frei verfügbar TextGrid, Wikimedia und Creative Commons Deutschland [1] kooperieren, um eine umfangreiche Textsammlung für die Öffentlichkeit frei verfügbar zu machen. Der Forschungsverbund TextGrid hat kürzlich die Texte der Online-Bibliothek zeno.org mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) erworben [2]. Diese digitale Sammlung ist die umfangreichste ihrer Art im deutschen Sprachraum und enthält Texte vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts. TextGrid, Wikimedia Deutschland und Creative Commons Deutschland kooperieren nun, um diese Textsammlung für die Allgemeinheit frei nutzbar zu machen. Wikimedia wird die Sammlung mit Unterstützung von TextGrid in Kürze bereitstellen. Soweit sie aus gemeinfreien Inhalten besteht (insbesondere bzgl. der digitalisierten Texte selbst) wird dann eine Nachnutzung ohne Einschränkungen möglich sein. Soweit zusätzliche Erschließungsdaten enthalten sind (z.B. bibliografische Metadaten) werden diese unter der Lizenz CC-BY 3.0 de [3] stehen. Diese Lizenz erfordert hauptsächlich die Namensnennung des Lizenzgebers und ist überdies durch die Free Software Foundation als „free license“ anerkannt [4]. “Durch die Wahl der Creative Commons Lizenz entsteht für jeden Nachnutzer der Texte Rechtssicherheit, da über den urheberrechtlichen Status der eigentlichen Werke hinaus dadurch auch die Frage der Leistungsschutzrechte geklärt ist und der Lizenzgeber auf sämtliche aus diesem Schutz resultierenden Rechte soweit wie möglich verzichtet“, erklärt Michael Weller von der Europäischen EDV-Akademie des Rechts (Projektleitung Recht für Creative Commons Deutschland). Jeder Internetnutzer erhält freien Zugriff auf die Dateien und kann den Datenbestand unter Berücksichtigung der Namensnennung weiterbearbeiten. Für die von der Wikimedia Foundation betriebenen Projekte entstehen neue Möglichkeiten: “Durch den freien Zugriff auf die Daten können die von der Wikimedia Foundation betriebenen Projekte wie Wikisource und Wikimedia Commons und ihre Benutzer die Werke der Textsammlung in ihrer Wissenssammlung anbieten und vernetzen“, erläutert Mathias Schindler von Wikimedia Deutschland. Von der Kooperation profitieren somit Öffentlichkeit wie Fachwissenschaft: “Nicht mehr die Digitalisierung, wie noch in den 90er Jahren, sondern die methodisch innovative Erschließung der strukturierten Datenmengen ist die Leitaufgabe der Digital Humanities. Mit der Kooperation ermöglichen wir nicht nur der Fachwissenschaft, sondern auch der allgemeinen Öffentlichkeit Zugriff auf diese Informationen“, betont Dr. Heike Neuroth, TextGrid Projektleiterin an der Niedersächsischen Staats- und Universitätsbibliothek Göttingen. TextGrid wird die Sammlung nun innerhalb der nächsten drei Jahre für die wissenschaftliche Verwendung aufbereiten (z.B. Konvertierung in TEI, tiefere Auszeichnung für genauere Recherchen) und in einer virtuellen Forschungsumgebung zusammen mit passenden Werkzeugen zur Weiterverarbeitung bereit stellen. Die fachwissenschaftlichen Communities sind zu einer Abstimmung über die gewünschten Lizenzbedingungen für ihre dann auf dieser Basis entstehenden Forschungsdaten aufgerufen [5]. [1] Projektleitung Recht für Creative Commons Deutschland, getragen von der Europäischen EDV-Akademie des Rechts (EEAR) und dem Institut für Rechtsinformatik der Universität des Saarlandes (IFRI). [2] Pressemitteilung der Georg-August-Universität Göttingen vom 2.12.2009: http://www.uni-goettingen.de/de/3240.html?cid=3426 [3] Creative Commons Lizenz cc-by: http://creativecommons.org/licenses/by/3.0/de/ [4] Stellungnahmen der FSF zu den CC-Lizenztypen BY und BY-SA: http://www.gnu.org/licenses/license-list.html#OtherLicenses [5] Abstimmung über Lizenzbedingungen für die wissenschaftliche Verwendung in TextGrid: http://www.textgrid.de/abstimmung.html

14 years, 4 months

Re: [Wikide-l] Stublöschung

by rainersti

Nach meiner negativen Erfahrung mit der Stub-Einstellung als nichtangemeldeter Benutzer habe ich 24 Artikelchen angemeldet eingestellt. Das Resultat ist: Ein Stub wurde wesentlich erweitert (im Rahmen der Löschdiskussion). Einer wurde gelöscht ("Wörterbucheintrag"). Drei wurden mit Qualitätssicherung gekennzeichnet, zwei davon auf den entsprechenden Seiten eingetragen. Ein einziges Mal erfolgte eine Ansprache auf meiner Benutzerseite. http://de.wikipedia.org/wiki/Benutzer_Diskussion:Sti#Bilanz Gruß, rainersti

14 years, 4 months

Re: [Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

by Bjoern Hoehrmann

* rainersti wrote: >Ich bin nicht sicher, ob ich es richtig verstanden habe. Rund 50 von 500 >(+200) Neuanlagen von nicht-angemeldeten wurden behalten? Bei den >angemeldeten Benutzern wurde nur rund jeder zehnte neu angelegte >Artikel gelöscht? Die 50 und die 500 sind die Zahl der behaltenen Artikel von nichtange- meldeten Benutzern innerhalb eines Tages beziehungsweise innerhalb von zwölf Tagen. Die Gesamtzahl der neuen Artikel ist dabei nicht berück- sichtigt. Sehr grob kann man sagen dass jeder zehnte Artikel von ange- meldeten Benutzern gelöscht, und jeder zehnte Artikel von nichtange- meldeten Benutzern behalten wird (wobei natürlich viele "Artikel" von nicht-angemeldeten Benutzern gar keine Artikelversuche sind), zumindest den Daten nach die ich bisher gesehen hab; jemand mit Zugriff auf die Datenbank kann da leichter und zuverlässiger Daten liefern als ich. -- Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

14 years, 4 months

Re: [Wikide-l] Automatisierte Kontrolle von Neuen Artikeln

by rainersti

>* rainersti wrote: >>Mich würde auch interessieren, wie viele der Lösch-Entscheidungen >>Beiträge von IPs und Beiträge von angemeldeten Nutzern betrafen. > Björn antwortete (sehr viel ausführlicher; danke für deine umfangreiche Arbeit): (...) >mal grob überschlagen >gibt es zu der Anfrage "Wurde von angemeldetem Benutzer neu erstellt >und wurde nicht verschoben und wurde gelöscht" rund jeden zehnten neuen >Artikel, (...) >Umgekehrt kann man sich über die MediaWiki API übrigens leicht anzeigen >lassen, welche Beiträge von nicht-angemeldeten Benutzern behalten >werden, z.B. (hier werden Weiterleitungen ausgeschlossen, das sind >rund 50 Artikel pro Tag wenn man da mal die aktuellsten Daten nimmt). (...) >Über die >letzten 12 Tage gab es von nicht angemeldeten Benutzern gut 500 neue >Artikel plus 200 neue Weiterleitungen. >-- Ich bin nicht sicher, ob ich es richtig verstanden habe. Rund 50 von 500 (+200) Neuanlagen von nicht-angemeldeten wurden behalten? Bei den angemeldeten Benutzern wurde nur rund jeder zehnte neu angelegte Artikel gelöscht? Gruß, --~~~~

14 years, 4 months

Re: [Wikide-l] WikiDE-l Nachrichtensammlung, Band 77, Eintrag 41

by Thomas König

Christian Thiele schrieb am Fri Dec 18 2009 > Dabei sind alle Artikel positiv, die nach 7 Tagen noch > existieren, alle anderen negativ (also alle, die schnellgelöscht wurden > sind "SPAM"). Nun, wie wir ja bereits festgestellt haben, braucht es keinen Spam, um als IP-Artikel schnellgewecht zu werden. > Und ich spreche mich stark dagegen aus, etwas automatisch zu löschen Da macht jedes auch nur halbwegs normale Internetforum, ohne das sich Heerscharen beschweren. Andererseits könnte durchaus zumindest automatisch SLA gestellt werden. Wenn dann gleichzeitig das manuelle stellen von SLAs erschwert würde, wäre schon durchaus was gewonnen. schöne Grüße, Thomas

14 years, 4 months

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

WikiDE-l December 2009