Hallo,
Ich hab vor einiger Zeit mit etwas Fassungslosigkeit zur Kenntnis ge-
nommen, dass die Kontrolle von neuen Artikeln inklusive dem Stellen von
Schnelllöschanträgen bzw. dem administrativem Schnelllöschen im Wesent-
lichen manuell erfolgt. Ich hab daraufhin angeregt, die neuen Artikel
einfach mal durch einen klassichen Spamfilter zu schicken um so Tasta-
turtests und derlei automatisch zu erkennen (und dann gegebenenfalls
gleich zu verhindern).
Um zu schauen wie da die Trefferquote wäre hab ich das schnell mal im-
plementiert, wie ich auch schon auf der Liste erwähnte. Ich hab das an
einem zweiten Datensatz nochmal verifiziert. Beim zweiten Anlauf ist
der Prozess denkbar einfach: Ich hab von 2009-12-06T00:43:49Z bis hin
zu 2009-12-07T14:10:07Z alle Neueinstellungen inklusive Löschungen und
Verschiebungen mitgeschnitten.
Darunter waren 1737 neue Artikel. Ich hab dann versucht die von CRM114
(http://crm114.sourceforge.net/) in eine von zwei Kategorien ("+", "-")
einzuteilen. Dazu hab ich zu jeder Neueinstellung das "Lemma", den Be-
nutzer und seinen Einstellungskommentar sowie das Wiki-Markup zu einem
Textzusammengefasst und den an CRM114 weitergegeben.
Ich bin davon ausgegangen, wenn der Artikel im Beobachtungszeitraum
schnellgelöscht wurde, dann soll er in die Kategorie "-", ansonsten in
die Kategorie "+". Jedesmal wenn CRM114 dem widerspricht wird der Text
zum "lernen" übergeben, wenn CRM114 richtig rät wird das als Erfolg ge-
wertet.
So ist in der Erwartungshaltung natürlich einiges an Rauschen drin, zum
Beispiel gibt es von der Artikelqualität her einige recht gute Beiträge
für das Humorarchiv, ebensowenig lassen sich Artikel mit leicht werb-
lichen Charakter, Redundanzen, Urheberrechtsverletzungen, und so weiter
auf diese Weise zuverlässig erkennen. Im Datensatz sind auch ein paar
Fälle mit dabei wo das administative Schnelllöschen wenig nachvollzieh-
bar ist.
Die Löschkommentare geben es derzeit leider nicht her, dass man damit
wirklich sinnvoll solche Datenprobleme beseitigen kann; in der englisch-
sprachigen Wikipedia gibt es ein Codesystem für Schnelllöschungen. Ich
weiss nicht wie da die Disziplin der Administratoren ist, aber es sieht
von aussen durchaus wohlstrukturiert aus. Vor allem können Löschopfer
da auch eine detailiertere Erklärung anhand des Codes nachlesen.
Ich hab vornehmlich den experimentellen "hyperspace" Matcher verwendet
da der schnell durchläuft und augenscheinlich gute Ergebnisse liefert.
Über den gesamten Datensatz entscheidet der (inklusive der Lernphase,
beim ersten Artikel entscheidet ja praktisch der Zufall) in 87% der
Fälle richtig.
Betrachtet man die 1000 Fälle (von etwas unter 1737, bei einigen der
Artikel war mein Skript nicht schnell genug um den Text zu beziehen),
bei denen CRM114 sich am sichersten war, oder einfach nur die letzten
1000 Artikel, liegt CRM114 in rund 92% der Fälle richtig.
Nach manueller Durchsicht der Fehlentscheidungen gehe ich davon aus,
dass man mit etwas sauberer Datenbasis (man bräuchte eigentlich für
jeden Artikel "Sollte ein Filter hier 'behalten' oder 'löschen' ent-
scheiden?" mit der dazugehörigen Portion Realismus, sowie mehr als
die 38 Stunden Daten die ich benutzt habe), so wie ein paar mehr Da-
ten ala "Neuautor vs. Alter Hase", oder wahrscheinlich eher noch "Hat
Markup, Überschriften, Kategorien" dass man das auf 95% steigern kann.
Das dürfte in etwa der Erfolgsquote der momentanen manuellen Kontrolle
entsprechen. Die ist damit also rein technisch und theoretisch durchaus
vermeidbar. Ich würde entsprechend mal anraten, dass ein geneigter Bot-
schreiber mit Zugriff auf die "archive" Tabelle das Experiment hier mal
für einen Monat an Daten wiederholt und die Ergebnisse veröffentlicht.
--
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
hi
Da Björn Hoehrmann dankenswerter Weise einmal einen Tag die SLAs
mitprotokolliert hat und mir das Ergebnis (genauer: komplette Liste der
schnellgelöschten Artikel in Erstversion mit Inhalt und Löschlog)
überlassen hat, habe ich einmal diese aufgedröselt. Erhebungszeitraum
ist 25. bis 26.11. 12:50 UTC.
- insgesamt wurden 674 Seiten im Artikelraum schnellgelöscht.
- davon sind 573 indiskutabler Müll. Also Selbstdarstellungen von
Schülern, wirre Zeichenfolgen und ähnliches. Beschimpfungen habe ich
davon 5 protokolliert, keine ist klar zuzuordnen. Dazu ein
offensichtlicher Fake einer Gemeinde in D.
- drei Seiten waren irgendwelche Texte in falscher Sprache (je einmal
englisch, spanisch und ungarisch).
- 20 mal lebt der Artikel unter einem anderen Lemma weiter, hier wurden
nur Verschiebeleichen gelöscht.
- 7 Artikel haben im Benutzerraum überlebt und harren dort der
Überarbeitung. Mindestens einer davon (der Aufhänger der ganzen Sache
hier) ist inzwischen zurück.
- 6 Seiten wurden als unbrauchbare URVs gelöscht (wo ich nicht immer mit
dem "Unbrauchbar" einverstanden bin).
- 3 Seiten sind jetzt Redirects (waren jeweils redundante Artikel), zwei
davon habe ich eben selbst als solche erst erstellt.
- eine Seite landete im Humorarchiv.
- eine Seite wurde als "Babelfish-Unfall" gelöscht (ich halte ihn für
rettbar).
Bleiben also genau 60 Seiten, die die Bezeichnung "ernsthafter Versuch
eines Artikels" verdienen. Weder die Relevanzkriterien (die teilweise
sehr offensichtlich unterlaufen werden) noch die Artikelqualität
(Hauptproblem: Werbung) sind dabei berücksichtigt.
Insgesamt ist so eine Liste von 69 Begriffen entstanden, deren Löschung
meiner Meinung nach nicht unter die Vandalismusbekämpfung fällt.
Hierunter sind allerdings auch einige Firmen und Sportvereine, deren
Nichterfüllung der Relevanzkriterien teilweise recht eindeutig ist.
Gestrichen ist der einzige (!) Wiedergänger des Tages. Zahlreiche der
unten genannten sind mit "kein Artikel", einige sogar als "Unfug"
gelöscht worden.
*Fevmar
*InterMedia Solutions [Werbung]
*Fahrbare Weidehütte [Werbung]
*Fleischrasierer
*Vorgelegemotor
*Sprühschnee [viel Klamauk drin]
*Ret-Protoonkogen [Könnte Quatsch sein]
*Kaltabreise [Markaber]
*FC Ehekirchen
*Bengalische Quitte [jaja, die Biologen werden mich lynchen, dass ich
den aufliste..]
*Laukaitis & Kapfer [Werbung]
*Drift City [Browserspiel, etwas werbend]
*Newark (New York) [mit offensichtlichen sachlichen Fehlern, aber dass
ein Artikel angebracht ist, ist klar erkennbar]
*Schöner Sportclub DSC
*Cheaptickets [Werbung]
*Nona Tyson
*Charles Williams (US-amerikanischer Schriftsteller)
*Screening (Wirtschaftswissenschaft)
*Vicky Chase
*Help! 7 Song Radio Sampler
*Dead Rabbids
*Gerhard Jantzen
*VDA QMC [Werbung]
*Isolierklinker [Werbung]
*Konrad Guhl
*DAVID GmbH - Software. Systeme. Lösungen. [Werbung]
*Robert Pfleger
*Rompel, Georg
*Jens Alder
*Kent Johansson
*Zendesk [Werbung]
*Floriano Sauer
*Uelde [ein Dorf in D]
*Frank Nopper
*Emre Gülec [Profifußballer?]
*BellandDual GmbH
*Melrose Place (2009)
*Schlagzeuger matthias rumpf
*Gustaf Larson [wenn der Substub nicht lügt, der Firmengründer von Volvo!]
*Markus Hoffmann. [Nicht identisch mit der unter dem Lemma ohne Punkt
vorhandenen Person]
*Peter Tigges
*FC Bechlingen
*Stefan Dösselmann
*Blair Witch Project: The Beginning
*Penagina
*SV Blau Weiss Petershagen Eggersdorf
*Disklavier [Werbung]
*Josef Schöpf
*Surprise (heftli) [Inzwischen am Ziel angekommen]
*Toxic Smile
*Hartford (Michigan)
*Borjgali
*Kofuz
*Leon Fromkess
*TSV Mühlenfeld
*Gröninger Privatbrauerei [Werbung]
*Johanniskirche (Klein Berkel)
*Hajener landbrot [Werbung]
*Hitex Development Tools [Werbung]
*HiTOP [Werbung]
*Oldenburg (Texas) [Schon zahlreiche Male gelöscht worden, sollte man
einmal als Artikelwunsch betrachten]
*Reichs-Straßenverkehrsordnung [nur Gesetzestext]
*Google Bilder
*Hasselbrink-Schule
*B+S Banksysteme [Werbung]
*Konsoldierungshilfe
*Kamado
*Milchindustrie-Verband e.V. [Werbung]
*W&co MediaServices [Werbung]
--
Kai F. Lahmann
Kurt Jansson schrieb am Sun Dec 27 2009:
>> > Planwirtschaft hat schon in der UdSSR nicht besonders gut geklappt
> Bitte 5 Euro ins Phrasenschwein.
Recht hat er trotzdem. Ich vermag nicht zu erkennen Was man da groß vorausplanen sollte, Höchsten zukünftig
nicht schon Monate im Voraus so ein Gewesen darum machen.
Nee? Nya, fromme Wünsche wird man ja noch haben dürfen.
schöne Grüße,
Thomas
Erstmal Gratulation an uns alle für die Leistung, die größte und beste
Enzyklopädie deutscher Sprache aufgebaut zu haben.
Dann aber zum Thema: Lasst uns mal diskutieren, was heute morgen
passiert ist und was dabei besser hätte laufen können.
Innerhalb einer Minute wurden mehrere hundert vorproduzierte Neuanlagen
eingestellt. Ich nenne sie hier bewusst nicht Artikel, weil ein großer
Teil der Beiträge, die ich mir angesehen habe, in dieser Fassung sofort
ein QS- oder LA-Bapperl verdienen.
Die Auswahl des Ein-Millionsten-Artikels erfolgte diesmal durch
jemanden, der nicht auf die Qualität geschaut hat sondern nur eine mehr
oder weniger begründete statistische Auswertung vorgenommen hat. Früher
wurde der beste Artikel aus dem zeitlichen Umfeld als Meilenstein gewählt.
Der vermeintliche Millionen-Artikel hat sofort und zu Recht einen LA
kassiert und wird, wenn fachliche Argumente durchdringen, gelöscht
werden. Dies ist jedoch problematisch, weil wir uns mit dem Eintrag auf
den Meilensteinen festgelegt haben.
Frage: Was hätte besser laufen können?
Einzelne Thesen zum Start einer Diskussion ohne Anspruch auf Konsistenz:
* der spielerische Ansatz ist für viele Wikipedianer wesentlicher Teil
ihrer Motivation. Meilensteine sind ein Sport.
* Löschdiskussionen sind die Wikipedia-Variante der Spiele aus "Brot und
Spiele". Hier kann jeder "Kreuzige" rufen oder den Daumen nach oben
heben. Man muss sich mit nichts auskennen, nicht schreiben können, nicht
systematisch mitarbeiten, aber man kann von seinem Schreibtisch aus
Spass haben und das Gefühl von Machtausübung.
* Das offene System der Wikipedia führt dazu, dass jedermann Edits
machen kann, die große Öffentlichkeitswirkung entfalten. Hier war es die
Auswahl des Meilensteins, die offensichtlich nicht die früher mal
üblichen Kriterien erfüllte.
* Wo ist eigentlich der Verein? Ich vermisse eine Pressemitteilung oder
Stellungnahme im Blog. War da nichts vorbereitet?
* Ist es möglich und sinnvoll, die Außendarstellung und wesentliche,
nach außen wirksame Aktivitäten stärker als bisher zu organisieren oder
gar zu kontrollieren? Oder gehört es gerade zu unserer Außendarstellung,
dass die Wikipedia eben nicht kontrolliert und kontrollierbar ist und
jeder dort sein Ding machen kann?
Ciao Henning
Liebe Liste,
vor einigen Tagen hatte ich hier auf das Projekt TextGrid hingewiesen
und eine laufende Abstimmung zur Lizenzierung. Im Nachgang hatten Tim
und ich Kontakt mit TextGrid und relativ schnell stellte sich dabei
heraus, dass es hier um eine Ansammlung von Missverständnissen ging.
TextGrid hat mit freundlicher finanzieller Unterstützung des
Bundesministeriums für Bildung und Forschung (BMBF) von der Firma
editura eine Kopie des Datenbestandes von zeno.org unter der
"cc-by"-Lizenz erworben. Die in zeno.org enthaltenen Werke sind
gemeinfrei, allerdings kommen durch das Schnüren eines Paketes solcher
Werke und durch XML-Tagging nach durchaus vertretbarer Ansicht
Leistungsschutzrechte ins Spiel. Eine cc-by-Lizenzierung geht auf
solche Leistungsschutzrechte ein, nämlich in einer denkbar angenehmen
Form: Der Lizenzgeber verzichtet auf diese Rechte ("Soweit Datenbanken
oder Zusammenstellungen von Daten Schutzgegenstand dieser Lizenz oder
Teil dessen sind und einen immaterialgüterrechtlichen Schutz eigener
Art genießen, verzichtet der Lizenzgeber auf sämtliche aus diesem
Schutz resultierenden Rechte" [1]). Was die Attribution-Klausel von cc
angeht, handelt es sich auch eher um einen theoretischen Unterschied,
denn alleine schon die Sorgfaltspflicht gebietet es, die Herkunft
eines Textes zu kennzeichnen.
TextGrid wird Wikimedia Deutschland die Dateien in genau der Form
bereitstellen, in der sie sie auch von Editura erhalten haben. Wir
werden sie, sobald wir sie erhalten, dann den Projekten Wikisource und
Wikimedia Commons anbieten, die dann entscheiden können, ob und wie
sie die Daten in ihre Projekte importieren. Wer möchte, kann auch den
kompletten Datensatz für eigene Projekte nutzen, es sind immerhin 2
Milliarden Zeichen Text in deutscher Sprache. Auch wenn
Wikipedia-Texte auf zeno.org gespiegelt sind, enthält dieses Paket
keine Wikipedia-Texte (die ja dann eh nicht unter cc-by stehen
könnten).
Ich rechne damit, dass wir die Daten im Januar 2010 auf einen Server
gepackt haben, ich werde dazu noch eine entsprechende Mitteilung
machen.
Diese Texte sind auch aus Sicht der Wikipedia ziemlich interessant,
wenn man bedenkt, dass derzeit über 6000 Links auf zeno.org zeigen.
Ich habe unten noch die kurze Mitteilung an die interessierte
Öffentlichkeit beigefügt.
Auf die Gefahr hin, jetzt ein größeres Fass aufzumachen: Die ganze
Debatte um den Aufbau von Europeana, die Deutsche Digitale Bibliothek
und viele andere Digitalisierungsprojekte ist für uns immer wieder
Anlass für den Hinweis, dass Gemeinfreies auch noch nach der
Digitalisierung gemeinfrei ist und alle Kniffe, die freie
Weiternutzung von Digitalisaten zu verhindern, mehr als nur
unerfreulich sind. Wenn eine Bibliothek Drucke aus dem 17. Jahrhundert
oder ein Gemälde eines 1920 verstorbenen Malers digitalisiert, dann
sollte die Öffentlichkeit einfachen Zugriff auf das vollständige
Digitalisat erhalten, nicht nur auf ein Thumbnail oder eine
verkachelte, mit Wasserzeichen überklebte und mit Flash schwer
benutzbare und eingeschränkte Anzeigefunktion. Auch Beschränkungen wie
"für wissenschaftliche-nichtkommerzielle Nutzung kostenlos" schaden
der Allmende und natürlich auch direkt und indirekt den
digitalisierenden Institutionen. Und das nicht erst, wenn diese selbst
von woanders gerne an Daten kämen und sie nicht so einfach erhalten,
wie es technisch möglich wäre.
Wikisource und Wikimedia Commons sind in dieser Hinsicht hervorragende
Beispiele für frei verfügbare und frei nutzbare Inhalte und ich würde
mich sehr freuen, wenn diese aus dem zeno.org-Bestand Nutzen ziehen
könnten. Ich kann mir sehr gut vorstellen, dass die kreative Nutzung
dieser Daten auch im BMBF nicht unbemerkt bliebe und einen
entsprechenden Einfluss auf künftige Förderentscheidungen hätte.
Ganz besonders möchte ich mich bei allen an dieser Aktion Beteiligten
bedanken, den Angestellten der Universität Göttingen, Michael Weller
von Creative Commons, Tim Bartel und natürlich dem BMBF (Es lebe das
Förderkennzeichen 01UG0901A!).
Ich wünsche Euch frohe Feiertage, stehe für Rückfragen auf der
Mailingliste oder direkt zur Verfügung
(mathias.schindler(a)wikimedia.de).
Mathias
[1] http://creativecommons.org/licenses/by/3.0/de/legalcode Abschnitt
3, letzter Absatz
---
Text der Erklärung:
2.347.703.384 Zeichen kulturelles Erbe frei verfügbar
TextGrid, Wikimedia und Creative Commons Deutschland [1] kooperieren,
um eine umfangreiche Textsammlung für die Öffentlichkeit frei
verfügbar zu machen.
Der Forschungsverbund TextGrid hat kürzlich die Texte der
Online-Bibliothek zeno.org mit Mitteln des Bundesministeriums für
Bildung und Forschung (BMBF) erworben [2]. Diese digitale Sammlung ist
die umfangreichste ihrer Art im deutschen Sprachraum und enthält Texte
vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20.
Jahrhunderts.
TextGrid, Wikimedia Deutschland und Creative Commons Deutschland
kooperieren nun, um diese Textsammlung für die Allgemeinheit frei
nutzbar zu machen. Wikimedia wird die Sammlung mit Unterstützung von
TextGrid in Kürze bereitstellen. Soweit sie aus gemeinfreien Inhalten
besteht (insbesondere bzgl. der digitalisierten Texte selbst) wird
dann eine Nachnutzung ohne Einschränkungen möglich sein. Soweit
zusätzliche Erschließungsdaten enthalten sind (z.B. bibliografische
Metadaten) werden diese unter der Lizenz CC-BY 3.0 de [3] stehen.
Diese Lizenz erfordert hauptsächlich die Namensnennung des
Lizenzgebers und ist überdies durch die Free Software Foundation als
„free license“ anerkannt [4].
“Durch die Wahl der Creative Commons Lizenz entsteht für jeden
Nachnutzer der Texte Rechtssicherheit, da über den urheberrechtlichen
Status der eigentlichen Werke hinaus dadurch auch die Frage der
Leistungsschutzrechte geklärt ist und der Lizenzgeber auf sämtliche
aus diesem Schutz resultierenden Rechte soweit wie möglich
verzichtet“, erklärt Michael Weller von der Europäischen EDV-Akademie
des Rechts (Projektleitung Recht für Creative Commons Deutschland).
Jeder Internetnutzer erhält freien Zugriff auf die Dateien und kann
den Datenbestand unter Berücksichtigung der Namensnennung
weiterbearbeiten. Für die von der Wikimedia Foundation betriebenen
Projekte entstehen neue Möglichkeiten: “Durch den freien Zugriff auf
die Daten können die von der Wikimedia Foundation betriebenen Projekte
wie Wikisource und Wikimedia Commons und ihre Benutzer die Werke der
Textsammlung in ihrer Wissenssammlung anbieten und vernetzen“,
erläutert Mathias Schindler von Wikimedia Deutschland.
Von der Kooperation profitieren somit Öffentlichkeit wie
Fachwissenschaft: “Nicht mehr die Digitalisierung, wie noch in den
90er Jahren, sondern die methodisch innovative Erschließung der
strukturierten Datenmengen ist die Leitaufgabe der Digital Humanities.
Mit der Kooperation ermöglichen wir nicht nur der Fachwissenschaft,
sondern auch der allgemeinen Öffentlichkeit Zugriff auf diese
Informationen“, betont Dr. Heike Neuroth, TextGrid Projektleiterin an
der Niedersächsischen Staats- und Universitätsbibliothek Göttingen.
TextGrid wird die Sammlung nun innerhalb der nächsten drei Jahre für
die wissenschaftliche Verwendung aufbereiten (z.B. Konvertierung in
TEI, tiefere Auszeichnung für genauere Recherchen) und in einer
virtuellen Forschungsumgebung zusammen mit passenden Werkzeugen zur
Weiterverarbeitung bereit stellen. Die fachwissenschaftlichen
Communities sind zu einer Abstimmung über die gewünschten
Lizenzbedingungen für ihre dann auf dieser Basis entstehenden
Forschungsdaten aufgerufen [5].
[1] Projektleitung Recht für Creative Commons Deutschland, getragen
von der Europäischen EDV-Akademie des Rechts (EEAR) und dem Institut
für Rechtsinformatik der Universität des Saarlandes (IFRI).
[2] Pressemitteilung der Georg-August-Universität Göttingen vom 2.12.2009:
http://www.uni-goettingen.de/de/3240.html?cid=3426
[3] Creative Commons Lizenz cc-by:
http://creativecommons.org/licenses/by/3.0/de/
[4] Stellungnahmen der FSF zu den CC-Lizenztypen BY und BY-SA:
http://www.gnu.org/licenses/license-list.html#OtherLicenses
[5] Abstimmung über Lizenzbedingungen für die wissenschaftliche
Verwendung in TextGrid:
http://www.textgrid.de/abstimmung.html
Nach meiner negativen Erfahrung mit der Stub-Einstellung
als nichtangemeldeter Benutzer habe ich 24 Artikelchen
angemeldet eingestellt. Das Resultat ist:
Ein Stub wurde wesentlich erweitert (im Rahmen der
Löschdiskussion). Einer wurde gelöscht ("Wörterbucheintrag").
Drei wurden mit Qualitätssicherung gekennzeichnet, zwei
davon auf den entsprechenden Seiten eingetragen.
Ein einziges Mal erfolgte eine Ansprache auf meiner Benutzerseite.
http://de.wikipedia.org/wiki/Benutzer_Diskussion:Sti#Bilanz
Gruß, rainersti
* rainersti wrote:
>Ich bin nicht sicher, ob ich es richtig verstanden habe. Rund 50 von 500
>(+200) Neuanlagen von nicht-angemeldeten wurden behalten? Bei den
>angemeldeten Benutzern wurde nur rund jeder zehnte neu angelegte
>Artikel gelöscht?
Die 50 und die 500 sind die Zahl der behaltenen Artikel von nichtange-
meldeten Benutzern innerhalb eines Tages beziehungsweise innerhalb von
zwölf Tagen. Die Gesamtzahl der neuen Artikel ist dabei nicht berück-
sichtigt. Sehr grob kann man sagen dass jeder zehnte Artikel von ange-
meldeten Benutzern gelöscht, und jeder zehnte Artikel von nichtange-
meldeten Benutzern behalten wird (wobei natürlich viele "Artikel" von
nicht-angemeldeten Benutzern gar keine Artikelversuche sind), zumindest
den Daten nach die ich bisher gesehen hab; jemand mit Zugriff auf die
Datenbank kann da leichter und zuverlässiger Daten liefern als ich.
--
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
>* rainersti wrote:
>>Mich würde auch interessieren, wie viele der Lösch-Entscheidungen
>>Beiträge von IPs und Beiträge von angemeldeten Nutzern betrafen.
>
Björn antwortete (sehr viel ausführlicher; danke für deine umfangreiche Arbeit):
(...)
>mal grob überschlagen
>gibt es zu der Anfrage "Wurde von angemeldetem Benutzer neu erstellt
>und wurde nicht verschoben und wurde gelöscht" rund jeden zehnten neuen
>Artikel,
(...)
>Umgekehrt kann man sich über die MediaWiki API übrigens leicht anzeigen
>lassen, welche Beiträge von nicht-angemeldeten Benutzern behalten
>werden, z.B. (hier werden Weiterleitungen ausgeschlossen, das sind
>rund 50 Artikel pro Tag wenn man da mal die aktuellsten Daten nimmt).
(...)
>Über die
>letzten 12 Tage gab es von nicht angemeldeten Benutzern gut 500 neue
>Artikel plus 200 neue Weiterleitungen.
>--
Ich bin nicht sicher, ob ich es richtig verstanden habe. Rund 50 von 500
(+200) Neuanlagen von nicht-angemeldeten wurden behalten? Bei den
angemeldeten Benutzern wurde nur rund jeder zehnte neu angelegte
Artikel gelöscht?
Gruß, --~~~~
Christian Thiele schrieb am Fri Dec 18 2009
> Dabei sind alle Artikel positiv, die nach 7 Tagen noch
> existieren, alle anderen negativ (also alle, die schnellgelöscht wurden
> sind "SPAM").
Nun, wie wir ja bereits festgestellt haben, braucht es keinen Spam, um als IP-Artikel schnellgewecht zu werden.
> Und ich spreche mich stark dagegen aus, etwas automatisch zu löschen
Da macht jedes auch nur halbwegs normale Internetforum, ohne das sich Heerscharen beschweren. Andererseits
könnte durchaus zumindest automatisch SLA gestellt werden. Wenn dann gleichzeitig das manuelle stellen von
SLAs erschwert würde, wäre schon durchaus was gewonnen.
schöne Grüße,
Thomas