Hallo,
*dingdong* die zweite Runde ist eröffnet.
On Friday 03 October 2003 19:43, Nils Kehrein wrote:
So jetzt was konkretes ... um nicht alle Ergebnis
manuell
nachzuprüfen habe ich soetwas wie einen "Score"-Wert in mein Programm
eingebaut. Hoher Score = wahrscheinlich Urv, Niedriger Score =
wahrscheinlich Ok oder kopierter Text zu kurz um als solcher einen
hohen Score zu erzielen. Die Ermittlung des Wertes ist nicht perfekt,
liefert in ersten Tests aber anscheinend brauchbare Ergebnisse.
Mit einem solchen Score könnte man erstmal potentiell "gefährliche"
Artikel aussortieren.
Um was - sie manuell nachzuprüfen?
Mein Voranschlag für Google wären 20.000 / Tag
für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte
andere Wikipedias auch Interesse an solch einer Überprüfung, müsste
man nachfragen.
Das Nadelöhr liegt nicht bei Google, sondern in der begrenzten
Recherchezeit unsrer Mitarbeiter hier, die ich eigentlich lieber auf
das Schreiben neuer Artikel verwandt sehe als auf die Kontrolle der
Resultate eines Computer-Programms.
Und ohne eine manuelle Nachprüfung können wir mit den Ergebnissen nichts
anfangen.
Wir müssten aussortieren:
* Content, der aus Wikipedia auf andere Websites kopiert wurde
- mit Herkunftsnachweis
- ohne Herkunftsnachweis (nachforschen, wer hat von wem geklaut!!!)
* Content, der Public Domain ist oder aus anderen Gründen frei verwendet
wenden darf
- Treffer aufgrund längerer Zitate
- Nachrichten, die per se nach dem deutschen Urheberrecht nicht
geschützt sind
- Treffer aufgrund von Gesetzestexten und anderen Publikationen des
deutschen Staats (österreich, schweiz, USA, wie sind die Regelungen in
anderen Ländern?), die nicht dem Urheberrecht unterliegen
- Inhalte, deren Schutzfrist erloschen ist (z.B. unsere vielen Meyers
Lexikon-Artikel)
* Doppelveröffentlichungen der richtigen Autoren (grade wieder eine
E-Mailbestätigung erhalten)
- ohne Hinweis: evtl. mailen, wenn es sich um wertvollen Content
handelt, den man gerne behalten würde
- mit Hinweis: Diskussionsseiten/Summary auswerten.
anschließend alle Artikel umschreiben, die im normalen Wikipedia-Prozess
erweitert und ergänzt wurden und den freien Content retten.
In begrenztem Rahmen "fischig" erscheinenden neuen Beiträgen
nachzuspüren, finde ich völlig angebracht, aber dieses Programm geht zu
weit.
Solange Jimbo Wales, der das ganze schließlich auszubaden hätte, keine
Sorge vor möglichen Klagen hat, sollten wir uns lieber drauf
konzentrieren:
* neue Artikel, vor allem Stubs, mit ein bißchen Nachschlagen im Lexikon
zu erweitern, zu wikifizieren und den Stil zu verbessern
* Auch eine kurze "mögliche" Urv ist schneller (und besser)
umgeschrieben, als das ganze sonstige Verfahren an Zeit kostet:
- Inhalt durch Warnung ersetzen
- auf Wikipedia:Löschkandidaten listen
- evtl. Autor anmailen
- nach einer Woche löschen
Inhalt und Fakten nehmen, in eigene Worte packen, mal kurz selbst
recherchieren, noch ein bißchen was hinzufügen und wikifizieren.
Meine private Policy, wenn ich eine mögliche Urv von anonymer IP finde:
Erste Frage: Hat das Subject überhaupt was in Wikipedia verloren?
Nein -> Löschkandidaten
Ja -> weiter bei 2)
Zweite Frage: Lohnt es sich, den Content zu behalten?
Nein -> Löschkandidaten, Baustelle oder umschreiben
Ja -> Mail an Autor mit Nachfrage.
Zur letzten Option kommt es in recht seltenen Fällen.
viele Grüße,
elian