Hallo,
*dingdong* die zweite Runde ist eröffnet.
On Friday 03 October 2003 19:43, Nils Kehrein wrote:
So jetzt was konkretes ... um nicht alle Ergebnis manuell nachzuprüfen habe ich soetwas wie einen "Score"-Wert in mein Programm eingebaut. Hoher Score = wahrscheinlich Urv, Niedriger Score = wahrscheinlich Ok oder kopierter Text zu kurz um als solcher einen hohen Score zu erzielen. Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber anscheinend brauchbare Ergebnisse. Mit einem solchen Score könnte man erstmal potentiell "gefährliche" Artikel aussortieren.
Um was - sie manuell nachzuprüfen?
Mein Voranschlag für Google wären 20.000 / Tag für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.
Das Nadelöhr liegt nicht bei Google, sondern in der begrenzten Recherchezeit unsrer Mitarbeiter hier, die ich eigentlich lieber auf das Schreiben neuer Artikel verwandt sehe als auf die Kontrolle der Resultate eines Computer-Programms.
Und ohne eine manuelle Nachprüfung können wir mit den Ergebnissen nichts anfangen.
Wir müssten aussortieren: * Content, der aus Wikipedia auf andere Websites kopiert wurde - mit Herkunftsnachweis - ohne Herkunftsnachweis (nachforschen, wer hat von wem geklaut!!!) * Content, der Public Domain ist oder aus anderen Gründen frei verwendet wenden darf - Treffer aufgrund längerer Zitate - Nachrichten, die per se nach dem deutschen Urheberrecht nicht geschützt sind - Treffer aufgrund von Gesetzestexten und anderen Publikationen des deutschen Staats (österreich, schweiz, USA, wie sind die Regelungen in anderen Ländern?), die nicht dem Urheberrecht unterliegen - Inhalte, deren Schutzfrist erloschen ist (z.B. unsere vielen Meyers Lexikon-Artikel) * Doppelveröffentlichungen der richtigen Autoren (grade wieder eine E-Mailbestätigung erhalten) - ohne Hinweis: evtl. mailen, wenn es sich um wertvollen Content handelt, den man gerne behalten würde - mit Hinweis: Diskussionsseiten/Summary auswerten.
anschließend alle Artikel umschreiben, die im normalen Wikipedia-Prozess erweitert und ergänzt wurden und den freien Content retten.
In begrenztem Rahmen "fischig" erscheinenden neuen Beiträgen nachzuspüren, finde ich völlig angebracht, aber dieses Programm geht zu weit.
Solange Jimbo Wales, der das ganze schließlich auszubaden hätte, keine Sorge vor möglichen Klagen hat, sollten wir uns lieber drauf konzentrieren: * neue Artikel, vor allem Stubs, mit ein bißchen Nachschlagen im Lexikon zu erweitern, zu wikifizieren und den Stil zu verbessern * Auch eine kurze "mögliche" Urv ist schneller (und besser) umgeschrieben, als das ganze sonstige Verfahren an Zeit kostet: - Inhalt durch Warnung ersetzen - auf Wikipedia:Löschkandidaten listen - evtl. Autor anmailen - nach einer Woche löschen Inhalt und Fakten nehmen, in eigene Worte packen, mal kurz selbst recherchieren, noch ein bißchen was hinzufügen und wikifizieren.
Meine private Policy, wenn ich eine mögliche Urv von anonymer IP finde: Erste Frage: Hat das Subject überhaupt was in Wikipedia verloren? Nein -> Löschkandidaten Ja -> weiter bei 2) Zweite Frage: Lohnt es sich, den Content zu behalten? Nein -> Löschkandidaten, Baustelle oder umschreiben Ja -> Mail an Autor mit Nachfrage. Zur letzten Option kommt es in recht seltenen Fällen.
viele Grüße, elian