Hi,
ich habe eine Idee für ein neues (zeitlich beschränktes) Wikiprojekt. Ich könnte das Ganze auch in meinem stillen Kämmerchen machen, aber aus Gründen die ich weiter unten erläutern werde, würde ich es gern mehr "offiziell" machen.
Wie vielleicht es schon der/die ein oder andere bemerkt hat, habe ich - angelehnt an den PyBot - ein kleines Script zum Auffinden von potentiellen Urheberrechtsverletzungen (im weiteren "Urv" genannt) geschrieben (s. [[Wikipedia:Helferlein]]). Das Script benutzt eine Schnittstelle zu Google um nach anderen Webseiten zu suchen und macht das Überprüfen von [[Spezial:Newpages]] um einiges einfacher.
Da ich leider nicht einschätzen kann, wie das Problem der Urvs in der Vergangenheit gehandhabt wurde, und ich bezweifle, dass Textspenden _nach_ Erstellung eines Artikel auf eine Urv überprüft werden, habe ich mir gedacht, das o.g. Script auch auf alle gespeicherten Artikel anzuwenden (langer Satz). Leider erlaubt Google für Benutzer nur 1000 Abfragen pro Tag, d.h. eine einzelne Person kann nur etwa 100 Artikel pro Tag überprüfen. Bei über 30.000 Artikel allein in der dt. Wikipedia würde das einfach zu lange dauern. Deswegen habe ich eine Email an Google geschrieben, mit der Anfrage ob es möglich sei, dieses Limit von 1000 Abfragen/Tag zu erhöhen.
Die Antwort:
Thank you for your note and for your interest in Google APIs. We do approve requests for increased query limits on a case-by-case basis. If a particular request is approved, there is no charge for the increased limit.
If you are interested in sending a request, please provide us with the following information:
How many queries do you estimate you will need daily? How long will you need this increased limit? Why are these additional queries essential for your project? What email address is registered with your Web API license key? If you have a website that describes your project, please include the URL in your reply.
Ich würde nun gerne eine eigene Seite im Wikipedia-Namespace dafür einrichten, mit einer Beschreibung des Programmes und der Ziele, um das ein wenig mehr mit Wikipedia in Vebrindung zu bringen. Denn letztendlich kann ja jeder alles in einer Email behaupten...
So jetzt was konkretes ... um nicht alle Ergebnis manuell nachzuprüfen habe ich soetwas wie einen "Score"-Wert in mein Programm eingebaut. Hoher Score = wahrscheinlich Urv, Niedriger Score = wahrscheinlich Ok oder kopierter Text zu kurz um als solcher einen hohen Score zu erzielen. Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber anscheinend brauchbare Ergebnisse. Mit einem solchen Score könnte man erstmal potentiell "gefährliche" Artikel aussortieren. Mein Voranschlag für Google wären 20.000 / Tag für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.
Wer das Script gerne einmal zu Gesicht kriegen möchte, bitte mir einfach eine kurze Nachricht zukommenlassen. Weitere Kommentare und Anmerkungen sind willkommen und ausdrücklich erwünscht.
Gruß, Nils aka fab.
PS: Ich habe bestimmt vergessen was zu erwähnen, also bitte nachfragen ;-)
On Fri, 03 Oct 2003 19:43:24 +0200, Nils Kehrein wrote:
Wer das Script gerne einmal zu Gesicht kriegen möchte, bitte mir einfach eine kurze Nachricht zukommenlassen. Weitere Kommentare und Anmerkungen sind willkommen und ausdrücklich erwünscht.
Waere denn nicht eine Art distributed copyright check denkbar? Einen Lizenzkey fuer Google haette ich auch, so dass man auf diese Weise schon mal 2000 Anfragen pro Tag durchfuehren koennte.
Gruesse, Lothar
Elisabeth Bauer elian@djini.de writes:
- Inhalte, deren Schutzfrist erloschen ist (z.B. unsere vielen Meyers
Lexikon-Artikel)
Leider wird bei denen ja immer recht schnell die Orthographie geändert ;)
- Auch eine kurze "mögliche" Urv ist schneller (und besser)
umgeschrieben, als das ganze sonstige Verfahren an Zeit kostet:
Das ist wahr. Außer es handelt sich um eine philosophische Abhandlung oder dergleichen. Aber da kann man natürlich auch die Variante Löschung" in Betracht ziehen.
Zitate könnte man relativ leicht erkennen, wenn es eine vernünftige Markup-Sprache gäbe. Leider haben wir ja nur dieses führende ':', das dann in recht dubioses HTML umgesetzt wird...
Am Freitag, 3. Oktober 2003 19:43 schrieb Nils Kehrein:
Hi,
ich habe eine Idee für ein neues (zeitlich beschränktes) Wikiprojekt. Ich könnte das Ganze auch in meinem stillen Kämmerchen machen, aber aus Gründen die ich weiter unten erläutern werde, würde ich es gern mehr "offiziell" machen.
Die alten Artikel nach Urheberrechtsverletzungen abzugrasen ist meines Erachtens nicht unbedingt notwendig. Ich bin seit Artikel 10.000 dabei, und seit der Zeit sind die meisten Artikel von anonymen Usern über google manuell gescannt worden. Zum Teil von mir, zum Teil von anderen, aber ich glaube, all zu viele sind uns nicht durchgegangen.
Uli
Hallo,
*dingdong* die zweite Runde ist eröffnet.
On Friday 03 October 2003 19:43, Nils Kehrein wrote:
So jetzt was konkretes ... um nicht alle Ergebnis manuell nachzuprüfen habe ich soetwas wie einen "Score"-Wert in mein Programm eingebaut. Hoher Score = wahrscheinlich Urv, Niedriger Score = wahrscheinlich Ok oder kopierter Text zu kurz um als solcher einen hohen Score zu erzielen. Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber anscheinend brauchbare Ergebnisse. Mit einem solchen Score könnte man erstmal potentiell "gefährliche" Artikel aussortieren.
Um was - sie manuell nachzuprüfen?
Mein Voranschlag für Google wären 20.000 / Tag für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.
Das Nadelöhr liegt nicht bei Google, sondern in der begrenzten Recherchezeit unsrer Mitarbeiter hier, die ich eigentlich lieber auf das Schreiben neuer Artikel verwandt sehe als auf die Kontrolle der Resultate eines Computer-Programms.
Und ohne eine manuelle Nachprüfung können wir mit den Ergebnissen nichts anfangen.
Wir müssten aussortieren: * Content, der aus Wikipedia auf andere Websites kopiert wurde - mit Herkunftsnachweis - ohne Herkunftsnachweis (nachforschen, wer hat von wem geklaut!!!) * Content, der Public Domain ist oder aus anderen Gründen frei verwendet wenden darf - Treffer aufgrund längerer Zitate - Nachrichten, die per se nach dem deutschen Urheberrecht nicht geschützt sind - Treffer aufgrund von Gesetzestexten und anderen Publikationen des deutschen Staats (österreich, schweiz, USA, wie sind die Regelungen in anderen Ländern?), die nicht dem Urheberrecht unterliegen - Inhalte, deren Schutzfrist erloschen ist (z.B. unsere vielen Meyers Lexikon-Artikel) * Doppelveröffentlichungen der richtigen Autoren (grade wieder eine E-Mailbestätigung erhalten) - ohne Hinweis: evtl. mailen, wenn es sich um wertvollen Content handelt, den man gerne behalten würde - mit Hinweis: Diskussionsseiten/Summary auswerten.
anschließend alle Artikel umschreiben, die im normalen Wikipedia-Prozess erweitert und ergänzt wurden und den freien Content retten.
In begrenztem Rahmen "fischig" erscheinenden neuen Beiträgen nachzuspüren, finde ich völlig angebracht, aber dieses Programm geht zu weit.
Solange Jimbo Wales, der das ganze schließlich auszubaden hätte, keine Sorge vor möglichen Klagen hat, sollten wir uns lieber drauf konzentrieren: * neue Artikel, vor allem Stubs, mit ein bißchen Nachschlagen im Lexikon zu erweitern, zu wikifizieren und den Stil zu verbessern * Auch eine kurze "mögliche" Urv ist schneller (und besser) umgeschrieben, als das ganze sonstige Verfahren an Zeit kostet: - Inhalt durch Warnung ersetzen - auf Wikipedia:Löschkandidaten listen - evtl. Autor anmailen - nach einer Woche löschen Inhalt und Fakten nehmen, in eigene Worte packen, mal kurz selbst recherchieren, noch ein bißchen was hinzufügen und wikifizieren.
Meine private Policy, wenn ich eine mögliche Urv von anonymer IP finde: Erste Frage: Hat das Subject überhaupt was in Wikipedia verloren? Nein -> Löschkandidaten Ja -> weiter bei 2) Zweite Frage: Lohnt es sich, den Content zu behalten? Nein -> Löschkandidaten, Baustelle oder umschreiben Ja -> Mail an Autor mit Nachfrage. Zur letzten Option kommt es in recht seltenen Fällen.
viele Grüße, elian
Elisabeth Bauer wrote:
[..] Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber anscheinend brauchbare Ergebnisse. Mit einem solchen Score könnte man erstmal potentiell "gefährliche" Artikel aussortieren.
Um was - sie manuell nachzuprüfen?
Richtig.
Mein Voranschlag für Google wären 20.000 / Tag für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.
Das Nadelöhr liegt nicht bei Google, sondern in der begrenzten Recherchezeit unsrer Mitarbeiter hier, die ich eigentlich lieber auf das Schreiben neuer Artikel verwandt sehe als auf die Kontrolle der Resultate eines Computer-Programms.
Das ist ja gerade der Haken. Der automatisch ermittelte Wert macht es doch gerade möglich, mit sehr wenig Aufwand eine große Anzahl von Textbeiträgen zu überprüfen. Ich denke, dass ganze ist auch von einer einzelnen Person zu schaffen. Du brauchst also keine Angst haben, dass dadurch evtl. das Artikelschreiben zu kurz kommt.
Und ohne eine manuelle Nachprüfung können wir mit den Ergebnissen nichts anfangen.
S.o.
Wir müssten aussortieren:
[..]
Wo ist das Problem? Mit einem Blick erkennt man doch ob es ein Gesetzestext ist oder nicht. Meyer-Artikel werden auch problemlos als solche schon allein an der gefunden URL erkannt...
anschließend alle Artikel umschreiben, die im normalen Wikipedia-Prozess erweitert und ergänzt wurden und den freien Content retten.
Das lässt sich ja sicherlich im Einzelfall entscheiden. Kein Grund sich jetzt schon Gedanken darüber zu machen.
In begrenztem Rahmen "fischig" erscheinenden neuen Beiträgen nachzuspüren, finde ich völlig angebracht, aber dieses Programm geht zu weit.
Zu weit? Wieso? Was sollte denn passieren? Ulrichs Einwand finde ich dagegen schon gewichtiger. Aber andersrum könnte man auch sagen "Es schadet doch auch nichts".
viele Grüße, elian
Liebe Grüße, Nils.
Lothar Kimmeringer wrote:
On Fri, 03 Oct 2003 19:43:24 +0200, Nils Kehrein wrote:
Wer das Script gerne einmal zu Gesicht kriegen möchte, bitte mir einfach eine kurze Nachricht zukommenlassen. Weitere Kommentare und Anmerkungen sind willkommen und ausdrücklich erwünscht.
Waere denn nicht eine Art distributed copyright check denkbar? Einen Lizenzkey fuer Google haette ich auch, so dass man auf diese Weise schon mal 2000 Anfragen pro Tag durchfuehren koennte.
Wäre natürlich auch eine Möglichkeit. Allerdings wird das Koordinieren der Arbeit dann etwas aufwendiger. Wenn Google wirklich zusagen sollte, so finde ich, kann man die milde Gabe doch annehmen :-) Ein verteiltes Modell wäre IMHO interessant, wenn Google nein sagen würde.
Gruß, Nils.
Nils Kehrein wrote:
So jetzt was konkretes ... um nicht alle Ergebnis manuell nachzuprüfen habe ich soetwas wie einen "Score"-Wert in mein Programm eingebaut. Hoher Score = wahrscheinlich Urv, Niedriger Score = wahrscheinlich Ok oder kopierter Text zu kurz um als solcher einen hohen Score zu erzielen. Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber anscheinend brauchbare Ergebnisse. Mit einem solchen Score könnte man erstmal potentiell "gefährliche" Artikel aussortieren. Mein Voranschlag für Google wären 20.000 / Tag für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.
Hi Nils,
sicherlich sind URV bei der Wikipedia wichtig. Allerdings sehe ich das ähnlich wie Uli: ich bin seit etwa Artikel 10.000 dabei und bisher war es kein großes Problem die neuen Artikel per Hand zu kontrollieren. Da die Wikipedia erst später extrem populär geworden ist, denke ich, dass auch erst später das Problem der URV auftrat. Ich bin nämlich zuversichtlich, dass die damaligen Autoren auf das Urheberrecht geachtet haben.
Weiterhin problematisch ist der Einsatz eines Bots zu Zeiten in denen der Wikipedia-Server immer mehr unter der normalen Benutzerlast zusammenbricht. Von daher würde ich (momentan?) von der Belastung des Servers durch einen weiteren Bot absehen (soweit ich weiß sind im Moment ziemlich viele Bots auch gebannt worden).
Gruß
Thomas
Thomas Luft wrote:
sicherlich sind URV bei der Wikipedia wichtig. Allerdings sehe ich das ähnlich wie Uli: ich bin seit etwa Artikel 10.000 dabei und bisher war es kein großes Problem die neuen Artikel per Hand zu kontrollieren. Da die Wikipedia erst später extrem populär geworden ist, denke ich, dass auch erst später das Problem der URV auftrat. Ich bin nämlich zuversichtlich, dass die damaligen Autoren auf das Urheberrecht geachtet haben.
Kann ich leider nicht beurteilen. Bin auch erst seit Mai (?) dabei.
Weiterhin problematisch ist der Einsatz eines Bots zu Zeiten in denen der Wikipedia-Server immer mehr unter der normalen Benutzerlast zusammenbricht. Von daher würde ich (momentan?) von der Belastung des Servers durch einen weiteren Bot absehen (soweit ich weiß sind im Moment ziemlich viele Bots auch gebannt worden).
Stimmt, ein Bot würde zuviel Last auf den Servern erzeugen, allerdings liesse sich die Prüfung auch einfacher mit einem lokalen DB-Dump vollziehen. Aber wie es im Moment aussieht, werde ich von der gesamten Idee wohl eher Abstand nehmen.
Gruß Thomas
Gruß, Nils.