Google und Urheberrechtsverletzungen - WikiDE-l

3 Oct 2003

Hi,

ich habe eine Idee für ein neues (zeitlich beschränktes) Wikiprojekt.
Ich könnte das Ganze auch in meinem stillen Kämmerchen machen, aber
aus Gründen die ich weiter unten erläutern werde, würde ich es gern
mehr "offiziell" machen.

Wie vielleicht es schon der/die ein oder andere bemerkt hat, habe ich
- angelehnt an den PyBot - ein kleines Script zum Auffinden von
potentiellen Urheberrechtsverletzungen (im weiteren "Urv" genannt)
geschrieben (s. [[Wikipedia:Helferlein]]). Das Script benutzt eine
Schnittstelle zu Google um nach anderen Webseiten zu suchen und
macht das Überprüfen von [[Spezial:Newpages]] um einiges einfacher.

Da ich leider nicht einschätzen kann, wie das Problem der Urvs in
der Vergangenheit gehandhabt wurde, und ich bezweifle, dass Textspenden
_nach_ Erstellung eines Artikel auf eine Urv überprüft werden, habe
ich mir gedacht, das o.g. Script auch auf alle gespeicherten Artikel
anzuwenden (langer Satz). Leider erlaubt Google für Benutzer nur
1000 Abfragen pro Tag, d.h. eine einzelne Person kann nur etwa 100
Artikel pro Tag überprüfen. Bei über 30.000 Artikel allein in der dt.
Wikipedia würde das einfach zu lange dauern. Deswegen habe ich eine
Email an Google geschrieben, mit der Anfrage ob es möglich sei, dieses
Limit von 1000 Abfragen/Tag zu erhöhen.

Die Antwort:
...
  Thank you for your note and for your interest in
Google APIs. We do 
 approve requests for increased query limits on a case-by-case basis. 
 If a particular request is approved, there is no charge for the 
 increased limit.

 If you are interested in sending a request, please provide us with the 
 following information:

 How many queries do you estimate you will need daily?
 How long will you need this increased limit?
 Why are these additional queries essential for your project? 
 What email address is registered with your Web API license key?
 If you have a website that describes your project, please include the URL
 in your reply. 
Ich würde nun gerne eine eigene Seite im Wikipedia-Namespace dafür
einrichten, mit einer Beschreibung des Programmes und der Ziele, um
das ein wenig mehr mit Wikipedia in Vebrindung zu bringen. Denn letztendlich
kann ja jeder alles in einer Email behaupten...

So jetzt was konkretes ... um nicht alle Ergebnis manuell nachzuprüfen
habe ich soetwas wie einen "Score"-Wert in mein Programm eingebaut.
Hoher Score = wahrscheinlich Urv, Niedriger Score = wahrscheinlich Ok oder
kopierter Text zu kurz um als solcher einen hohen Score zu erzielen.
Die Ermittlung des Wertes ist nicht perfekt, liefert in ersten Tests aber
anscheinend brauchbare Ergebnisse.
Mit einem solchen Score könnte man erstmal potentiell "gefährliche"
Artikel aussortieren. Mein Voranschlag für Google wären 20.000 / Tag
für 2 Monate, was für die dt. Wikipedia reichen sollte. Evtl. hätte andere
Wikipedias auch Interesse an solch einer Überprüfung, müsste man nachfragen.

Wer das Script gerne einmal zu Gesicht kriegen möchte, bitte mir einfach
eine kurze Nachricht zukommenlassen. Weitere Kommentare und Anmerkungen
sind willkommen und ausdrücklich erwünscht.

Gruß,
Nils aka fab.

PS: Ich habe bestimmt vergessen was zu erwähnen, also bitte nachfragen ;-)