[Wikipedia-l] Automatically checking for copyright violations

Marco Krohn marco.krohn at web.de
Mon Jun 20 21:51:29 UTC 2005


On Monday 20 June 2005 23:03, Marco Krohn wrote:

> I have done something similar for the German Wikipedia:
>
> http://www.itp.uni-hannover.de/~krohn/wscan.html.utf8

There was just an example which shows the script in action:

  http://www.itp.uni-hannover.de/~krohn/copyvio.png

shows that four parts of sentences have been checked ("Geprüfte Satzteile"). 
The last line ("Fundstellen") tells us that (3) and (4) have been found on 
the website

http://www.classical-composers.org/cgi-bin/ccd.cgi?comp=pierne_paul

If you compare this webpage with the new de.wikipedia article
http://de.wikipedia.org/wiki/Paul_Pierné

you will see that both pages are indeed very similar:

WP: 
"Er war Organist an St-Paul-St-Louis in Paris"

c-c.org: 
"Er war Organist an St-Paul-St-Louis in Paris."

WP:
"komponierte er zwei Sinfonien, eine sinfonische Dichtung, ein Konzert für 
Oboe, Cello und Orchester, kammermusikalische Werke, Klavier- und Orgelstücke 
sowie ein Messe, ein Oratorium und Chorwerke."

c-c.org:
"schrieb 2 Sinfonien, ein sinfonisches Gedicht, ein Konzert für Oboe, Cello 
und Orchester, eine Messe, ein Oratorium, Chorwerke, Kammermusik, Klavier- 
und Orgelstücke, mehrere Ballette und 2 Opern."

"our" editor modified some words and changed the order of some, but 
nevertheless the similarity is high enough to find this with a script. I do 
not want to discuss whether this is a copyvio, but it is clear that the wp 
user was probably "inspired" by the c-c.org web page ;-)

best regards,
  Marco



More information about the Wikipedia-l mailing list