Hallo,
ein kleines script, dass evtl. dabei hilfreich sein kann Urheberrechts-Verletzungen aufzudecken läuft derzeit im Testbetrieb auf
http://www.itp.uni-hannover.de/~krohn/wscan.html.utf8
Es hat noch viele Feher und Unzulänglichkeiten und wird wahrscheinlich nicht einmal 24h durchlaufen, aber ich arbeite daran :-) Vielleicht ist es aber trotzdem schonmal für den ein oder anderen hilfreich.
Viele Grüße, Marco
On Tue, Sep 07, 2004 at 03:02:15PM +0200, Marco Krohn wrote:
Hallo,
ein kleines script, dass evtl. dabei hilfreich sein kann Urheberrechts-Verletzungen aufzudecken läuft derzeit im Testbetrieb auf
Tatächlich informativer als das hier: http://www.affenkrieger.de/wiki/wikicc.php
Es hat noch viele Feher und Unzulänglichkeiten und wird wahrscheinlich nicht einmal 24h durchlaufen, aber ich arbeite daran :-) Vielleicht ist es aber trotzdem schonmal für den ein oder anderen hilfreich.
Fehler: * de.wikipedia.org/w/ aus den verwandten Themen filtern * redirects rausfiltern * html bzw. wiki-syntax sollte auch raus (tabellen erst recht) * Tests die keine Ergebnisse bringen (z.B "Geprüfte Satzteile") sollten ganz weggelassen werden. * TOC fehlt (am besten mit einer Bewertung von 1 (schlecht) bis 10) * mehr als 10 Satzteile zu prüfen ist irgendwo unsinnig. Lieber ein bis zwei Satzteile pro Absatz prüfen.
ciao, tom
Noch eine Verbesserung: * für die URV-Links hätt ich gern eine andere Farbe.
ciao, tom
On Tuesday 07 September 2004 15:50, Thomas R. Koll wrote:
Hallo,
so ähnlich sieht meine TODO Liste auch aus. Die meisten Dinge sind nicht schwer zu implementieren, ich muss aber vorher den code noch refaktorisieren, er ist in einem quick-hack-revival Zustand...
Fehler:
- de.wikipedia.org/w/ aus den verwandten Themen filtern
- redirects rausfiltern
- html bzw. wiki-syntax sollte auch raus (tabellen erst recht)
- Tests die keine Ergebnisse bringen (z.B "Geprüfte Satzteile") sollten ganz weggelassen werden.
soweit klar, aber was meinst du mit:
- TOC fehlt (am besten mit einer Bewertung von 1 (schlecht) bis 10)
?
- mehr als 10 Satzteile zu prüfen ist irgendwo unsinnig. Lieber ein bis
zwei Satzteile pro Absatz prüfen.
Ja, das bietet sich schon alleine deswegen an, weil die Anzahl der google Anfragen auf 1000 begrenzt ist und dieser Vorrat ist bei 200-300 neuen Artikeln am Tag schnell aufgebraucht.
Auf meiner TODO Liste ist noch die Erkennung von {{stub}}, {{Löschen}} etc. und natürlich sollten Artikel, die zwischenzeitlich schon gelöscht wurden nicht mehr aufgeführt werden. Daneben habe ich noch ein paar andere Ideen, aber die werden sicherlich mehr Zeit brauchen.
Viele Grüße, Marco
On Tue, Sep 07, 2004 at 04:20:11PM +0200, Marco Krohn wrote:
On Tuesday 07 September 2004 15:50, Thomas R. Koll wrote:
Hallo,
so ähnlich sieht meine TODO Liste auch aus. Die meisten Dinge sind nicht schwer zu implementieren, ich muss aber vorher den code noch refaktorisieren, er ist in einem quick-hack-revival Zustand...
Fehler:
- de.wikipedia.org/w/ aus den verwandten Themen filtern
- redirects rausfiltern
- html bzw. wiki-syntax sollte auch raus (tabellen erst recht)
- Tests die keine Ergebnisse bringen (z.B "Geprüfte Satzteile") sollten ganz weggelassen werden.
soweit klar, aber was meinst du mit:
- TOC fehlt (am besten mit einer Bewertung von 1 (schlecht) bis 10)
?
eine Liste am Anfang welche Artikel geprüft wurden und welche Bewertung sie erhalten haben. Wie man die Bewertung vornimmt weiß ich auch nicht genau, vielleicht 50% die gefundenen fremden Seiten, 20% die Länge, 20% die Häufigkeit der Wörter, 5% interne und 5% externe Links.
- mehr als 10 Satzteile zu prüfen ist irgendwo unsinnig. Lieber ein bis
zwei Satzteile pro Absatz prüfen.
Ja, das bietet sich schon alleine deswegen an, weil die Anzahl der google Anfragen auf 1000 begrenzt ist und dieser Vorrat ist bei 200-300 neuen Artikeln am Tag schnell aufgebraucht.
Mach's wie der Affenkrieger und lass die Leut selber einen Google API-Key eingeben. Cool wäre es auch ein eigenes (externes) CSS anzugeben.
Auf meiner TODO Liste ist noch die Erkennung von {{stub}}, {{Löschen}} etc. und natürlich sollten Artikel, die zwischenzeitlich schon gelöscht wurden nicht mehr aufgeführt werden. Daneben habe ich noch ein paar andere Ideen, aber die werden sicherlich mehr Zeit brauchen.
Läuft zwar über seltene Wörter, aber Kombinationen wie asdf und qwert oder ein Buchstabe mehr als drei Mal in Folge sollten auch erkannt werden.
ciao, tom
On Tuesday 07 September 2004 17:07, Thomas R. Koll wrote:
Mach's wie der Affenkrieger und lass die Leut selber einen Google API-Key eingeben.
Das wird wahrscheinlich nicht funktionieren. 5 Artikel einzulesen, zu scannen und dann noch ca. 60 google Anfrage loszuschicken dauert eine ganze Weile, jedenfalls zu lange, um diese Prozedur für jeden Nutzer individuell durchzuführen.
Die Seite ist als Ersatz oder Ergänzung zur Spezialseite "Spezial:Newpages" gedacht und sie sollte daher auch genau so einfach zu benutzen sein, wie die entsprechende Wikipedia Seite. Vielleicht schreibe ich einfach mal eine kurze mail an google und bitte sie das limit für mich zu erhöhen. Bisher ist unser Maximum bei 538 Artikeln/Tag, also sollten 10.000 Anfragen gut ausreichen und google tut das wohl auch nicht weh.
Viele Grüße, Marco
On Tue, Sep 07, 2004 at 05:35:14PM +0200, Marco Krohn wrote:
On Tuesday 07 September 2004 17:07, Thomas R. Koll wrote:
Mach's wie der Affenkrieger und lass die Leut selber einen Google API-Key eingeben.
Das wird wahrscheinlich nicht funktionieren. 5 Artikel einzulesen, zu scannen und dann noch ca. 60 google Anfrage loszuschicken dauert eine ganze Weile, jedenfalls zu lange, um diese Prozedur für jeden Nutzer individuell durchzuführen.
Dann dauert's halt ein wenig, ich hab damit kein Problem. Du könntest auch einfach die Ergebnisse abspeichern und alle halbe Stunde prüfen ob sich der Artikel geändert hat. Gelöschte und Löschkandidaten werden dann einfach aus der Datenbank gelöscht, geänderte neu eingelesen und geprüft.
ciao, tom
Am Dienstag, 7. September 2004 17:35, schrieb Marco Krohn:
Mach's wie der Affenkrieger und lass die Leut selber einen Google API-Key eingeben.
limit für mich zu erhöhen. Bisher ist unser Maximum bei 538 Artikeln/Tag, also sollten 10.000 Anfragen gut ausreichen und google tut das wohl auch nicht weh.
Und was hindert Dich daran, mit einer größeren Menge frischer e-Mail Adressen so über ein paar Tage verteilt einige 10 Keys zu erhalten? Das ist ne einmalige Aktion und diese Keys können dann sehr simpel nach jeweils ca. einigen hundert Abfragen einfach gewechselt werden. Alternativ kann natürlich auch jeder Interessierte einen solchen Key beisteuern, da sollten doch sicher mehr als 10 zusammenkommen ... wenn man denn unbedingt die Policy von Google einhalten möchte.
Viele Grüße, Marco
CU/2 Hartwin
On Tuesday 07 September 2004 18:48, harko wrote:
limit für mich zu erhöhen. Bisher ist unser Maximum bei 538 Artikeln/Tag, also sollten 10.000 Anfragen gut ausreichen und google tut das wohl auch nicht weh.
Und was hindert Dich daran, mit einer größeren Menge frischer e-Mail Adressen so über ein paar Tage verteilt einige 10 Keys zu erhalten? Das ist ne einmalige Aktion und diese Keys können dann sehr simpel nach jeweils ca. einigen hundert Abfragen einfach gewechselt werden. Alternativ kann natürlich auch jeder Interessierte einen solchen Key beisteuern, da sollten doch sicher mehr als 10 zusammenkommen ... wenn man denn unbedingt die Policy von Google einhalten möchte.
Die google policy hindert mich daran. Natürlich könnte man, wie du schon richtig vorschlägst, darum herumarbeiten, aber dann muss ich auch den code meines scriptes anpassen und den google Anfrage Teil habe ich nicht selbst geschrieben.
Also habe ich vorhin lieber eine kurze nette email an google geschickt und hoffe auf eine Erhöhung auf 10.000. Die 1000er Schranke hat meinem Skript übrigens gerade (nach 4 Stunden) zum Anhalten gezwungen. Allerdings geht das script auch noch nicht besonders gut mit den Resourcen um und hat vorhin bei der Überprüfung eines Artikels >100 Anfragen an google losgeschickt :-(
Viele Grüße, Marco
Hallo harko,
Tuesday, September 7, 2004, 6:48:13 PM, you wrote: ...
Und was hindert Dich daran, mit einer größeren Menge frischer e-Mail Adressen so über ein paar Tage verteilt einige 10 Keys zu erhalten? Das ist ne einmalige Aktion und diese Keys können dann sehr simpel nach jeweils ca. einigen hundert Abfragen einfach gewechselt werden.
Google neigte in der Vergangenheit schonmal dazu ganze Netzbereiche zu blocken, wenn sie einen abusiven Gebrauch der Suchfunktion von einer IP aus vermuteten. Ist also eine eher schlechte Idee.
MfG Olaf
Marco Krohn schrieb
ein kleines script, dass evtl. dabei hilfreich sein kann Urheberrechts-Verletzungen aufzudecken läuft derzeit im Testbetrieb auf
Sehr schön, vielen Dank. Ich sehe in URVs eines der größten Probleme der Wikipedia.
Wie wählst du die Satzteile aus? Würde dir eine Häufigkeitsliste helfen oder ist die Auswahl nicht kriegsentscheidend?
Ich hätte eine Liste mit rund 3.000.000 Wortformen aus deutschen Textbeständen mit exakter Häufigkeitsangabe "für gute Zwecke" anzubieten.
Vlado
Erwin Jurschitza Directmedia Publishing GmbH http://www.digitale-bibliothek.de
ejurschi@directmedia.de, schrieb am 07.09.04 19:13:36:
Wie wählst du die Satzteile aus? Würde dir eine Häufigkeitsliste helfen oder ist die Auswahl nicht kriegsentscheidend?
Zur Zeit ist der Algorithmus denkbar einfach: er zerlegt den Text in einzelne Sätze (und nichtmal das besonders gut, da er durch einen Punkt "." in einer Abkürzung irritiert werden kann). Für jeden Absatz wählt er dann eine bestimmte Sätze aus, wobei das einzige Kriterium die Länge des Absatzes ist. Aus der Satzmitte eines jeden Satzes werden 5-6 aufeinander folgende Wörter genommen und dann an google weitergeleitet.
Die erwähnten Schwächen sind nur ein Teil der Unzulänglichkeit des scriptes. Es filtert externe links, Tabelle und html nicht vernünftig raus, kann nicht zwischen Wörtern und einzelnen Zeichen wie "°" unterscheiden und ignoriert sogar wenn der Artikel inzwischen schon zur Löschung vorgeschlagen wurde.
Der Algorithmus ist also mit Sicherheit noch verbesserungsfähig, ich glaube es ist allerdings klüger erstmal die erwähnten Schwächen zu beseitigen, bevor man sich um die Feinheiten kümmert.
Ich hätte eine Liste mit rund 3.000.000 Wortformen aus deutschen Textbeständen mit exakter Häufigkeitsangabe "für gute Zwecke" anzubieten.
Das ist sehr nett, vielleicht werde ich einmal darauf zurückkommen. Zur Zeit benutze ich übrigens die Top100 der deutschen Wörter, die in einem vernünftigen Artikel ca. 30% ausmachen sollten. Wenn der Wert zu sehr abweicht, dann gibt das Skript ein Meldung aus: "Warnung: Nur wenige häufig benutzte Worte im Text."
Viele Grüße, Marco
P.S. das script läuft zur Zeit wieder :-)
On Tue, Sep 07, 2004 at 07:26:44PM +0200, Marco Krohn wrote:
Zur Zeit ist der Algorithmus denkbar einfach: er zerlegt den Text in einzelne Sätze (und nichtmal das besonders gut, da er durch einen Punkt "." in einer Abkürzung irritiert werden kann). Für jeden Absatz wählt er dann eine bestimmte Sätze aus, wobei das einzige Kriterium die Länge des Absatzes ist.
Punkt Leerzeichen (Großbuchstabe|Zahl) Ist hart aber besser. Da du offenbar den wiki-quellcode verwendest solltest du Links (zum Beispiel [[19. Jahrhundert]]) nicht trennen.
Kannst du den Quellcode veröffentlichen?
ciao, tom
On Tuesday 07 September 2004 20:32, Thomas R. Koll wrote:
Hallo,
Punkt Leerzeichen (Großbuchstabe|Zahl) Ist hart aber besser. Da du offenbar den wiki-quellcode verwendest solltest du Links (zum Beispiel [[19. Jahrhundert]]) nicht trennen.
Links werden vorher ersetzt, d.h. "[[link|text]]" wird zu "text", zudem werden Trivialsätze eliminiert. Das Zerlegen in einzelne Sätze könnte aber viel besser gemacht werden.
Kannst du den Quellcode veröffentlichen?
Jup, ist GPL, obwohl ich mich des Quellcodes in weiten Teilen wirklich schäme. Zum einen war es mein erstes Python Programm überhaupt, zum anderen habe ich den code sehr schnell umgeschrieben, um ihn mit pywikipedia kompatibel zu machen. Insgesamt also wirklich nicht der schönste code... wer sich trotzdem nicht abschrecken lässt, kann mir gerne eine email schreiben und ich schicke ihm dann das komplette tar-gz-file. Hilfe beim Umschreiben des codes ist natürlich immer erwünscht :-)
Viele Grüße, Marco