Hi *,
hier war neulich eine Frage von Uli neulich, was denn mit dem Urv-Bot von [[Benutzer:Marco Krohn]] geschehen ist... finde den Beitrag nicht mehr. Geht in dem verstärkten Rauschen hier leider unter.
Der Bot allein würde auch nicht helfen! Ein Google-Key ist auf 1000 Queries/Tag begrenzt und die sind leicht erreicht. Ich weiß das aus eigener Erfahrung, da mein Script da auch sehr schnell auf seine Grenze trifft. Lösungen: * Man meldet (lizenzwidrig) sich mehrmals bei Google an (würd ich natürlich niiiiiie machen) * Eine Art Distributed-Urv-Check (arbeite ich dran) * Bei Google nach einer Query-Erhöhung nachfragen (hab ich schonmal gemacht, die stehen prinzipiell solchen Anfragen aufgeschlossen gegenüber. Man muß es nur begründen können)
Gruß, Nils aka fab.
On Thu, Mar 04, 2004 at 07:30:51PM +0100, Nils Kehrein wrote:
- Eine Art Distributed-Urv-Check (arbeite ich dran)
Ein kleiner Server, mit einem client der sich mit dem Server verbindet wäre doch nett. Der Server könnt sich dann immer durch die newpages graben. Ich könnte beides 24/7 laufen lassen.
Nils Kehrein schrieb:
Der Bot allein würde auch nicht helfen! Ein Google-Key ist auf 1000 Queries/Tag begrenzt und die sind leicht erreicht. Ich weiß das aus eigener Erfahrung, da mein Script da auch sehr schnell auf seine Grenze trifft. Lösungen:
- Eine Art Distributed-Urv-Check (arbeite ich dran)
Ich halte diese Methode für durchaus für brauchbar. Wir skalieren durchaus ganz gut :)
Grüße, Mathias
Salve
Am Donnerstag, 4. März 2004 19:47 schrieb Mathias Schindler:
Nils Kehrein schrieb:
Der Bot allein würde auch nicht helfen! Ein Google-Key ist auf 1000 Queries/Tag begrenzt und die sind leicht erreicht. Ich weiß das aus eigener Erfahrung, da mein Script da auch sehr schnell auf seine Grenze trifft. Lösungen:
- Eine Art Distributed-Urv-Check (arbeite ich dran)
Ich halte diese Methode für durchaus für brauchbar. Wir skalieren durchaus ganz gut :)
*g* Gibt es demnächst Details über Dein Skript zum Mitdenken?
Andere möglichkeit ist den offiziellen Weg zu gehen, z.B. mit Yahoo hat die Wikipedia Foundation letzte Woche eine Kooperation geschlossen (ich berichtete) Schließlich würde Yahoo auch proffitieren, wenn bei uns weniger URV sind ;)
Einen anderen Bot würde ich mir für Statistische Auswertung von Schlagwörtern wünschen, der auflistet wie häufig ein Begriff in Web, im Usenet, in bestimmten Zeitungen ... verwendet wird, auch da würde u.U. ein 1000 Queries/ Tag stören.
Soll ich Jimbo mal fragen, ob Yahoo uns unterstützen könnte? Gruss Rob
Salve,
weitere Idee: jede Änderung mit dem Brockhaus digital und der MS Encarta abgleichen ;)
Gruss rob
Robert Michel wrote:
Nils Kehrein schrieb:
- Eine Art Distributed-Urv-Check
(arbeite ich dran)
Gibt es demnächst Details über Dein Skript zum Mitdenken?
Ich versuche mal einen kurzen Abriss:
Wie es im Moment läuft: PHP-Programm importiert Artikelliste und holt Artikelquelltexte, läuft auf der Kommandozeile. Aus jedem Artikel der geprüft wird, werden bis max. 6 Queries a 6 Wörter geholt und bei Google abgefeuert. Ergebnis wird in einer HTML-Datei aufbereitet wie bei [[Benutzer:PyBot]].
Von mir geplant: Grundsätzliche Struktur erhalten, ein Webinterface das darauf angewiesen ist, dass ein Benutzer von Zeit zu Zeit vorbeischaut und sich als Rechenzeit-Sklave zur Verfügung stellt, Artikelliste wird eingelesen (Programm entscheidet Zeitpunkt und Umfang) und Artikel werden einzeln abgearbeitet. Ergebnis wird in MySQL-DB für ~7 Tage zur Ansicht gespeichert. Das Ergebnis muß natürlich noch von Freiwilligen entsprechend ausgewertet werden, der Import würde somit relativ automatisch ablaufen.
Ich habe bei dem jetzigen Urv-Check übrigens eine Zweiklassen-Hierarchie der Benutzer eingeführt. Aus Gründen des Umfangs gibt es "Trusted-Authors" und normale Benutzer. Die Ersteren sind zumeist alte Hasen die vertrauens- würdig sind - deren Artikel werden nur mit einer Wahrscheinlichkeit von < 20% einer Prüfung unterzogen. Der (dreckige ;-) Rest ist immer dran. Bis jetzt schaffe ich mit 1000 Queries so ~400 neue Artikel.
Soll ich Jimbo mal fragen, ob Yahoo uns unterstützen könnte?
Hm, ich weiß nicht wie ''gut'' die Suchergebnisse von Y! sind. IMHO ist Google immer noch das Nonplusultra auf dem Gebiet der Suchmaschinen.
Nils.
On Thu, Mar 04, 2004 at 09:28:55PM +0100, Nils Kehrein wrote:
Hm, ich weiß nicht wie ''gut'' die Suchergebnisse von Y! sind. IMHO ist Google immer noch das Nonplusultra auf dem Gebiet der Suchmaschinen.
Du könntest ja nicht nur direkte hits bei der suchmaschine sondern auch andere Faktoren wie fehlenden wiki-formatierung, eine URl ganz am Ende und anderes mit einfließen lassen in die Bewertung.
ciao, tom
Salve,
Am Donnerstag, 4. März 2004 21:32 schrieb Thomas R. Koll:
On Thu, Mar 04, 2004 at 09:28:55PM +0100, Nils Kehrein wrote:
Hm, ich weiß nicht wie ''gut'' die Suchergebnisse von Y! sind. IMHO ist Google immer noch das Nonplusultra auf dem Gebiet der Suchmaschinen.
Du könntest ja nicht nur direkte hits bei der suchmaschine sondern auch andere Faktoren wie fehlenden wiki-formatierung, eine URl ganz am Ende und anderes mit einfließen lassen in die Bewertung.
-Existierende Zeilenumbrüche -Rechtschreibprüfung (Ispell) -Verhältnis alter Text/neuer Text -Ob neuer Text on block oder in den alten eingebaut wird (siehe IBM visualisierung) -Hat der User schon mehrfach an diesem Text geschrieben? -.....
Es wäre wohl gut ca. 100 Beispiele, 50 für URV freie Entwicklung und 50 für Textbarbeitungen mit URV für die Entwicklung zu bennen. Ein Neuer Artikel der 100% URV ist dürfte der Einfachste Fall sein.
Auch könnte man Anstelle des PHP-Dump eine zeitnähere Lösung finden.
Andererseits haben Suchmaschinen eine Latenzzeit, d.h. ich hatte Letze Woche einen Text über eine franz. Filmschauspieleren als URV verdächtigt, die Suchmaschienen lieferte aber erst 24h später, das dieser Text bereits auf einem NDR Server lag.
Wir könnten uns auch eine kleine Eigene Suchmaschine + Textarchive für wichtige Quellen: Tageszeitungen, TV, Radio, Magazine bauen und hin und wieder per bot neue Seiten wgetten. BTW, dann gäbe es noch kostenpflichtige Portale: -spiegel.de -faz.de -genios.de Wobei die nicht unbedingt von > 1000 Anfragen pro Tag begeistert wären, vielleicht muß man einfach mit jedem Gespräche führen und sagen, das eine vermeidung einer URV auch in ihrem Interresse wäre *g*
Gruss rob
Robert Michel wrote:
-Verhältnis alter Text/neuer Text -Ob neuer Text on block oder in den alten eingebaut wird (siehe IBM visualisierung) -Hat der User schon mehrfach an diesem Text geschrieben?
Heisser ... das wäre eine Anwendung für die Recentchanges, das kann man jedenfalls nicht mehr via Suchmaschine gegenchecken da vielzuviele Queries/Traffic.
Wir könnten uns auch eine kleine Eigene Suchmaschine + Textarchive für wichtige Quellen: Tageszeitungen, TV, Radio, Magazine bauen und hin und wieder per bot neue Seiten wgetten.
Ich habe - ganz zufällig - auf meiner Seite auch eine Zeit lang ein komfortables Programm angeboten um spiegel.de Artikel zu archivieren. Die waren davon überhaupt nicht begeistert - spätestens als bei Google bei der Suche "spiegel archiv" meine Seite der 2. Treffer war *g* Außerdem ist das nach Urheberrecht nicht zulässig - hab ich irgendwo schonmal geschrieben - jedenfalls nicht in dem Umfang wie du es benutzen möchtest.
Nils.
Nils Kehrein fab@affenkrieger.de writes:
Ich habe - ganz zufällig - auf meiner Seite auch eine Zeit lang ein komfortables Programm angeboten um spiegel.de Artikel zu archivieren. Die waren davon überhaupt nicht begeistert
Möglich, aber ich kann an deinem Tun nichts unrechtmäßiges finden.
- spätestens als bei Google bei der Suche "spiegel archiv" meine Seite
der 2. Treffer war
Lustig, daß "Anbieter" immer wieder glauben, sie hätten ein Recht darauf, bei den Suchmaschinen ganz oben zu erscheinen...
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1
Nils Kehrein wrote: | Robert Michel wrote: | |>> Nils Kehrein schrieb: |>> |>>> * Eine Art Distributed-Urv-Check |>>> (arbeite ich dran) |> |> Gibt es demnächst Details über Dein Skript zum Mitdenken? | | | Ich versuche mal einen kurzen Abriss: | | Wie es im Moment läuft: | PHP-Programm importiert Artikelliste und holt Artikelquelltexte, läuft | auf der Kommandozeile. Aus jedem Artikel der geprüft wird, werden bis | max. 6 Queries a 6 Wörter geholt und bei Google abgefeuert. | Ergebnis wird in einer HTML-Datei aufbereitet wie bei [[Benutzer:PyBot]]. | | Von mir geplant: | Grundsätzliche Struktur erhalten, ein Webinterface das darauf angewiesen | ist, dass ein Benutzer von Zeit zu Zeit vorbeischaut und sich als | Rechenzeit-Sklave zur Verfügung stellt, Artikelliste wird eingelesen | (Programm entscheidet Zeitpunkt und Umfang) und Artikel werden einzeln | abgearbeitet. Ergebnis wird in MySQL-DB für ~7 Tage zur Ansicht | gespeichert. Das Ergebnis muß natürlich noch von Freiwilligen entsprechend | ausgewertet werden, der Import würde somit relativ automatisch ablaufen. | | Ich habe bei dem jetzigen Urv-Check übrigens eine Zweiklassen-Hierarchie | der Benutzer eingeführt. Aus Gründen des Umfangs gibt es "Trusted-Authors" | und normale Benutzer. Die Ersteren sind zumeist alte Hasen die vertrauens- | würdig sind - deren Artikel werden nur mit einer Wahrscheinlichkeit | von < 20% einer Prüfung unterzogen. Der (dreckige ;-) Rest ist immer dran. | Bis jetzt schaffe ich mit 1000 Queries so ~400 neue Artikel. | |> Soll ich Jimbo mal fragen, ob Yahoo uns unterstützen könnte? | | | Hm, ich weiß nicht wie ''gut'' die Suchergebnisse von Y! sind. IMHO ist | Google immer noch das Nonplusultra auf dem Gebiet der Suchmaschinen. | | Nils. | metager.de kooperiert doch schon mit Wikipedia. Vielleicht geht was über die Schiene? Gruß
Thomas