Hi,
Am 16.02.2010, 03:41 Uhr, schrieb DaB. <WP(a)daniel.baur4.info>fo>:
falls jemand da draußen einen Bot oder ein Tool
betreibt, dass auf die
Wikipedia (oder andere Wikimedia-Projekte) zugreift und KEINEN User-Agent
mitsendet: Ändert das - denn seit ein paar Stunden akzeptieren die Server
solche Requests nicht mehr.
P.S: Ich hätte nicht gedacht, dass das überhaupt
jemanden stören würde...
das betrifft vor allem diejenigen, die bestimmte einfache Download-Befehle
ihrer Programmiersprache nutzen. Wer z.B. in PHP Wikipedia-Inhalte bisher
mittels file_get_contents() (oder file()) geladen hat, wird damit keinen
Erfolg mehr haben. Mein Vorschlag:
function get_url_contents($url)
{
$crl = curl_init();
curl_setopt($crl, CURLOPT_URL, $url);
curl_setopt($crl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($crl, CURLOPT_CONNECTTIMEOUT, 5); // 5 seconds
curl_setopt($crl, CURLOPT_USERAGENT, "My User-Agent");
$ret = curl_exec($crl);
curl_close($crl);
return $ret;
}
Bei anderen Sprachen gibt es evtl. auch irgendwelche Befehle, die Inhalte
laden ohne einen User-Agent zu verwenden. Also bitte eure Tools prüfen ;).
Grüße,
Christian Thiele / APPER
PS: So ganz ist mir der Sinn dieser Änderung nicht ersichtlich. Wenn
mittels User-Agent bestimmte Crawler gesperrt werden sollen, dann nehmen
die halt 'nen üblichen Browser-Agent und schon wars das. *hust*
Zugangserschwerungsgesetz *hust*