Ich bin baff und werde in den kommenden Tagen bestimmt noch öfter das Tool einschalten. Gratulation und Dankeschön dafür, Bjoern! Besten Gruß Ziko
Am 20. Januar 2010 02:41 schrieb Bjoern Hoehrmann derhoermi@gmx.net:
- Christian Thiele wrote:
ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, vermute ich da irgendwelche anderen Effekte - Biografien ohne eine Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.
Ich bin bei der Erhebung auf einige Datenprobleme gestossen, z.B. gibt es in der `page` Tabelle wohl falsche Titel mit Leerzeichen statt Unter- strichen, und diverse Kreise im Kategoriesystem die inzwischen behoben sein sollten (ausser im User_*-Bereich). Ich hab mir sagen lassen, hier werden von MediaWiki Artikel gezählt die keine Weiterleitung sind und mehr als 0 Byte gross sind. Da praktisch keine 0 Byte grossen Artikel im Datensatz existieren gehe ich davon aus, da hat es ein Problem mit den Weiterleitungen gegeben, z.B. dass die Weiterleitungen die zusätzlich als Abkürzung kategorisiert sind falsch gezählt wurden.
Okay, ich bin grad nochmal über dewiki-20091223-page.sql rüber, wenn man die Einträge wo page_is_redirect gesetzt ist und die wo page_namespace ungleich Null ist ignoriert bleiben 1 012 813 Einträge. Wenn man auch noch die mit page_len == 0 ignoriert bleibt einer weniger. (Für die Aus- wertung habe ich einfach
http://lists.w3.org/Archives/Public/www-archive/2010Jan/0007.html
benutzt). In der categorylinks Tabelle steht ja auch vor allem Müll drin (jedesmal wenn man einen Tippfehler bei den Kategorien hat wird dort ein falscher Eintrag erzeugt und nur unregelmässig entfernt), es mag also gerne irgendwo ein kleiner unbedeutender Wurm drin sein (und sei es in der zählweise von MediaWiki :-) Wo der ist weiss ich aber leider nicht, für die Darstellung in dem Tool sollte es jedoch keinen Unterschied machen, so keine Spezialkategorien betroffen sind.
In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass.
Yep! Danke dafür.
Danke für das Feedback,
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
WikiDE-l mailing list WikiDE-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikide-l