[Wikide-l] Visualisierung der Inhaltsstruktur

Bjoern Hoehrmann derhoermi at gmx.net
Mi Jan 20 01:41:12 UTC 2010


* Christian Thiele wrote:
>ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige,  
>vermute ich da irgendwelche anderen Effekte - Biografien ohne eine  
>Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch  
>insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du  
>die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.

Ich bin bei der Erhebung auf einige Datenprobleme gestossen, z.B. gibt
es in der `page` Tabelle wohl falsche Titel mit Leerzeichen statt Unter-
strichen, und diverse Kreise im Kategoriesystem die inzwischen behoben
sein sollten (ausser im User_*-Bereich). Ich hab mir sagen lassen, hier
werden von MediaWiki Artikel gezählt die keine Weiterleitung sind und
mehr als 0 Byte gross sind. Da praktisch keine 0 Byte grossen Artikel im
Datensatz existieren gehe ich davon aus, da hat es ein Problem mit den
Weiterleitungen gegeben, z.B. dass die Weiterleitungen die zusätzlich
als Abkürzung kategorisiert sind falsch gezählt wurden.

Okay, ich bin grad nochmal über dewiki-20091223-page.sql rüber, wenn man
die Einträge wo page_is_redirect gesetzt ist und die wo page_namespace
ungleich Null ist ignoriert bleiben 1 012 813 Einträge. Wenn man auch
noch die mit page_len == 0 ignoriert bleibt einer weniger. (Für die Aus-
wertung habe ich einfach

  http://lists.w3.org/Archives/Public/www-archive/2010Jan/0007.html

benutzt). In der categorylinks Tabelle steht ja auch vor allem Müll
drin (jedesmal wenn man einen Tippfehler bei den Kategorien hat wird
dort ein falscher Eintrag erzeugt und nur unregelmässig entfernt), es
mag also gerne irgendwo ein kleiner unbedeutender Wurm drin sein (und
sei es in der zählweise von MediaWiki :-) Wo der ist weiss ich aber
leider nicht, für die Darstellung in dem Tool sollte es jedoch keinen
Unterschied machen, so keine Spezialkategorien betroffen sind.

>> In jedem Fall kann es recht kurzweilig sein da durch die Ge-
>> gend zu klicken, in dem Sinne, viel Spass.
>
>Yep! Danke dafür.

Danke für das Feedback,
-- 
Björn Höhrmann · mailto:bjoern at hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/