Visualisierung der Inhaltsstruktur

19 Jan 2010


      Hi,
Mir sind jetzt öfters schon diverse Anekdoten über die Inhaltsstruktur
der deutschsprachigen Wikipedia über den Weg gelaufen, konnte die aber
meist nicht anhand reputabler Quellen nachvollziehn. Läuft die Wikipedia
über mit Hochschullehrerbiographien oder Harry Potter Artiklen? Gammeln
da die Artikel zu Vierligaballschubsern ungelesen herum? Wieviele
Artikel gibt es eigentlich zur Netzkultur? Liesst jemand die Artikel zu
den 36 Strassen in Lübeck?
Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten-
daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge-
wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch
verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar-
gestellt) ins Netz gestellt.
Wenn man einen schnellen Rechner mit viel Speicher und Adobe Flash hat,
und ein paar statistische Grundkenntnisse, und alle wichtigen Tabs ge-
schlossen hat, kann man sich das unter
http://katograph.appspot.com/
angucken. Ist die Anwendung einmal geladen, kann man sich die Daten die
zur Bestimmung der Färbung und der Blockgrösse herangezogen werden
sollen aussuchen und wie tief gezoomt werden soll (die option "Zu viel"
ist dort durchaus ernst gemeint, wenn man zum Beispiel in der Räumlich-
en Systematik ist).
Dabei stehen diverse Metriken zur Verfügung. Die Standardeinstellung ist
es, die Blöcke nach dem Median der Zugriffe zu färben und nach der Zahl
der Artikel in der Kategorie (inklusive allen Unterkategorien) zu ska-
lieren. Die Farben verlaufen dabei von hellem Blau nach Orange.
Als Beispiel, in der Kategorie "Chemie" findet man einen Haufen Blöche
in Orange, bis auf einen recht grossen grauen Block, die "Chemiker".
Der ist grau weil der Median der Zugriffe auf Artikel in der Kategorie
bei 7 liegt, also wurden die Artikel in der Kategorie zur Hälfte min-
destens 7 mal aufgerufen und zur Hälfte höchstens 7 mal aufgerufen (im
Beobachtungszeitraum von drei Tagen).
Ein Drittel der Kategorien hat einen niedrigeren Median, zwei Drittel
haben einen höheren, daraus ergibt sich die Färbung des Blocks. Die Ka-
tegorie "Lebensmittelchemie" liegt optisch in der Nähe, hat aber einen
Median von 78, was nur von 4% der Kategorien überboten wird, daher hat
die Kategorie eine knallige Orangefärbung. Der "Chemiepreis" hingegen
hat einen Median von 5 und ist damit hellblau.
Ändert man die Einstellung für die Grössenbestimmung z.B. auf die Option
"Zugriffe (Summe)" wird die Kategorie "Chemiker" ein ganzes Stück klei-
ner, da absolut nicht so oft auf die Artikel in der Kategorie zuge-
griffen wurde wie zum Beispiel auf die Chemischen Verbindungen. Ändert
man es auf "Zugriffe (Median)" wird sie nochmal kleiner, weil auch auf
die Artikel verteilt andere Kategorien viel besser dastehen.
Zur Verfügung stehen für die Färbung die Optionen Artikelzahl, Zugriffe
insgesamt, im median, im mittel, und die Standardabweichung, sowie bei
der Grössenbestimmung das jeweilige Inverse, damit man auch die sonst zu
klein dargestellten Sachen zu Gesicht bekommt.
So kann man sich durch das gesamte Kategoriesystem navigieren. Natürlich
lassen sich keinesfalls leicht Schlüsse aus den Daten ziehen, nur weil
die E-Sportler mit nur 30 Artikeln insgesamt so viele Zugriffe hatten
wie die Bogenschützen mit gut 300 Artikeln, heisst das ja nicht, dass
man dringend einen Ausgleich schaffen sollte. Oder der eine Hochschul-
lehrer aus Jordanien viel stärker nachgefragt wird als der zyprische.
Genaugenommen wird man anhand der Datenmasse überhaupt Probleme haben,
aus den Ansichten etwas mitzunehmen, ausser unterbewusst mal einen Ein-
druck bekommen zu haben. Einige nützliche Daten fallen allerdings auch
auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000
Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu-
ordnung. In jedem Fall kann es recht kurzweilig sein da durch die Ge-
gend zu klicken, in dem Sinne, viel Spass.
-- 
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

Danke für das Feedback,