Hi,
Mir sind jetzt öfters schon diverse Anekdoten über die Inhaltsstruktur der deutschsprachigen Wikipedia über den Weg gelaufen, konnte die aber meist nicht anhand reputabler Quellen nachvollziehn. Läuft die Wikipedia über mit Hochschullehrerbiographien oder Harry Potter Artiklen? Gammeln da die Artikel zu Vierligaballschubsern ungelesen herum? Wieviele Artikel gibt es eigentlich zur Netzkultur? Liesst jemand die Artikel zu den 36 Strassen in Lübeck?
Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten- daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge- wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar- gestellt) ins Netz gestellt.
Wenn man einen schnellen Rechner mit viel Speicher und Adobe Flash hat, und ein paar statistische Grundkenntnisse, und alle wichtigen Tabs ge- schlossen hat, kann man sich das unter
angucken. Ist die Anwendung einmal geladen, kann man sich die Daten die zur Bestimmung der Färbung und der Blockgrösse herangezogen werden sollen aussuchen und wie tief gezoomt werden soll (die option "Zu viel" ist dort durchaus ernst gemeint, wenn man zum Beispiel in der Räumlich- en Systematik ist).
Dabei stehen diverse Metriken zur Verfügung. Die Standardeinstellung ist es, die Blöcke nach dem Median der Zugriffe zu färben und nach der Zahl der Artikel in der Kategorie (inklusive allen Unterkategorien) zu ska- lieren. Die Farben verlaufen dabei von hellem Blau nach Orange.
Als Beispiel, in der Kategorie "Chemie" findet man einen Haufen Blöche in Orange, bis auf einen recht grossen grauen Block, die "Chemiker". Der ist grau weil der Median der Zugriffe auf Artikel in der Kategorie bei 7 liegt, also wurden die Artikel in der Kategorie zur Hälfte min- destens 7 mal aufgerufen und zur Hälfte höchstens 7 mal aufgerufen (im Beobachtungszeitraum von drei Tagen).
Ein Drittel der Kategorien hat einen niedrigeren Median, zwei Drittel haben einen höheren, daraus ergibt sich die Färbung des Blocks. Die Ka- tegorie "Lebensmittelchemie" liegt optisch in der Nähe, hat aber einen Median von 78, was nur von 4% der Kategorien überboten wird, daher hat die Kategorie eine knallige Orangefärbung. Der "Chemiepreis" hingegen hat einen Median von 5 und ist damit hellblau.
Ändert man die Einstellung für die Grössenbestimmung z.B. auf die Option "Zugriffe (Summe)" wird die Kategorie "Chemiker" ein ganzes Stück klei- ner, da absolut nicht so oft auf die Artikel in der Kategorie zuge- griffen wurde wie zum Beispiel auf die Chemischen Verbindungen. Ändert man es auf "Zugriffe (Median)" wird sie nochmal kleiner, weil auch auf die Artikel verteilt andere Kategorien viel besser dastehen.
Zur Verfügung stehen für die Färbung die Optionen Artikelzahl, Zugriffe insgesamt, im median, im mittel, und die Standardabweichung, sowie bei der Grössenbestimmung das jeweilige Inverse, damit man auch die sonst zu klein dargestellten Sachen zu Gesicht bekommt.
So kann man sich durch das gesamte Kategoriesystem navigieren. Natürlich lassen sich keinesfalls leicht Schlüsse aus den Daten ziehen, nur weil die E-Sportler mit nur 30 Artikeln insgesamt so viele Zugriffe hatten wie die Bogenschützen mit gut 300 Artikeln, heisst das ja nicht, dass man dringend einen Ausgleich schaffen sollte. Oder der eine Hochschul- lehrer aus Jordanien viel stärker nachgefragt wird als der zyprische.
Genaugenommen wird man anhand der Datenmasse überhaupt Probleme haben, aus den Ansichten etwas mitzunehmen, ausser unterbewusst mal einen Ein- druck bekommen zu haben. Einige nützliche Daten fallen allerdings auch auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000 Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu- ordnung. In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass.
Hi,
Am 19.01.2010, 23:41 Uhr, schrieb Bjoern Hoehrmann derhoermi@gmx.net:
Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten- daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge- wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar- gestellt) ins Netz gestellt.
sehr spannend. Wir haben zwar weniger Biografien zu Frauen, diese werden im Mittel aber häufiger gelesen. Auch bei "Person nach Tätigkeit" ergeben sich spannende Ergebnisse... so werden wenig überraschend Artikel über Models, Prostituierte und Zuhälter sehr oft gelesen, wohingegen ein Archivar im Durchschnitt nur 20% der Zugriffe eines Moderators erhält ;).
Einige nützliche Daten fallen allerdings auch auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000 Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu- ordnung.
ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, vermute ich da irgendwelche anderen Effekte - Biografien ohne eine Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.
In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass.
Yep! Danke dafür.
Grüße, Christian Thiele / APPER
* Christian Thiele wrote:
ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, vermute ich da irgendwelche anderen Effekte - Biografien ohne eine Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.
Ich bin bei der Erhebung auf einige Datenprobleme gestossen, z.B. gibt es in der `page` Tabelle wohl falsche Titel mit Leerzeichen statt Unter- strichen, und diverse Kreise im Kategoriesystem die inzwischen behoben sein sollten (ausser im User_*-Bereich). Ich hab mir sagen lassen, hier werden von MediaWiki Artikel gezählt die keine Weiterleitung sind und mehr als 0 Byte gross sind. Da praktisch keine 0 Byte grossen Artikel im Datensatz existieren gehe ich davon aus, da hat es ein Problem mit den Weiterleitungen gegeben, z.B. dass die Weiterleitungen die zusätzlich als Abkürzung kategorisiert sind falsch gezählt wurden.
Okay, ich bin grad nochmal über dewiki-20091223-page.sql rüber, wenn man die Einträge wo page_is_redirect gesetzt ist und die wo page_namespace ungleich Null ist ignoriert bleiben 1 012 813 Einträge. Wenn man auch noch die mit page_len == 0 ignoriert bleibt einer weniger. (Für die Aus- wertung habe ich einfach
http://lists.w3.org/Archives/Public/www-archive/2010Jan/0007.html
benutzt). In der categorylinks Tabelle steht ja auch vor allem Müll drin (jedesmal wenn man einen Tippfehler bei den Kategorien hat wird dort ein falscher Eintrag erzeugt und nur unregelmässig entfernt), es mag also gerne irgendwo ein kleiner unbedeutender Wurm drin sein (und sei es in der zählweise von MediaWiki :-) Wo der ist weiss ich aber leider nicht, für die Darstellung in dem Tool sollte es jedoch keinen Unterschied machen, so keine Spezialkategorien betroffen sind.
In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass.
Yep! Danke dafür.
Danke für das Feedback,
Ich bin baff und werde in den kommenden Tagen bestimmt noch öfter das Tool einschalten. Gratulation und Dankeschön dafür, Bjoern! Besten Gruß Ziko
Am 20. Januar 2010 02:41 schrieb Bjoern Hoehrmann derhoermi@gmx.net:
- Christian Thiele wrote:
ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, vermute ich da irgendwelche anderen Effekte - Biografien ohne eine Mann/Frau-Kategorie kommen doch zu selten vor. Dein Script zeigt auch insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.
Ich bin bei der Erhebung auf einige Datenprobleme gestossen, z.B. gibt es in der `page` Tabelle wohl falsche Titel mit Leerzeichen statt Unter- strichen, und diverse Kreise im Kategoriesystem die inzwischen behoben sein sollten (ausser im User_*-Bereich). Ich hab mir sagen lassen, hier werden von MediaWiki Artikel gezählt die keine Weiterleitung sind und mehr als 0 Byte gross sind. Da praktisch keine 0 Byte grossen Artikel im Datensatz existieren gehe ich davon aus, da hat es ein Problem mit den Weiterleitungen gegeben, z.B. dass die Weiterleitungen die zusätzlich als Abkürzung kategorisiert sind falsch gezählt wurden.
Okay, ich bin grad nochmal über dewiki-20091223-page.sql rüber, wenn man die Einträge wo page_is_redirect gesetzt ist und die wo page_namespace ungleich Null ist ignoriert bleiben 1 012 813 Einträge. Wenn man auch noch die mit page_len == 0 ignoriert bleibt einer weniger. (Für die Aus- wertung habe ich einfach
http://lists.w3.org/Archives/Public/www-archive/2010Jan/0007.html
benutzt). In der categorylinks Tabelle steht ja auch vor allem Müll drin (jedesmal wenn man einen Tippfehler bei den Kategorien hat wird dort ein falscher Eintrag erzeugt und nur unregelmässig entfernt), es mag also gerne irgendwo ein kleiner unbedeutender Wurm drin sein (und sei es in der zählweise von MediaWiki :-) Wo der ist weiss ich aber leider nicht, für die Darstellung in dem Tool sollte es jedoch keinen Unterschied machen, so keine Spezialkategorien betroffen sind.
In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass.
Yep! Danke dafür.
Danke für das Feedback,
Björn Höhrmann · mailto:bjoern@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
WikiDE-l mailing list WikiDE-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikide-l
* Christian Thiele wrote:
Einige nützliche Daten fallen allerdings auch auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000 Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu- ordnung.
ja, sehr spannend. Da ich mich aber recht viel mit Biografien beschäftige, vermute ich da irgendwelche anderen Effekte - Biografien ohne eine Mann/Frau-Kategorie kommen doch zu selten vor.
Die (teilweise) Erklärung dafür ist wohl, dass man als Personengruppe oftmals auch Person ist, so sind zum Beispiel Musikgruppen und Familien meist Personen. Die Bereiche Listen, Adel, und Person als Thema tragen auch einen Teil dazu bei. Dann gibt es noch die Fälle Artikel = Kate- gorie, so ist der Artikel "Musiker" in der Kategorie "Musiker" und der Artikel "Buchbinder" in Buchbinder und die sind Handwerker und die sind Personen. Eine Stimmberechtigung bleibt aber sicherlich noch übrig.
Hallo, Am Mittwoch 20 Januar 2010 02:12:31 schrieb Christian Thiele:
Dein Script zeigt auch insgesamt 1.063.624 Artikel an, obwohl die Wikipedia zu der Zeit, als du die Zugriffe erfasst hast, noch gar keine Million Artikel hatte.
das ist ein normaler Effekt. Nicht alles, was in der page-table steht, wird von Mediawiki auch als Artikel gezählt - darum hatten wir die Millionengrenze auch schon ein paar Monate eher geknackt ;-).
Mit freundlichen Grüßen DaB.