[Wikide-l] Wikistats, Andrea Kiewel und der ganze Rest

Lars Aronsson lars at aronsson.se
Fr Dez 21 17:42:19 UTC 2007


Mathias Schindler wrote:

> Mit den Zahlen selbst kann man noch mehr anstellen.

Gestern fragte jemand am [[sv:WP:BB]] (village pump) welche 
Artikel in sv.wp haben <ref> aber kein <references/>.  Es war 
einfach genug die 298 Seiten zu finden.  Aber dann habe ich diese 
nach Besuchsfrequenz (Anzahl Besuche in der vorigen Woche) 
geordnet und aufgelistet, von Metallica (3146 Besuche) bis 
Ulbrichtdoktrin (2 Besuche).

http://sv.wikipedia.org/wiki/WP:BB#Referenss.C3.B6kning

Ich meine wir hätten besser ein Toolserver Script entwickeln (dort 
habe ich kein Account), um diese Besuchstatistik als Top Listen 
oder Grafen zu zeigen.  Aber ausserdem brauchen wir einen 
Webbauftritt für die Sortierung von solchen Listen.  Die Liste 
kann dann als HTML-Formular eingegeben werden, oder als eine 
Kategoriename, oder als eine Seitenname, von welcher man alle 
verlinkte Seiten einbringt.

Aber jetzt strömen Loggdateien hierein mit 100+ Megabytes *pro 
Stunde* (25 MB/Stunde komprimiert).  Kann der Toolserver diese 
überhaupt speichern und in MySQL suchbar machen?  Oder müssen wir 
zuerst tägliche / wöchentliche Summierungen machen?

> 2007121917	172
> 2007121918	170
> 2007121919	146
> 2007121920	112
> 2007121921	86
> 2007121922	69
> 2007121923	65
> 2007122000	49

Hier ist die Variation (in Anzahl Besuche) nicht nur von 
Popularität abhängig, sondern auch von der Uhrzeit.  Für 
Vergleiche eignet sich das (relative) Ranking besser als die 
(absolute) Anzahl von Besuchen. Etwa: "sort -nr|cat -n|grep"

 Tag      Ranking  Besuche  Artikel
 20071217   86922       41  Andrea_Kiewel
 20071218   89398       38  Andrea_Kiewel
 20071219     368     1641  Andrea_Kiewel
 20071220      45     4843  Andrea_Kiewel

 Tag    Stunde Ranking Besuche Artikel       Ranking-Veränderung
 20071219-0700       -       0 Andrea_Kiewel
 20071219-0800   86145       2 Andrea_Kiewel
 20071219-0900  281150       1 Andrea_Kiewel
 20071219-1000  315630       1 Andrea_Kiewel
 20071219-1100   84692       3 Andrea_Kiewel × 3,72
 20071219-1200    8037      18 Andrea_Kiewel ×10,54
 20071219-1300    1527      51 Andrea_Kiewel × 5,26
 20071219-1400      89     253 Andrea_Kiewel ×17,16
 20071219-1500      98     246 Andrea_Kiewel × 0,90
 20071219-1600     110     233 Andrea_Kiewel × 0,89
 20071219-1700     178     172 Andrea_Kiewel × 0,61
 20071219-1800     156     170 Andrea_Kiewel × 1,14
 20071219-1900     244     146 Andrea_Kiewel × 0,63
 20071219-2000     388     112 Andrea_Kiewel × 0,62
 20071219-2100     571      86 Andrea_Kiewel × 0,68
 20071219-2200     595      69 Andrea_Kiewel × 0,96
 20071219-2300     380      65 Andrea_Kiewel × 1,56

Als Leute gehen zu Bett (Uhrzeit 23) fallen die Anzahl von 
Besuchen von 69 bis 65, aber das Ranking wird gesteigert (×1,56). 
Um das Ranking bei 595 zu behalten, hätten die Besuche noch 
sterker fallen müssen.  Leute die so spät Wikipedia lesen, sind 
vielleicht die die erst jetzt nach Hause gekommen sind und die 
Nachrichten nicht gehört haben?


-- 
  Lars Aronsson (lars at aronsson.se)
  Aronsson Datateknik - http://aronsson.se