Hi,
wie schonmal irgendwo erwähnt, gibt es derzeit unter dammit.lt/wikistats die Zugriffszahlen auf die Artikel der Wikipedia, gerechnet jeweils auf die volle Stunde. Eine schöne Datenfundgrube!
Und in der Tat ist es jetzt wenig überraschend, daß tagesaktuelle Ereignisse (und solche, die auf der Startseite verlinkt sind) häufiger abgerufen werden, als sonst, wenn sie nicht gerade spiegel.de-Schlagzeile sind.
Die Datenmenge ist nicht wenig, ein kleines Laptop braucht für den zgrep durchaus seine 15 Minuten, um sich durch die Zahlen seit dem 9. Dezember zu wühlen, das Ergebnis im Fall [[Andrea Kiewel]] sieht beispielsweise so aus, wie ich das unten angehängt habe. Im Moment wühle ich mich noch durch die Dokumentation von Ploticus bzw. gnuplot um zu sehen, wie man da am schnellsten die Zahlenreihen auch mal graphisch aufbereiten kann.
Mit den Zahlen selbst kann man noch mehr anstellen. Um den Tagesgang der Seitenaufrufe herauszubekommen, kann man auch mal welchseln in den Anteil der Seiten gemessen an den Gesamtaufrufen. Um zwei Reihen zu vergleichen, drückt man die Schwankungen am Ende nur noch als Abweichung vom Mittel des jeweiligen Artikels aus usw...
Wer sowas automatisieren kann, ist natürlich eingeladen, sich selbst auf die Daten zu stürzen. Und die Shell-Zeile (vorsichtig, Augenkrebs!)
$ for i in $( ls -X *.gz ); do echo echo $i | gawk -F- '{ print $2 $3 }' ; echo zgrep "^de Andrea_Kiewel " $i | gawk '{ print $1 " " $3 }'; done | sh > kiewel.txt &
ist sicherlich auch verbesserungsfähig :)
Lars Aronsson hat unter http://de.wikipedia.org/wiki/Wikipedia:Cafe#Besucherstatistik ebenfalls schon mit den Zahlen Spaß gehabt....
Mathias
2007120918 2007120919 2 2007120920 2007120921 3 2007120922 1 2007120923 3 2007121000 2007121001 2007121002 1 2007121003 2007121004 2 2007121005 2007121006 2007121007 2007121008 2 2007121009 2007121010 5 2007121011 3 2007121012 1 2007121013 1 2007121014 1 2007121015 2 2007121016 1 2007121017 1 2007121018 6 2007121019 6 2007121020 2007121021 1 2007121022 3 2007121023 1 2007121100 2007121101 2 2007121102 2007121103 2007121104 1 2007121105 2007121106 2007121107 2007121108 2 2007121109 2 2007121110 5 2007121111 2 2007121112 5 2007121113 2 2007121114 2 2007121115 5 2007121116 3 2007121117 2 2007121118 3 2007121119 3 2007121120 2 2007121121 2 2007121122 5 2007121123 1 2007121200 1 2007121201 1 2007121202 2007121203 2007121204 3 2007121205 2007121206 2007121207 1 2007121208 2007121209 3 2007121210 2007121211 3 2007121212 2007121213 4 2007121214 4 2007121215 2007121216 1 2007121217 1 2007121218 1 2007121219 2007121220 1 2007121221 2 2007121222 3 2007121223 1 2007121300 1 2007121301 2007121302 2007121303 2007121304 3 2007121305 3 2007121306 2 2007121307 2 2007121308 2 2007121309 7 2007121310 4 2007121311 9 2007121312 4 2007121313 5 2007121314 5 2007121315 7 2007121316 8 2007121317 6 2007121318 3 2007121319 10 2007121320 8 2007121321 4 2007121322 6 2007121323 2 2007121400 2007121401 2007121402 2007121403 2007121404 2 2007121405 1 2007121406 2007121407 2 2007121408 2007121409 1 2007121410 2 2007121411 4 2007121412 1 2007121413 2 2007121414 1 2007121415 1 2007121416 2 2007121417 3 2007121418 8 2007121419 3 2007121420 5 2007121421 4 2007121422 3 2007121423 2 2007121500 1 2007121501 2 2007121502 2007121503 1 2007121504 1 2007121505 1 2007121506 2007121507 2007121508 1 2007121509 4 2007121510 1 2007121511 5 2007121512 5 2007121513 3 2007121514 3 2007121515 1 2007121516 3 2007121517 1 2007121518 5 2007121519 3 2007121520 3 2007121521 5 2007121522 3 2007121523 42 2007121600 26 2007121601 22 2007121602 4 2007121603 3 2007121604 1 2007121605 2007121606 2007121607 1 2007121608 1 2007121609 5 2007121610 7 2007121611 5 2007121612 4 2007121613 2 2007121614 5 2007121615 3 2007121616 1 2007121617 4 2007121618 3 2007121619 6 2007121620 3 2007121621 3 2007121622 8 2007121623 1 2007121700 4 2007121701 2007121702 2007121703 2007121704 1 2007121705 2007121706 2 2007121707 2 2007121708 1 2007121709 4 2007121710 1 2007121711 2007121712 3 2007121713 1 2007121714 1 2007121715 1 2007121716 3 2007121717 3 2007121718 1 2007121719 2007121720 3 2007121721 1 2007121722 8 2007121723 1 2007121800 2007121801 1 2007121802 2007121803 2007121804 1 2007121805 1 2007121806 2007121807 1 2007121808 1 2007121809 2007121810 4 2007121811 2007121812 3 2007121813 4 2007121814 5 2007121815 3 2007121816 3 2007121817 1 2007121818 1 2007121819 3 2007121820 1 2007121821 1 2007121822 1 2007121823 3 2007121900 2 2007121901 2 2007121902 2007121903 1 2007121904 1 2007121905 1 2007121906 2007121907 2007121908 2 2007121909 1 2007121910 1 2007121911 3 2007121912 18 2007121913 51 2007121914 253 2007121915 246 2007121916 233 2007121917 172 2007121918 170 2007121919 146 2007121920 112 2007121921 86 2007121922 69 2007121923 65 2007122000 49 2007122001 31 2007122002 17 2007122003 11 2007122004 10 2007122005 19 2007122006 30 2007122007 60 2007122008 74 2007122009 98 2007122010 74 2007122011 102 2007122012 220 2007122013 554 2007122014 649 2007122015 492 2007122016 416 2007122017 361 2007122018 242 2007122019 239 2007122020 310 2007122021 238 2007122022 296 2007122023 235 2007122100 125 2007122101 82 2007122102 35 2007122103 21 2007122104 13 2007122105 22 2007122106 54 2007122107 129 2007122108 155 2007122109 244 2007122110 228 2007122111 231 2007122112 509 2007122113 1017
Mathias Schindler wrote:
Mit den Zahlen selbst kann man noch mehr anstellen.
Gestern fragte jemand am [[sv:WP:BB]] (village pump) welche Artikel in sv.wp haben <ref> aber kein <references/>. Es war einfach genug die 298 Seiten zu finden. Aber dann habe ich diese nach Besuchsfrequenz (Anzahl Besuche in der vorigen Woche) geordnet und aufgelistet, von Metallica (3146 Besuche) bis Ulbrichtdoktrin (2 Besuche).
http://sv.wikipedia.org/wiki/WP:BB#Referenss.C3.B6kning
Ich meine wir hätten besser ein Toolserver Script entwickeln (dort habe ich kein Account), um diese Besuchstatistik als Top Listen oder Grafen zu zeigen. Aber ausserdem brauchen wir einen Webbauftritt für die Sortierung von solchen Listen. Die Liste kann dann als HTML-Formular eingegeben werden, oder als eine Kategoriename, oder als eine Seitenname, von welcher man alle verlinkte Seiten einbringt.
Aber jetzt strömen Loggdateien hierein mit 100+ Megabytes *pro Stunde* (25 MB/Stunde komprimiert). Kann der Toolserver diese überhaupt speichern und in MySQL suchbar machen? Oder müssen wir zuerst tägliche / wöchentliche Summierungen machen?
2007121917 172 2007121918 170 2007121919 146 2007121920 112 2007121921 86 2007121922 69 2007121923 65 2007122000 49
Hier ist die Variation (in Anzahl Besuche) nicht nur von Popularität abhängig, sondern auch von der Uhrzeit. Für Vergleiche eignet sich das (relative) Ranking besser als die (absolute) Anzahl von Besuchen. Etwa: "sort -nr|cat -n|grep"
Tag Ranking Besuche Artikel 20071217 86922 41 Andrea_Kiewel 20071218 89398 38 Andrea_Kiewel 20071219 368 1641 Andrea_Kiewel 20071220 45 4843 Andrea_Kiewel
Tag Stunde Ranking Besuche Artikel Ranking-Veränderung 20071219-0700 - 0 Andrea_Kiewel 20071219-0800 86145 2 Andrea_Kiewel 20071219-0900 281150 1 Andrea_Kiewel 20071219-1000 315630 1 Andrea_Kiewel 20071219-1100 84692 3 Andrea_Kiewel × 3,72 20071219-1200 8037 18 Andrea_Kiewel ×10,54 20071219-1300 1527 51 Andrea_Kiewel × 5,26 20071219-1400 89 253 Andrea_Kiewel ×17,16 20071219-1500 98 246 Andrea_Kiewel × 0,90 20071219-1600 110 233 Andrea_Kiewel × 0,89 20071219-1700 178 172 Andrea_Kiewel × 0,61 20071219-1800 156 170 Andrea_Kiewel × 1,14 20071219-1900 244 146 Andrea_Kiewel × 0,63 20071219-2000 388 112 Andrea_Kiewel × 0,62 20071219-2100 571 86 Andrea_Kiewel × 0,68 20071219-2200 595 69 Andrea_Kiewel × 0,96 20071219-2300 380 65 Andrea_Kiewel × 1,56
Als Leute gehen zu Bett (Uhrzeit 23) fallen die Anzahl von Besuchen von 69 bis 65, aber das Ranking wird gesteigert (×1,56). Um das Ranking bei 595 zu behalten, hätten die Besuche noch sterker fallen müssen. Leute die so spät Wikipedia lesen, sind vielleicht die die erst jetzt nach Hause gekommen sind und die Nachrichten nicht gehört haben?
On 21.12.2007 18:42:19, Lars Aronsson wrote:
Aber jetzt strömen Loggdateien hierein mit 100+ Megabytes *pro Stunde* (25 MB/Stunde komprimiert). Kann der Toolserver diese überhaupt speichern und in MySQL suchbar machen? Oder müssen wir zuerst tägliche / wöchentliche Summierungen machen?
Ich arbeite an einer Software, die den UDP log stream der squid-server in Echtzeit auswertet und in eine hashtable schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver sollte das locker schaffen.
Meine Idee ist, daraus dann regelmaessig (stuendlich, taeglich, woechentlich, ...) statische html-Seiten zu erzeugen.
Wenn du mit den hashtables noch mehr Dinge anfangen moechtest, kann ich sie gerne zur Verfuegung stellen.
Leon
Leon Weber schrieb:
Ich arbeite an einer Software, die den UDP log stream der squid-server in Echtzeit auswertet und in eine hashtable schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver sollte das locker schaffen.
Wenn sie bedeutend kleiner sein kann, warum sind dann Domas' Dateien so groß?
Meine tägliche Summierung für de.wp ist 41 MB mit 1,7 Mio einzigartige URLs. Etwas davon ist uninteressant (z.B. alle "Spezial:Suche/Etwas") und konnte wohl weggefiltert sein.
Wenn du mit den hashtables noch mehr Dinge anfangen moechtest, kann ich sie gerne zur Verfuegung stellen.
Ich meine man sollte Rankinglisten für jede interessante Zeitspanne schaffen. D.h. summieren (machst du wohl schon mit deiner Hashtable), dann nach Anzahl sortieren und nummerieren, also "sort|uniq -c|sort -nr|cat -n".
On 21.12.2007 21:27:41, Lars Aronsson wrote:
Leon Weber schrieb:
Ich arbeite an einer Software, die den UDP log stream der squid-server in Echtzeit auswertet und in eine hashtable schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver sollte das locker schaffen.
Wenn sie bedeutend kleiner sein kann, warum sind dann Domas' Dateien so groß?
Weil die hashtable als binary gespeichert wird.