[Wikide-l] Wikistats, Andrea Kiewel und der ganze Rest

Lars Aronsson lars at aronsson.se
Fr Dez 21 20:27:41 UTC 2007


Leon Weber schrieb:

> Ich arbeite an einer Software, die den UDP log stream der 
> squid-server in Echtzeit auswertet und in eine hashtable 
> schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver 
> sollte das locker schaffen.

Wenn sie bedeutend kleiner sein kann, warum sind dann Domas' 
Dateien so groß?

Meine tägliche Summierung für de.wp ist 41 MB mit 1,7 Mio 
einzigartige URLs.  Etwas davon ist uninteressant (z.B. alle 
"Spezial:Suche/Etwas") und konnte wohl weggefiltert sein.

> Wenn du mit den hashtables noch mehr Dinge anfangen moechtest, 
> kann ich sie gerne zur Verfuegung stellen.

Ich meine man sollte Rankinglisten für jede interessante 
Zeitspanne schaffen.  D.h. summieren (machst du wohl schon mit 
deiner Hashtable), dann nach Anzahl sortieren und nummerieren, 
also "sort|uniq -c|sort -nr|cat -n".



-- 
  Lars Aronsson (lars at aronsson.se)
  Aronsson Datateknik - http://aronsson.se