[Wikide-l] Wikistats, Andrea Kiewel und der ganze Rest
Lars Aronsson
lars at aronsson.se
Fr Dez 21 20:27:41 UTC 2007
Leon Weber schrieb:
> Ich arbeite an einer Software, die den UDP log stream der
> squid-server in Echtzeit auswertet und in eine hashtable
> schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver
> sollte das locker schaffen.
Wenn sie bedeutend kleiner sein kann, warum sind dann Domas'
Dateien so groß?
Meine tägliche Summierung für de.wp ist 41 MB mit 1,7 Mio
einzigartige URLs. Etwas davon ist uninteressant (z.B. alle
"Spezial:Suche/Etwas") und konnte wohl weggefiltert sein.
> Wenn du mit den hashtables noch mehr Dinge anfangen moechtest,
> kann ich sie gerne zur Verfuegung stellen.
Ich meine man sollte Rankinglisten für jede interessante
Zeitspanne schaffen. D.h. summieren (machst du wohl schon mit
deiner Hashtable), dann nach Anzahl sortieren und nummerieren,
also "sort|uniq -c|sort -nr|cat -n".
--
Lars Aronsson (lars at aronsson.se)
Aronsson Datateknik - http://aronsson.se