Leon Weber schrieb:
Ich arbeite an einer Software, die den UDP log stream der squid-server in Echtzeit auswertet und in eine hashtable schreibt. Die ist bedeutend kleiner als 100MB und der Toolserver sollte das locker schaffen.
Wenn sie bedeutend kleiner sein kann, warum sind dann Domas' Dateien so groß?
Meine tägliche Summierung für de.wp ist 41 MB mit 1,7 Mio einzigartige URLs. Etwas davon ist uninteressant (z.B. alle "Spezial:Suche/Etwas") und konnte wohl weggefiltert sein.
Wenn du mit den hashtables noch mehr Dinge anfangen moechtest, kann ich sie gerne zur Verfuegung stellen.
Ich meine man sollte Rankinglisten für jede interessante Zeitspanne schaffen. D.h. summieren (machst du wohl schon mit deiner Hashtable), dann nach Anzahl sortieren und nummerieren, also "sort|uniq -c|sort -nr|cat -n".