> Ich habe da immernoch einen riesigen Wunsch auf
meinem Zettel:
> Zugriffs-Statistiken für die Artikel wären nach wie vor interessant.
> Dafür müsste man "nur" die Squids überreden, ein access.log zwar
> nicht auf die Platte zu schreiben, sondern in einen Filter zu pipen,
> der damit dann nur die Hits numerisch konsolidierend in eine
> Datenbank wegschreibt.
Eine entsprechende Software müsste man dann aber auf
allen Squids
installieren; derzeit haben wir so rund um 13000 requests/sec. Daraus
die einelnen Zugriffszeiten nach Wiki und Artikel zu sortieren und
diese Datenmasse dann zu verarbeiten, dürfte AFAIK extrem
performancebelastend
Naja, Wikis sind's ja nicht sooo viele und Artikelnamen reichen ja als 32Bit-Hash
(Geht ja nicht auf Leben&Tod, dass es 64Bit-Hashes braucht). Die Unschärfen aus dann
während der Statistiklaufzeit verschobenen Artikeln kann man sicher überleben.
Will sagen: Datenbank (und ein Index) der gar nicht mal so groß wäre(<10MB). Da könnte
man dann sogar noch getrennt nach "human Clientes" und
"Robots/Spidern" zählen. Wäre alles prima kompakt mit SQLite zu machen, wenn man
die dezentral gesammelten Datenbanken einmal täglich via Logrotation (und dann
rsync&Co) irgendwo zentral zusammensammelt.
Die Arbeit, die Log-Datenbanken zu einer (auch nicht größeren) zusammenzubauen, das könnte
dann "nicht zeitkritisch" offline auf irgendeinem Toolserver laufen.
-jha-