Ich habe da immernoch einen riesigen Wunsch auf meinem Zettel: Zugriffs-Statistiken für die Artikel wären nach wie vor interessant. Dafür müsste man "nur" die Squids überreden, ein access.log zwar nicht auf die Platte zu schreiben, sondern in einen Filter zu pipen, der damit dann nur die Hits numerisch konsolidierend in eine Datenbank wegschreibt.
Eine entsprechende Software müsste man dann aber auf allen Squids installieren; derzeit haben wir so rund um 13000 requests/sec. Daraus die einelnen Zugriffszeiten nach Wiki und Artikel zu sortieren und diese Datenmasse dann zu verarbeiten, dürfte AFAIK extrem performancebelastend
Naja, Wikis sind's ja nicht sooo viele und Artikelnamen reichen ja als 32Bit-Hash (Geht ja nicht auf Leben&Tod, dass es 64Bit-Hashes braucht). Die Unschärfen aus dann während der Statistiklaufzeit verschobenen Artikeln kann man sicher überleben.
Will sagen: Datenbank (und ein Index) der gar nicht mal so groß wäre(<10MB). Da könnte man dann sogar noch getrennt nach "human Clientes" und "Robots/Spidern" zählen. Wäre alles prima kompakt mit SQLite zu machen, wenn man die dezentral gesammelten Datenbanken einmal täglich via Logrotation (und dann rsync&Co) irgendwo zentral zusammensammelt.
Die Arbeit, die Log-Datenbanken zu einer (auch nicht größeren) zusammenzubauen, das könnte dann "nicht zeitkritisch" offline auf irgendeinem Toolserver laufen.
-jha-