Daniel Arnold:
Es wird nach wie vor Gzip in der von dir beschriebenen Form verwendet. Bzip2 wäre zwar besser, allerdings ist der Unterschied nicht so groß. Gzip reduziert die Datenbank nach dem was ich weiß auf ca. 15%, Bzip2 auf 10%. Der Mehraufwand für Bzip2 lohnt also nicht angesichts des exponentiellem Wachstum der Wikipediadatenbank (Das Speichern der Differenzen und gemeinsame Kompression dieser Differenzen bringt ebenfalls kaum Platzersparnis, würde aber sehr viel mehr Rechenzeit kosten).
Gzip arbeitet mit einem 32kB-Fenster, d.h. die Komprimierung ist nur dann hoch, wenn die Seiten nicht viel länger als 30000 Zeichen sind. Die meisten Artikeldiskussionsseiten dürften kürzer sein. Wenn man wirklich besorgt ist wegen der Datenbankaufblähung, sollte man sich eher Gedanken zu "Fragen zur Wikipedia", den Löschkandidatenseiten oder ähnlichen Projektseiten machen.
Aber solange sich keiner der Techniker beschwert, sehe ich keinen Grund, überhaupt etwas zu löschen.
Ich hatte schon vor 2 Jahren einmal untersucht, welche Namensräume für den meisten Platzverbrauch verantwortlich sind [1]. Spalte "cd" in der Tabelle auf dieser Seite gibt den Platzverbrauch nach Aneinanderhängen von jeweils 20 Versionen und Kompression mit gzip an. Wie man sieht, hat der Wikipedia-Namensraum (4) ca. 50%, der Artikeldiskussions- Namensraum (1) aber nur ca. 10% des Gesamtspeicherbedarfs. Viel dürfte sich bis heute an den Verhältnissen nicht geändert haben.
Gleichzeitig kann man auf dieser Seite sehen, dass es eine Methode gibt, die ca. 80% des Speicherplatzes für die Seitentexte einspart. Ich hatte das damals den Technikern vorgeschlagen und sogar fast fertig programmiert. Das Interesse hielt sich aber in Grenzen, vermutlich weil die Datenmengen für die Wikimedia-Server eben kein großes Problem sind. Problematisch werden sie erst für diejenigen, die die History-Dumps analysieren möchten und deren Programme sich dann durch hunderte von Gigabyte extrem redundanter Daten wühlen müssen.
[1] http://meta.wikimedia.org/wiki/User:El/History_compression