[Wikide-l] Diskussionen bereinigen

elwp at gmx.de elwp at gmx.de
Mi Feb 21 17:55:23 UTC 2007


Daniel Arnold:
> Es wird nach wie vor Gzip in der von dir beschriebenen Form verwendet.
> Bzip2 wäre zwar besser, allerdings ist der Unterschied nicht so groß.
> Gzip reduziert die Datenbank nach dem was ich weiß auf ca. 15%, Bzip2
> auf 10%. Der Mehraufwand für Bzip2 lohnt also nicht angesichts
> des exponentiellem Wachstum der Wikipediadatenbank (Das Speichern der
> Differenzen und gemeinsame Kompression dieser Differenzen bringt
> ebenfalls kaum Platzersparnis, würde aber sehr viel mehr Rechenzeit
> kosten).

Gzip arbeitet mit einem 32kB-Fenster, d.h. die Komprimierung ist nur dann
hoch, wenn die Seiten nicht viel länger als 30000 Zeichen sind. Die
meisten Artikeldiskussionsseiten dürften kürzer sein. Wenn man wirklich
besorgt ist wegen der Datenbankaufblähung, sollte man sich eher Gedanken
zu "Fragen zur Wikipedia", den Löschkandidatenseiten oder ähnlichen
Projektseiten machen.

Aber solange sich keiner der Techniker beschwert, sehe ich keinen Grund,
überhaupt etwas zu löschen.

Ich hatte schon vor 2 Jahren einmal untersucht, welche Namensräume für
den meisten Platzverbrauch verantwortlich sind [1]. Spalte "cd" in der
Tabelle auf dieser Seite gibt den Platzverbrauch nach Aneinanderhängen
von jeweils 20 Versionen und Kompression mit gzip an. Wie man sieht,
hat der Wikipedia-Namensraum (4) ca. 50%, der Artikeldiskussions-
Namensraum (1) aber nur ca. 10% des Gesamtspeicherbedarfs. Viel dürfte
sich bis heute an den Verhältnissen nicht geändert haben.

Gleichzeitig kann man auf dieser Seite sehen, dass es eine Methode gibt,
die ca. 80% des Speicherplatzes für die Seitentexte einspart. Ich hatte
das damals den Technikern vorgeschlagen und sogar fast fertig
programmiert. Das Interesse hielt sich aber in Grenzen, vermutlich weil
die Datenmengen für die Wikimedia-Server eben kein großes Problem sind.
Problematisch werden sie erst für diejenigen, die die History-Dumps
analysieren möchten und deren Programme sich dann durch hunderte von
Gigabyte extrem redundanter Daten wühlen müssen.

[1] http://meta.wikimedia.org/wiki/User:El/History_compression

-- 
"Feel free" - 10 GB Mailbox, 100 FreeSMS/Monat ...
Jetzt GMX TopMail testen: www.gmx.net/de/go/mailfooter/topmail-out