[Wikide-l] Diskussionen bereinigen
Paul Ebermann
Paul-Ebermann at gmx.de
Di Feb 20 09:55:42 UTC 2007
Daniel Arnold wrote:
> On Thursday 15 February 2007 15:38:09 Gustav König wrote:
>
>>wieviel geld würde denn gespart werden, wenn man eine diskussion so löscht,
>>dass sie nicht mehr auf einer platte ist?
>
> Zunächst einmal ist die Datenbank komprimiert, da machen viele Versionen
> änlicher Texte nicht viel aus. Um das nachzuvollziehen kannst du einmal zwei
> identische Texte unter verschiedenen Namen zusammen als ZIP packen und einmal
> nur einen der beiden Texte. Der Unterschied der beiden gepackten Dateien ist
> relativ klein.
Hast du das selbst ausprobiert?
Ich habe es gerade mal mit deiner E-Mail ausprobiert ...
---
$ zip -9 beispiel1.zip Diskussionen-bereinigen-Daniel-Arnold.eml
adding: Diskussionen-bereinigen-Daniel-Arnold.eml (deflated 65%)
$ zip -9 beispiel2.zip Diskussionen-bereinigen-Daniel-Arnold.eml
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
adding: Diskussionen-bereinigen-Daniel-Arnold.eml (deflated 65%)
adding: Diskussionen-bereinigen-Daniel-Arnold.eml.kopie (deflated 65%)
$ ls -l beispiel*
-rw----r-- 1 ebermann ma2000 3031 20. Feb 10:35 beispiel1.zip
-rw----r-- 1 ebermann ma2000 6052 20. Feb 10:36 beispiel2.zip
$
---
Die zweite Datei ist fast doppelt so groß :-)
Beim Zip-Format wird jede einzelne Datei in einem Archiv unabhängig
komprimiert, um ein einfaches Hinzufügen, Extrahieren und Löschen
einzelner Dateien daraus zu ermöglichen. Dies geht zu Lasten des
Komprimierungsgrades bei mehreren ähnlichen Dateien ...
Deswegen wird für Datei-Komprimierung mehrerer Dateien unter Unix
auch häufiger .tar.gz genommen (tar packt mehrere Dateien
(unkomprimiert in eine, gzip komprimiert dann das ganze)). Mit Zip
kann man das simulieren, indem man eine (unkomprimierte) ZIP-Datei in
eine weitere ZIP-Datei packt.
---
$ tar vzcf beispiel3.tar.gz Diskussionen-bereinigen-Daniel-Arnold.eml
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
Diskussionen-bereinigen-Daniel-Arnold.eml
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
$ zip -0 beispiel4.zip Diskussionen-bereinigen-Daniel-Arnold.eml
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
adding: Diskussionen-bereinigen-Daniel-Arnold.eml (stored 0%)
adding: Diskussionen-bereinigen-Daniel-Arnold.eml.kopie (stored 0%)
ebermann at feyd 2007-02-20 10:43 ~/diverses
$ zip -9 beispiel5.zip beispiel4.zip
adding: beispiel4.zip (deflated 81%)
$ ls -l beispiel*
-rw----r-- 1 ebermann ma2000 3031 20. Feb 10:44 beispiel1.zip
-rw----r-- 1 ebermann ma2000 6052 20. Feb 10:43 beispiel2.zip
-rw----r-- 1 ebermann ma2000 3075 20. Feb 10:40 beispiel3.tar.gz
-rw----r-- 1 ebermann ma2000 16396 20. Feb 10:42 beispiel4.zip
-rw----r-- 1 ebermann ma2000 3258 20. Feb 10:43 beispiel5.zip
---
Um zum Thema zurückzukommen: Zum Glück werden bei MediaWiki
(zumindest bei der Wikipedia-Variante) jeweils 20 Versionen zusammen
komprimiert, und damit kann schon ein Großteil des Platzes gespart
werden. (Disclaimer: Diese Information von mir ist schon einige
Monate alt, es kann sein, dass es inzwischen wieder anders optimiert
wird ...)
Paul