[Wikide-l] Diskussionen bereinigen

Paul Ebermann Paul-Ebermann at gmx.de
Di Feb 20 09:55:42 UTC 2007


Daniel Arnold wrote:
> On Thursday 15 February 2007 15:38:09 Gustav König wrote:
> 
>>wieviel geld würde denn gespart werden, wenn man eine diskussion so löscht,
>>dass sie nicht mehr auf einer platte ist?
> 
> Zunächst einmal ist die Datenbank komprimiert, da machen viele Versionen 
> änlicher Texte nicht viel aus. Um das nachzuvollziehen kannst du einmal zwei 
> identische Texte unter verschiedenen Namen zusammen als ZIP packen und einmal 
> nur einen der beiden Texte. Der Unterschied der beiden gepackten Dateien ist 
> relativ klein.

Hast du das selbst ausprobiert?

Ich habe es gerade mal mit deiner E-Mail ausprobiert ...

---
$ zip -9 beispiel1.zip Diskussionen-bereinigen-Daniel-Arnold.eml
   adding: Diskussionen-bereinigen-Daniel-Arnold.eml (deflated 65%)

$ zip -9 beispiel2.zip Diskussionen-bereinigen-Daniel-Arnold.eml 
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
   adding: Diskussionen-bereinigen-Daniel-Arnold.eml (deflated 65%)
   adding: Diskussionen-bereinigen-Daniel-Arnold.eml.kopie (deflated 65%)

$ ls -l beispiel*
-rw----r-- 1 ebermann ma2000 3031 20. Feb 10:35 beispiel1.zip
-rw----r-- 1 ebermann ma2000 6052 20. Feb 10:36 beispiel2.zip

$
---
Die zweite Datei ist fast doppelt so groß :-)

Beim Zip-Format wird jede einzelne Datei in einem Archiv unabhängig 
komprimiert, um ein einfaches Hinzufügen, Extrahieren und Löschen 
einzelner Dateien daraus zu ermöglichen. Dies geht zu Lasten des 
Komprimierungsgrades bei mehreren ähnlichen Dateien ...

Deswegen wird für Datei-Komprimierung mehrerer Dateien unter Unix 
auch häufiger .tar.gz genommen (tar packt mehrere Dateien 
(unkomprimiert in eine, gzip komprimiert dann das ganze)). Mit Zip 
kann man das simulieren, indem man eine (unkomprimierte) ZIP-Datei in 
eine weitere ZIP-Datei packt.

---
$ tar vzcf beispiel3.tar.gz Diskussionen-bereinigen-Daniel-Arnold.eml 
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
Diskussionen-bereinigen-Daniel-Arnold.eml
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie

$ zip -0 beispiel4.zip Diskussionen-bereinigen-Daniel-Arnold.eml 
Diskussionen-bereinigen-Daniel-Arnold.eml.kopie
   adding: Diskussionen-bereinigen-Daniel-Arnold.eml (stored 0%)
   adding: Diskussionen-bereinigen-Daniel-Arnold.eml.kopie (stored 0%)

ebermann at feyd 2007-02-20 10:43  ~/diverses
$ zip -9 beispiel5.zip beispiel4.zip
   adding: beispiel4.zip (deflated 81%)

$ ls -l beispiel*
-rw----r-- 1 ebermann ma2000  3031 20. Feb 10:44 beispiel1.zip
-rw----r-- 1 ebermann ma2000  6052 20. Feb 10:43 beispiel2.zip
-rw----r-- 1 ebermann ma2000  3075 20. Feb 10:40 beispiel3.tar.gz
-rw----r-- 1 ebermann ma2000 16396 20. Feb 10:42 beispiel4.zip
-rw----r-- 1 ebermann ma2000  3258 20. Feb 10:43 beispiel5.zip
---

Um zum Thema zurückzukommen: Zum Glück werden bei MediaWiki 
(zumindest bei der Wikipedia-Variante) jeweils 20 Versionen zusammen 
komprimiert, und damit kann schon ein Großteil des Platzes gespart 
werden. (Disclaimer: Diese Information von mir ist schon einige 
Monate alt, es kann sein, dass es inzwischen wieder anders optimiert 
wird ...)


Paul