Dnia czwartek, 28 września 2006 11:41, Gemma napisał:
Sprawdziłem, skrócone linki + formy typu [[Wrocław|Wrocławia]] na [[Wrocław]]ia + powtórzenia linków + bezsnsowne linkowanie do kilogramów czy metrów.
Pierwszy przykład z linkiem do Wrocławia i powtórzenia linków to błędy edytorskie a nie kwestia "poprawnego" wyboru czy troski o serwery. Co do linkowania jednostek uważam, że nie zawsze, ale jednak dość często ich linkowanie ma sens.
Baza jest w postaci kodu, polskie znaki są w postaci trójznaków, zaawansowana typografia tak samo, nawt prose cudzysłowy. Jakbyś zobaczył w pliku ascii jak to wszystko wygląda też byś ten tekst nazwał kodem.
Właśnie obejrzałem plik bazy. Da się czytać :) bez MySQL. Wewnątrz zwyczajny nieskompresowany wikitekst, poza znaczkami z ogonkami. Polskie znaki są w bazie zapisane w UTF-8 (dwa bajty na znak). Tak mam w mojej prywatnej wiki na silniku 1.66. W dumpie bazy znaczki z ogonkami rzeczywiście są zapisane 3 bajtami. Ale dump to przecież nie jest to, co jest zapisane w bazie!
Sugerujesz, że wszystkie znaki typograficzne, również te z zestawu podstawowego ANSI, jak np.: wspomniany prosty cudzysłów: " są zamieniane w coś innego, na przykład w jakieś UTF czy html entities? Mam u siebie 1.66, Wikipedia działa już na 1.8a, ale strzelam w ciemno, że kropka jest kropką a cudzysłów cudzysłowem, podobnie jak inne znaki z ASCII.
Liczyłem łącznie wszystkie błędy, także np. nadmiar nbsp, r. zamiast roku, w. zamiast wieku, kg. zamiast kilogramów, spacje po asteriskach
Boty do roboty? Poprawienie tych błędów nie zmniejszy bazy, tylko ją zwiększy - wzrośnie historia.
Tak, dump z artykułów. Z dyskusjami byłoby znacznie więcej. Skompresowane achiwum ma 160 MB, ale baza działająca na serwerze ma na pewno więcej niż jej dump.
Teksty w bazie nie są skompresowane bo to oczywiście zabiłoby wydajność serwera. Na wielkość bazy danych decydujący wpływ ma historia edycji, czyli sam mechanizm wiki. Moja baza w stosunku do dumpa to relacja 10:1. Tak, zdziwiłem się tym. Pytanie: czy jest to zależność liniowa. Pliki bazy, z tego co widzę, są nudne - mnóstwo zer. O bazie Wikipedii nie wypowiem się z oczywistych przyczyn - nie widziałem jej pliku. Może ktoś ma inną dużą bazę MySQL i mógłby porównać plik(i) /var/lib/mysql/ibdata* z dumpem zawartej w nich bazy?
Wnioski mam takie: żeby odchudzić serwery należałoby przede wszystkim pozbyć się lub odłożyć gdzieś "na półkę" historię edycji oraz ;) pisać krótkie artykuły najlepiej ich później nie modyfikując. Wpływ linków lub wielokrotnych enterów na wielkość bazy jest znikomy.
pzdr LukMak