On Wed, Apr 02, 2003 at 09:07:51AM +0200, Krzysztof P. Jasiutowicz wrote:
Wg mnie ważniejsze są inne metody porównywania
Wikipedii. Ktoś ostatnio
wyliczył że WP-En ma 2,3 mln słów (może warto byłoby to zrobić dla większych
wikipedii).
Poza tym na stronie
http://www.wikipedia.org/Wikipedia:Statistics
znajdują się (stare) wyliczenia dystrybucji wielkości artykułów na kilku
Wikipediach
Z iloscia slow jest taki problem ze niektore jezyki sa preferowane, a innym sie obrywa.
Porownanie to wypada np. na korzysc angielskiego, w ktorym jest mnostwo krotkich slow.
Ilosc znakow tez jest zalezna od jezyka. Generalnie jezyki o wiekszych
alfabetach obrywaja w porownaniu z jezykami o mniejszych.
Czyli angielski korzysta, polski mniej, czeskiemu sie juz nieco obrywa,
za to chinski ... ;)
Paradoksalnie liczenie bajtow UTF-8 daje lepsze wyniki, bo
znaki ASCII sa liczone za 1, znaki diaktryczne za 2,
a ideogramy za 3.