On Wed, Apr 02, 2003 at 09:07:51AM +0200, Krzysztof P. Jasiutowicz wrote:
Wg mnie ważniejsze są inne metody porównywania Wikipedii. Ktoś ostatnio wyliczył że WP-En ma 2,3 mln słów (może warto byłoby to zrobić dla większych wikipedii).
Poza tym na stronie http://www.wikipedia.org/Wikipedia:Statistics znajdują się (stare) wyliczenia dystrybucji wielkości artykułów na kilku Wikipediach
Z iloscia slow jest taki problem ze niektore jezyki sa preferowane, a innym sie obrywa. Porownanie to wypada np. na korzysc angielskiego, w ktorym jest mnostwo krotkich slow.
Ilosc znakow tez jest zalezna od jezyka. Generalnie jezyki o wiekszych alfabetach obrywaja w porownaniu z jezykami o mniejszych. Czyli angielski korzysta, polski mniej, czeskiemu sie juz nieco obrywa, za to chinski ... ;)
Paradoksalnie liczenie bajtow UTF-8 daje lepsze wyniki, bo znaki ASCII sa liczone za 1, znaki diaktryczne za 2, a ideogramy za 3.