23-10-07, Artur Fijałkowski wiki.warx@gmail.com napisał(a):
23-10-07, Tomasz Ganicz polimerek@gmail.com napisał(a):
Jak będziemy mieli 10 milionów haseł i np: w tym 1000 artykułów o różnych Janach Kowalskich - to znalezienie w tym gąszczu tego jednego, którego się szuka stanie się problemem. Aktualnie Wikipedia jest wciąż wbrew pozorom stosunkowo małą bazą danych (w porównaniu chociażby z bazą danych ZUS, czy Chemical Abstracts). Początki tych problemów już jednak widać w anglojęzycznej Wikipedii - a z czasem będą one rosły.
Raczej wiekszą bazą danych (w GB) natomiast o mniejszej liczbie rekordów ;) Raczej sytuacja z 1000 Janów Kowalskich jest nieunikniona - skasowanie nie-noblistów nazywających się Jan Kowalski to nie jest jednak metoda ;)
Nt rozmiarów bazy danych to chyba nie masz racji. Wg. tego co twierdził kiedyś Brion Viber - wszystkie projekty Wikimedia (łącznie z commons) zajmują raptem coś koło 1,5 TB. Tymczasem baza ZUSu zawiera dane o wszystkich dawniej i obecnie zatrudnionych osobach w Polsce (czyli coś koło 50 milionów ludzi) - przy czym o tych aktualnie zatrudnionych każdy pracodawca wysyła pliki co miesiąc o rozmiarach ok 10 kB na osobę.
Ciekawy tekst o największych bazach danych na świecie jest na:
http://www.businessintelligencelowdown.com/2007/02/top_10_largest_.html
Nasza to naprawdę pikuś w porównaniu z World Data Centre for Climate - 220 TB - dostępnych przez WWW + 6 PB dostępnych na pamięci taśmowej :-)