23-10-07, Artur Fijałkowski <wiki.warx(a)gmail.com> napisał(a):
23-10-07, Tomasz Ganicz <polimerek(a)gmail.com>
napisał(a):
Jak będziemy mieli 10 milionów haseł i np: w tym
1000 artykułów o
różnych Janach Kowalskich - to znalezienie w tym gąszczu tego jednego,
którego się szuka stanie się problemem. Aktualnie Wikipedia jest wciąż
wbrew pozorom stosunkowo małą bazą danych (w porównaniu chociażby z
bazą danych ZUS, czy Chemical Abstracts). Początki tych problemów już
jednak widać w anglojęzycznej Wikipedii - a z czasem będą one rosły.
Raczej wiekszą bazą danych (w GB) natomiast o mniejszej liczbie rekordów ;)
Raczej sytuacja z 1000 Janów Kowalskich jest nieunikniona - skasowanie
nie-noblistów nazywających się Jan Kowalski to nie jest jednak metoda
;)
Nt rozmiarów bazy danych to chyba nie masz racji. Wg. tego co
twierdził kiedyś Brion Viber - wszystkie projekty Wikimedia (łącznie z
commons) zajmują raptem coś koło 1,5 TB. Tymczasem baza ZUSu zawiera
dane o wszystkich dawniej i obecnie zatrudnionych osobach w Polsce
(czyli coś koło 50 milionów ludzi) - przy czym o tych aktualnie
zatrudnionych każdy pracodawca wysyła pliki co miesiąc o rozmiarach ok
10 kB na osobę.
Ciekawy tekst o największych bazach danych na świecie jest na:
http://www.businessintelligencelowdown.com/2007/02/top_10_largest_.html
Nasza to naprawdę pikuś w porównaniu z World Data Centre for Climate -
220 TB - dostępnych przez WWW + 6 PB dostępnych na pamięci taśmowej
:-)
--
Tomek "Polimerek" Ganicz
http://pl.wikimedia.org/wiki/User:Polimerek
http://www.poli.toya.net.pl
http://www.ptchem.lodz.pl/en/TomaszGanicz.html