10-09-07, Gemma studio@gemma.edu.pl napisał(a):
From: "Tomasz Ganicz" Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich
Wikipedię.
Bardzo dobrze, że do tego nie doszło, bo najprawdopodobniej nie wiedzieli, na jakich zasadach nasz korpus powstaje. Owszem, na korpus nadajemy się jak wszystko, co jest pisane, ale tylko przy pełnej świadomości korzystających.
Trzeba pamiętać, aby zawsze informować potencjalnych pomysłodawców o cechach naszych teklstów, nawet za cenę utraty kolejnej okazji do promocji, co jak sądzę, wielu wikipedystom może przyjść z dużym trudem. Podnieta z promocji jest bowiem wielka.
Może się zdziwisz, ale oni mieli pełną świadomość tego. Mieli zamiar usunąć wszystkie hasła napisane przez boty - a kręciło ich właśnie to, że Wikipedia zawiera wiele typowych błędów językowych robionych często przez "ludność". Teksty z np: gazet, które stanowią ok 50% ich korpusu są obciążone jeszcze większymi odstępstwami od typowego języka "ulicy" - bo z jednej strony zawierają wiele zwrotów stosowanych tylko w gazetach, a z drugiej przechodzą przez korektę - może niezbyt dokładną, ale jednak. Oni chcieli po prostu mieć jak najwięcej źródeł różnych tekstów, bo czym więcej źródeł tym to się lepiej uśrednia. Wikipedia stanowiłaby może jakiś 1% tej bazy.