From: "Michał Kosmulski" Może w ramach promocji Wikipedii należałoby zachęcać osoby zajmujące się
dziedzinami, w których używa się korpusów do wykorzystywania Wikipedii jako materiału?
Jeśli chodzi o korpus języka polskiego, to jest to kompletna bzdura, gdyż taki korpus już istnieje pod nazwą Google i jest znacznie bardziej reprezentatywny w zakresie statystyki popałniania błędów ortograficznych, jak również częstotliwości występowania słów.
NIGDY I NIKOMU NIE PROPONUJ TAKICH RZECZY, bo ludzie z zewnątrz, niezorientowani co do naszych metod pracy, mogą całkowicie mylnie traktować Wikipedię jako coś reprezentatywnego w czymkolwiek językowo. Zresztą dziwię się w ogóle, że wpadłeś na taki pomysł. Czyżbyś nie zauważył, że po Wikipedii hasają boty kompletnie zaburzając statystykę występowania słów? A z kolei ortografia jest wypadkową rozwiązań ustalanych w dyskusjach + nieliczna grupa takich fanatyków jak ja, która pilotuje wybrane błędy językowe lub nawet narzuca ogółowi pewne rozwiązania.
Wikipedia jest językowo czysto redaktorskim projektem, czyli projektem o bardzo dużej arbitralności w sprawach językowych. Oznacza to, że na Korpus Języka Polskiego nie nadajemy się w ogóle.
Beno