[Wikipl-l] Wikipedia jako korpus języka polskiego

Gemma studio w gemma.edu.pl
Nie, 9 Wrz 2007, 19:50:25 UTC


> From: "Michał Kosmulski"
> Może w ramach promocji Wikipedii należałoby zachęcać osoby zajmujące się
dziedzinami, w których używa się korpusów do wykorzystywania Wikipedii jako
materiału?

Jeśli chodzi o korpus języka polskiego, to jest to kompletna bzdura, gdyż
taki korpus już istnieje pod nazwą Google i jest znacznie bardziej
reprezentatywny w zakresie statystyki popałniania błędów ortograficznych,
jak również częstotliwości występowania słów.

NIGDY I NIKOMU NIE PROPONUJ TAKICH RZECZY, bo ludzie z zewnątrz,
niezorientowani co do naszych metod pracy, mogą całkowicie mylnie traktować
Wikipedię jako coś reprezentatywnego w czymkolwiek językowo. Zresztą dziwię
się w ogóle, że wpadłeś na taki pomysł. Czyżbyś nie zauważył, że po
Wikipedii hasają boty kompletnie zaburzając statystykę występowania słów? A
z kolei ortografia jest wypadkową rozwiązań ustalanych w dyskusjach +
nieliczna grupa takich fanatyków jak ja, która pilotuje wybrane błędy
językowe lub nawet narzuca ogółowi pewne rozwiązania.

Wikipedia jest językowo czysto redaktorskim projektem, czyli projektem o
bardzo dużej arbitralności w sprawach językowych. Oznacza to, że na Korpus
Języka Polskiego nie nadajemy się w ogóle.

Beno




Więcej informacji o liście dyskusyjnej WikiPL-l