[Wikipl-l] Wikipedia jako korpus języka polskiego

Michał Kosmulski michal.kosmulski w netsprint.pl
Nie, 9 Wrz 2007, 18:56:01 UTC


Cześć.

Tak sobie właśnie uświadomiłem, że teksty z Wikipedii mogą stanowić niezły korpus
języka polskiego ( http://pl.wikipedia.org/wiki/Korpus_%28j%C4%99zykoznawstwo%29
). Na razie nie udało mi się znaleźć informacji o wykorzystywaniu Wikipedii w ten
sposób, poza artykułem
http://morfologik.blogspot.com/2006/12/wikipedia-jako-korpus-poprawek.html .
Może ktoś zna więcej przykładów?

Biorąc pod uwagę samą tylko aktualną wersję bez historii zmian, mamy w polskiej
Wikipedii około 1 GB tekstu w ok. 400000 artykułów. Jest to całkiem pokaźna
objętość. Oczywiście mamy tylko surowy tekst, bez konkordancji czy innych
dodatkowych danych na temat słów i ich wystąpień, ale wydaje mi się, że taka masa
tekstu sama w sobie może stanowić sporą wartość dla osób zajmujących się
lingwistyką czy niektórymi zagadnieniami z zakresu informatyki. Może w ramach
promocji Wikipedii należałoby zachęcać osoby zajmujące się dziedzinami, w których
używa się korpusów do wykorzystywania Wikipedii jako materiału?

Istnieje obecnie kilka dużych korpusów języka polskiego, ale o ile wiem, wszystkie
mają dość restrykcyjne licencje. Na przykład korpus IPI PAN można przeglądać za
pomocą narzędzi dostępnych na licencji GPL (chwała im za to), ale sam korpus jako
zbiór danych podlega takiej licencji, że nawet nie wolno przekonwertować danych na
inny format nie mówiąc już o innych swobodach jak rozpowszechnianie czy
modyfikacja. Wikipedia mogłaby się więc wyróżnić dostępnością dla wszystkich na
rozsądnych warunkach. Kiedy pisałem swoją pracę magisterską, bardzo przydałby mi
się jakiś wolnodostępny korpus tekstów polskich czy angielskich, ale niestety te,
które znalazłem, nawet jeśli mógłbym uzyskać bezpłatnie, w większości wymagały na
tyle skomplikowanych procedur uzyskania zgody na wykorzystanie, że dałem sobie
spokój (tylko korpus "20 newsgroups" można było wykorzystywać w miarę swobodnie).
Gdyby ktoś mi wtedy podsunął pomysł skorzystania z Wikipedii, pewne sprawy
znacznie by się uprościły. Może więc warto zacząć promować Wikipedię jako zbiór
tekstów w jezyku polskim, przydatny do różnego rodzaju badań. Na pewno parę więcej
publikacji, w których będzie wspomniana Wikipedia nie zaszkodzi, a technicznie
można jej używać jako zbioru tekstów już teraz - wystarczy pobrać zrzut aktualnej
wersji w formacie XML.

Pozdrawiam,
Michał

-- 
Michal Kosmulski
http://www.netsprint.pl/
http://hektor.umcs.lublin.pl/~mikosmul/



Więcej informacji o liście dyskusyjnej WikiPL-l