Cześć.
Tak sobie właśnie uświadomiłem, że teksty z Wikipedii mogą stanowić niezły korpus języka polskiego ( http://pl.wikipedia.org/wiki/Korpus_%28j%C4%99zykoznawstwo%29 ). Na razie nie udało mi się znaleźć informacji o wykorzystywaniu Wikipedii w ten sposób, poza artykułem http://morfologik.blogspot.com/2006/12/wikipedia-jako-korpus-poprawek.html . Może ktoś zna więcej przykładów?
Biorąc pod uwagę samą tylko aktualną wersję bez historii zmian, mamy w polskiej Wikipedii około 1 GB tekstu w ok. 400000 artykułów. Jest to całkiem pokaźna objętość. Oczywiście mamy tylko surowy tekst, bez konkordancji czy innych dodatkowych danych na temat słów i ich wystąpień, ale wydaje mi się, że taka masa tekstu sama w sobie może stanowić sporą wartość dla osób zajmujących się lingwistyką czy niektórymi zagadnieniami z zakresu informatyki. Może w ramach promocji Wikipedii należałoby zachęcać osoby zajmujące się dziedzinami, w których używa się korpusów do wykorzystywania Wikipedii jako materiału?
Istnieje obecnie kilka dużych korpusów języka polskiego, ale o ile wiem, wszystkie mają dość restrykcyjne licencje. Na przykład korpus IPI PAN można przeglądać za pomocą narzędzi dostępnych na licencji GPL (chwała im za to), ale sam korpus jako zbiór danych podlega takiej licencji, że nawet nie wolno przekonwertować danych na inny format nie mówiąc już o innych swobodach jak rozpowszechnianie czy modyfikacja. Wikipedia mogłaby się więc wyróżnić dostępnością dla wszystkich na rozsądnych warunkach. Kiedy pisałem swoją pracę magisterską, bardzo przydałby mi się jakiś wolnodostępny korpus tekstów polskich czy angielskich, ale niestety te, które znalazłem, nawet jeśli mógłbym uzyskać bezpłatnie, w większości wymagały na tyle skomplikowanych procedur uzyskania zgody na wykorzystanie, że dałem sobie spokój (tylko korpus "20 newsgroups" można było wykorzystywać w miarę swobodnie). Gdyby ktoś mi wtedy podsunął pomysł skorzystania z Wikipedii, pewne sprawy znacznie by się uprościły. Może więc warto zacząć promować Wikipedię jako zbiór tekstów w jezyku polskim, przydatny do różnego rodzaju badań. Na pewno parę więcej publikacji, w których będzie wspomniana Wikipedia nie zaszkodzi, a technicznie można jej używać jako zbioru tekstów już teraz - wystarczy pobrać zrzut aktualnej wersji w formacie XML.
Pozdrawiam, Michał