09-09-07, Michał Kosmulski michal.kosmulski@netsprint.pl napisał(a):
Istnieje obecnie kilka dużych korpusów języka polskiego, ale o ile wiem, wszystkie mają dość restrykcyjne licencje. Na przykład korpus IPI PAN można przeglądać za pomocą narzędzi dostępnych na licencji GPL (chwała im za to), ale sam korpus jako zbiór danych podlega takiej licencji, że nawet nie wolno przekonwertować danych na inny format nie mówiąc już o innych swobodach jak rozpowszechnianie czy modyfikacja.
Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich Wikipedię. Niestety nie doszło do tego - ze względu na problemy licencyjne. O ile mnie pamięć nie myli było to pod koniec 2005 r. Zwracaliśmy się z tym problemem do amerykańskiej Fundacji Wikimedia wtedy i oni uznali, że niestety się nie da.