Cześć.
Tak sobie właśnie uświadomiłem, że teksty z Wikipedii mogą stanowić niezły korpus języka polskiego ( http://pl.wikipedia.org/wiki/Korpus_%28j%C4%99zykoznawstwo%29 ). Na razie nie udało mi się znaleźć informacji o wykorzystywaniu Wikipedii w ten sposób, poza artykułem http://morfologik.blogspot.com/2006/12/wikipedia-jako-korpus-poprawek.html . Może ktoś zna więcej przykładów?
Biorąc pod uwagę samą tylko aktualną wersję bez historii zmian, mamy w polskiej Wikipedii około 1 GB tekstu w ok. 400000 artykułów. Jest to całkiem pokaźna objętość. Oczywiście mamy tylko surowy tekst, bez konkordancji czy innych dodatkowych danych na temat słów i ich wystąpień, ale wydaje mi się, że taka masa tekstu sama w sobie może stanowić sporą wartość dla osób zajmujących się lingwistyką czy niektórymi zagadnieniami z zakresu informatyki. Może w ramach promocji Wikipedii należałoby zachęcać osoby zajmujące się dziedzinami, w których używa się korpusów do wykorzystywania Wikipedii jako materiału?
Istnieje obecnie kilka dużych korpusów języka polskiego, ale o ile wiem, wszystkie mają dość restrykcyjne licencje. Na przykład korpus IPI PAN można przeglądać za pomocą narzędzi dostępnych na licencji GPL (chwała im za to), ale sam korpus jako zbiór danych podlega takiej licencji, że nawet nie wolno przekonwertować danych na inny format nie mówiąc już o innych swobodach jak rozpowszechnianie czy modyfikacja. Wikipedia mogłaby się więc wyróżnić dostępnością dla wszystkich na rozsądnych warunkach. Kiedy pisałem swoją pracę magisterską, bardzo przydałby mi się jakiś wolnodostępny korpus tekstów polskich czy angielskich, ale niestety te, które znalazłem, nawet jeśli mógłbym uzyskać bezpłatnie, w większości wymagały na tyle skomplikowanych procedur uzyskania zgody na wykorzystanie, że dałem sobie spokój (tylko korpus "20 newsgroups" można było wykorzystywać w miarę swobodnie). Gdyby ktoś mi wtedy podsunął pomysł skorzystania z Wikipedii, pewne sprawy znacznie by się uprościły. Może więc warto zacząć promować Wikipedię jako zbiór tekstów w jezyku polskim, przydatny do różnego rodzaju badań. Na pewno parę więcej publikacji, w których będzie wspomniana Wikipedia nie zaszkodzi, a technicznie można jej używać jako zbioru tekstów już teraz - wystarczy pobrać zrzut aktualnej wersji w formacie XML.
Pozdrawiam, Michał
Dnia Sun, 09 Sep 2007 20:56:01 +0200, Michał Kosmulski napisał(a):
Tak sobie właśnie uświadomiłem, że teksty z Wikipedii mogą stanowić niezły korpus języka polskiego
Jasne, sam używam Wikipedii w różnych językach gdy potrzebuję zdań przykładowych do haseł na Wikisłowniku. Niewątpliwą zaletą Wikipedii jest to, że łatwo znaleźć tu różne neologizmy i słownictwo techniczne związane z komputerami. Wadą - kiepska poprawność językowa. Sam ostatnio poprawiałem dwa błędy ortograficzne w haśle "Kraków", znalazłem też jeden w "Benedykt XVI"; "Alfred Hitchcock" zawierał błąd ortograficzny powtórzony 28 razy. Nawet u Niemców pełno jest błędów ortograficznych.
Jasne, sam używam Wikipedii w różnych językach gdy potrzebuję zdań przykładowych do haseł na Wikisłowniku. Niewątpliwą zaletą Wikipedii jest to, że łatwo znaleźć tu różne neologizmy i słownictwo techniczne związane z komputerami. Wadą - kiepska poprawność językowa. Sam ostatnio poprawiałem dwa błędy ortograficzne w haśle "Kraków", znalazłem też jeden w "Benedykt XVI"; "Alfred Hitchcock" zawierał błąd ortograficzny powtórzony 28 razy. Nawet u Niemców pełno jest błędów ortograficznych.
Te błędy trochę pogarszają sytuację - pewnie użytkownicy korpusów woleliby mieć teksty staranniej zredagowane :( A tak z ciekawości, to dlaczego akurat Niemcy mieliby robić mniej błędów niż kto inny? Michał
From: "Michał Kosmulski" Może w ramach promocji Wikipedii należałoby zachęcać osoby zajmujące się
dziedzinami, w których używa się korpusów do wykorzystywania Wikipedii jako materiału?
Jeśli chodzi o korpus języka polskiego, to jest to kompletna bzdura, gdyż taki korpus już istnieje pod nazwą Google i jest znacznie bardziej reprezentatywny w zakresie statystyki popałniania błędów ortograficznych, jak również częstotliwości występowania słów.
NIGDY I NIKOMU NIE PROPONUJ TAKICH RZECZY, bo ludzie z zewnątrz, niezorientowani co do naszych metod pracy, mogą całkowicie mylnie traktować Wikipedię jako coś reprezentatywnego w czymkolwiek językowo. Zresztą dziwię się w ogóle, że wpadłeś na taki pomysł. Czyżbyś nie zauważył, że po Wikipedii hasają boty kompletnie zaburzając statystykę występowania słów? A z kolei ortografia jest wypadkową rozwiązań ustalanych w dyskusjach + nieliczna grupa takich fanatyków jak ja, która pilotuje wybrane błędy językowe lub nawet narzuca ogółowi pewne rozwiązania.
Wikipedia jest językowo czysto redaktorskim projektem, czyli projektem o bardzo dużej arbitralności w sprawach językowych. Oznacza to, że na Korpus Języka Polskiego nie nadajemy się w ogóle.
Beno
Witam,
Dnia 9 września 2007 Gemma napisała:
NIGDY I NIKOMU NIE PROPONUJ TAKICH RZECZY, bo ludzie z zewnątrz, niezorientowani co do naszych metod pracy, mogą całkowicie mylnie traktować Wikipedię jako coś reprezentatywnego w czymkolwiek językowo.
Też o tym pomyślałem, że ew. błędy językowe na pewno nie są reprezentatywne, a to z racji działania botów.
A gdyby jako podstawę korpusu wykorzystać wszystkie strony dyskusji? Tam boty nie hasają.
Pozdrawiam, Robert
A gdyby jako podstawę korpusu wykorzystać wszystkie strony dyskusji? Tam boty nie hasają. Robert
Również nie, bo tam pisze się ze starannością właściwą dla roboczych notatek, a często są to w dodatku teksty pisane pod emocjami, co tym bardziej je zniekształca. To już nawet w Usenecie ludzie bardziej się starają.
Beno
09-09-07, Michał Kosmulski michal.kosmulski@netsprint.pl napisał(a):
Istnieje obecnie kilka dużych korpusów języka polskiego, ale o ile wiem, wszystkie mają dość restrykcyjne licencje. Na przykład korpus IPI PAN można przeglądać za pomocą narzędzi dostępnych na licencji GPL (chwała im za to), ale sam korpus jako zbiór danych podlega takiej licencji, że nawet nie wolno przekonwertować danych na inny format nie mówiąc już o innych swobodach jak rozpowszechnianie czy modyfikacja.
Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich Wikipedię. Niestety nie doszło do tego - ze względu na problemy licencyjne. O ile mnie pamięć nie myli było to pod koniec 2005 r. Zwracaliśmy się z tym problemem do amerykańskiej Fundacji Wikimedia wtedy i oni uznali, że niestety się nie da.
Tomasz Ganicz napisał(a):
Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich Wikipedię. Niestety nie doszło do tego - ze względu na problemy licencyjne. O ile mnie pamięć nie myli było to pod koniec 2005 r. Zwracaliśmy się z tym problemem do amerykańskiej Fundacji Wikimedia wtedy i oni uznali, że niestety się nie da.
Jakiego typu byly to problemy? Interesuje mnie , ktore zapisy GFDL sa klopotliwe dla uzytkownikow koncowych. W kwestiach licencyjnych amerykanska Fundacja nic nie pomoze, bo prawa autorskie zachowuja autorzy, i do zmiany warunkow konieczna bylaby zgoda kazdego z nich z osobna, co... no sami wiecie. pozdrawiam Lipszyc
-- Opole - Miasto Bez Granic. http://www.opole.pl - tu znajdziesz nowe miejsca, nowe mo¿liwo¶ci, nowe inspiracje...
09-09-07, Jaroslaw Lipszyc rekrutacja@gazeta.pl napisał(a):
Tomasz Ganicz napisał(a):
Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich Wikipedię. Niestety nie doszło do tego - ze względu na problemy licencyjne. O ile mnie pamięć nie myli było to pod koniec 2005 r. Zwracaliśmy się z tym problemem do amerykańskiej Fundacji Wikimedia wtedy i oni uznali, że niestety się nie da.
Jakiego typu byly to problemy? Interesuje mnie , ktore zapisy GFDL sa klopotliwe dla uzytkownikow koncowych. W kwestiach licencyjnych amerykanska Fundacja nic nie pomoze, bo prawa autorskie zachowuja autorzy, i do zmiany warunkow konieczna bylaby zgoda kazdego z nich z osobna, co... no sami wiecie.
Problemy były zasadniczo trzy: *pierwszy - że ta baza danych nie jest udostępniana w formie "jawnej kopii" - tylko w formie binarnej, której w dodatku wg. zasad udostępniania tej bazy nie wolno przetworzyć w inną formę i nie wolno w żaden sposób modyfikować - to jest w dość oczywisty sposób sprzeczne z GNU FDL *drugi - że nie ma jak w tej bazie dostępnej tylko w formie binarnej dodać informacji o źródle i autorach Wikipedii w sposób widoczny dla czytelnika *trzeci - baza jest copyrightowana przez IP PAN - tzn. IP PAN chciał mieć pełne prawa autorskie do całości bazy - z innymi dostarczycielami treści IP PAN podpisywał stosowne umowy z właścicielami praw autorskich, lub wykorzystywał teksty z domeny publicznej (np: prozę z XIX wieku, czy teksty ustaw i rozporządzeń) - dzięki czemu mógł potem sam decydować jak będzie udostępniał tę bazę.
IP PAN bardzo chciał włączyć Wikipedię do tego korpusu i ichni prawnicy kombinowali jak to zrobić. Mieli parę karkołomnych dość pomysłów i te pomysły przedstawiłem wtedy prawnikowi Fundacji - on jednak stwierdził, że tego nie da się zrobić i prawdopodobnie miał racę. Prawnik Fundacji tylko wydał swoją opinię - oczywiście Fundacja nie jest właścicielem praw autorskich do tekstów w Wikipedii - strzeże jednak zgodności ich użycia z licencją.
Była koncepcja, że przy dystrybucji bazy - wydzielą część wikipediową jako opcję - ta część miała być ściągalna oddzielnie. Po ściągnięciu byłaby przez oprogramowanie scalana z resztą bazy lub można by ją testować oddzielnie. Problem jednak nadal by był - bo wynikowe dzieło - czyli binarna baza tego korpusu z dołączonymi tekstami z Wikipedii - stawałoby się automatycznie GNU FDL w takim razie - bo w postaci binarnej - teksty z Wikipedii i innych źródeł byłyby i tak w sposób niemożliwy do oddzielenia "zmieszane". Z tego co wiem oni wtedy zrobili sobie korpus z Wikipedią - do własnych celów - na zasadzie dozwolonego użytku - ale nie mogli tego rozpowszechniać tak jak reszty bazy, bez naruszenia licencji.
Ta ich baza nie może też być objęta żadną wolną licencją, bo 50% jej zawartości to publikacje prasowe - do których oni mają dostęp dzięki podpisywaniu umów z wydawcami prasy. Wydawcy udostępniają im archiwa - pod warunkiem, że będą one włączone do bazy w formie binarnej i nie będzie można "ich wyciągnąć" z tej bazy. Np: jest tam całe archiwum Wyborczej...
Umowa licencyjna do tej bazy jest tutaj:
Każdy, kto ma pojęcie o GNU FDL widzi od razu, że tego nie da się ożenić.
Paradoksem tej sytuacji było, że program, którym to się obowiązkowo obsługuje jest na GPL.
Tomasz Ganicz napisał(a):
[ciaach]
Dzieki za wyczerpujaca odpowiedz. Chcialem wiedziec, bo jak sie domyslasz probuje zrozumiec jakie klopoty moga czekac na wolno licencjonowane podreczniki. Tutaj klopotem jest mieszanie tresci wolnych i niewolnych oraz koniecznosc podania wszystkich autorow. Z pierwszym nic nie zrobimy, ale drugie mnie martwi takze dlatego ze szalenie utrudnia korzystanie z zasobow wikipedii w dowolnym wolnym projekcie. Cwiczenie praktyczne: obecnie robie w ramach dzialanosci literackiej remiksy artykulow z wikipedii (http://antropologia.isns.uw.edu.pl/wiki/index.php?title=Specjalna:Contributi...) i caly czas sie zastanawiam jak przy tym oznaczac autorstwo. Jakies pomysly?
pozdrawiam Lipszyc
-- Opole - Miasto Bez Granic. http://www.opole.pl - tu znajdziesz nowe miejsca, nowe mo¿liwo¶ci, nowe inspiracje...
Ooo, fajna sprawa :) Można wyeksportowac plik z Wikipedii i dać import w innym projekcie. Wtedy w historii będą wszyscy autorzy. Można zrobić szablon, że bazowo tekst został... Mieliśmy takie szablony do artykułów czerpanych z Helionowego projektu.
przykuta
Dnia 10 września 2007 2:26 Jaroslaw Lipszyc rekrutacja@gazeta.pl napisał(a):
Tomasz Ganicz napisał(a):
[ciaach]
Dzieki za wyczerpujaca odpowiedz. Chcialem wiedziec, bo jak sie domyslasz probuje zrozumiec jakie klopoty moga czekac na wolno licencjonowane podreczniki. Tutaj klopotem jest mieszanie tresci wolnych i niewolnych oraz koniecznosc podania wszystkich autorow. Z pierwszym nic nie zrobimy, ale drugie mnie martwi takze dlatego ze szalenie utrudnia korzystanie z zasobow wikipedii w dowolnym wolnym projekcie. Cwiczenie praktyczne: obecnie robie w ramach dzialanosci literackiej remiksy artykulow z wikipedii (http://antropologia.isns.uw.edu.pl/wiki/index.php?title=Specjalna:Contributi...) i caly czas sie zastanawiam jak przy tym oznaczac autorstwo. Jakies pomysly?
pozdrawiam Lipszyc
-- Opole - Miasto Bez Granic. http://www.opole.pl - tu znajdziesz nowe miejsca, nowe mo¿liwo¶ci, nowe inspiracje...
WikiPL-l mailing list WikiPL-l@lists.wikimedia.org http://lists.wikimedia.org/mailman/listinfo/wikipl-l
10-09-07, Jaroslaw Lipszyc napisał(a):
Cwiczenie praktyczne: obecnie robie w ramach dzialanosci literackiej remiksy artykulow z wikipedii (http://antropologia.isns.uw.edu.pl/wiki/index.php?title=Specjalna:Contributi...) i caly czas sie zastanawiam jak przy tym oznaczac autorstwo. Jakies pomysly?
Swego czasu zmajstrowałem specjalny szablon specjalnie na to zadanie dla Nonsensopedii. Kod jest PD, więc spokojnie możesz z niego korzystać (jeśli tylko wasza wiki obsługuje funkcje parsera + interwiki do Wikipedii [a jeśli nie, to da się to chyba jakoś naprawić]). Całość jest na http://nonsensopedia.wikia.com/wiki/Szablon:Wikipedia.
Pzdr, odder
odder napisał(a):
Cwiczenie praktyczne: obecnie robie w ramach dzialanosci literackiej remiksy artykulow z wikipedii (http://antropologia.isns.uw.edu.pl/wiki/index.php?title=Specjalna:Contributi...) i caly czas sie zastanawiam jak przy tym oznaczac autorstwo. Jakies pomysly?
Swego czasu zmajstrowałem specjalny szablon specjalnie na to zadanie dla Nonsensopedii.
No pieknie, ale ja te remiksy zamierzam wydac drukiem. I co wtedy? pozdrawiam Lipszyc
-- Opole - Miasto Bez Granic. http://www.opole.pl - tu znajdziesz nowe miejsca, nowe mozliwosci, nowe inspiracje...
10-09-07, Jaroslaw Lipszyc rekrutacja@gazeta.pl napisał(a):
odder napisał(a):
Cwiczenie praktyczne: obecnie robie w ramach dzialanosci literackiej remiksy artykulow z wikipedii (http://antropologia.isns.uw.edu.pl/wiki/index.php?title=Specjalna:Contributi...) i caly czas sie zastanawiam jak przy tym oznaczac autorstwo. Jakies pomysly?
Swego czasu zmajstrowałem specjalny szablon specjalnie na to zadanie dla Nonsensopedii.
No pieknie, ale ja te remiksy zamierzam wydac drukiem. I co wtedy? pozdrawiam
Będziesz musiał licencję GNU FDL dodać napisaną petitem + jednolitą listę autorów - najlepiej jeszcze mniejszym maczkiem - razem jakieś 5 stron druku. Tak to Niemcy zrobili w przypadku Wikipress:
http://de.wikipedia.org/wiki/Wikipedia:WikiPress
From: "Tomasz Ganicz" Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich
Wikipedię.
Bardzo dobrze, że do tego nie doszło, bo najprawdopodobniej nie wiedzieli, na jakich zasadach nasz korpus powstaje. Owszem, na korpus nadajemy się jak wszystko, co jest pisane, ale tylko przy pełnej świadomości korzystających.
Trzeba pamiętać, aby zawsze informować potencjalnych pomysłodawców o cechach naszych teklstów, nawet za cenę utraty kolejnej okazji do promocji, co jak sądzę, wielu wikipedystom może przyjść z dużym trudem. Podnieta z promocji jest bowiem wielka.
Beno
10-09-07, Gemma studio@gemma.edu.pl napisał(a):
From: "Tomasz Ganicz" Kiedyś właśnie korpus IP PAN się do nas zwrócił, żeby włączyć do nich
Wikipedię.
Bardzo dobrze, że do tego nie doszło, bo najprawdopodobniej nie wiedzieli, na jakich zasadach nasz korpus powstaje. Owszem, na korpus nadajemy się jak wszystko, co jest pisane, ale tylko przy pełnej świadomości korzystających.
Trzeba pamiętać, aby zawsze informować potencjalnych pomysłodawców o cechach naszych teklstów, nawet za cenę utraty kolejnej okazji do promocji, co jak sądzę, wielu wikipedystom może przyjść z dużym trudem. Podnieta z promocji jest bowiem wielka.
Może się zdziwisz, ale oni mieli pełną świadomość tego. Mieli zamiar usunąć wszystkie hasła napisane przez boty - a kręciło ich właśnie to, że Wikipedia zawiera wiele typowych błędów językowych robionych często przez "ludność". Teksty z np: gazet, które stanowią ok 50% ich korpusu są obciążone jeszcze większymi odstępstwami od typowego języka "ulicy" - bo z jednej strony zawierają wiele zwrotów stosowanych tylko w gazetach, a z drugiej przechodzą przez korektę - może niezbyt dokładną, ale jednak. Oni chcieli po prostu mieć jak najwięcej źródeł różnych tekstów, bo czym więcej źródeł tym to się lepiej uśrednia. Wikipedia stanowiłaby może jakiś 1% tej bazy.
Może się zdziwisz, ale oni mieli pełną świadomość tego. Mieli zamiar Tomek "Polimerek" Ganicz
To dobrze. Jednak ludzie, którzy znają się na języku i potrafią z niego zawodowo korzystać w celach naukowych, na pewno wiedzą o Wikipedii, zatem nasza oferta byłaby do nich skierowana niepotrzebnie.
Natomiast pomysł autora wątku był taki, aby tę wiadomość o możliwości wykorzystania nas jako korpusu rozpropagować, a wtedy trafiłoby to do ludzi, do których nie powinno trafić. Strach pomyśleć chociazby o amatorskich spellcheckerach. Z kolei do pewnych statystyk świetnie nadaje się np. http://www.kurnik.pl/slownik/.
Podam kilka przykładów nietypowości Wikipedii:
- Rzeczypospolitej (z literą 'y') w rozumieniu republiki a nie gazety - mamy skrajną areprezentatywność. - Wojny, Bitwy, Powstania itp. - pisane wielką literą są u nas tylko na początku zdania - jw. - Ostatnia akcja usuwania skrótu pw. z haseł - jw.
Przykładów można mnożyć w setki, jeśli nie w tysiące.
Podsumuję więc: Wykształceni językoznawcy o możliwościach Wikipedii wiedzą. Reszta nie powinna być zachęcana do wykorzystywania jej od strony naukowej w zakresie językowym.
Beno