Witajcie,
w oparciu o akcję społeczną Pracowni Prostej Polszczyzny Uniwersytetu Wrocławskiego powstała aplikacja online do sprawdzania przystępności i zrozumiałości tekstów pisanych po polsku
Dyskusyjną jest sprawą czy zastosowana metodologia jest poprawna i kto ma ustalać granice zrozumiałości.
W ramach eksperymentu i z czystej ciekawości postanowiłem sprawdzić jaki wynik uzyskają akapity wstępne kilku medalowych haseł, które ostatnio były na stronie głównej.
AFAIK w medalowych akapit wstępny wg naszych wytycznych powinien być zrozumiały dla licealisty (tak?)
W teście FOG uzyskujemy wyniki zwykle powyżej 13, co ponoć nie jest zalecane, a odpowiada poziomowi studiów wyższych.
Jest to taka ciekawostka, choć może nie jest zupełnie off-topic.
Pozdrowienia, Kpjas.
P.S powyższy tekst poddany analizie FOG uzyskał wynik 11-12
Świetne narzędzie, można użyć do weryfikacji poziomu haseł :P
Pablo000
Można porównać z en.wiki, np.: http://www.read-able.com/check.php?uri=http%3A%2F%2Fen.wikipedia.org%2Fwiki%... "This page has an average grade level of about 7. It should be easily understood by 12 to 13 year olds."
Ale należy pamiętać że język angielski jest trochę inny. Kruk E.A.Poe w oryginale ma 10 a jego polskie tłumaczenia w większości 7-8, jedno 9-10 (Maciej Froński) i jedno zostało sklasyfikowane jako 1-6 (Barbara Beaupre). Osobiście nawet ostatni tekst bym oceniał na poziomie liceum. Trochę szkoda że nie publikują ile wyrazów oceniono jako skomplikowane etc. Plushy
Witam,
Dnia 17 sierpnia 2012 Jakub K. napisał:
Można porównać z en.wiki, np.: http://www.read-able.com/check.php?uri=http%3A%2F%2Fen.wikipedia.org%2Fwiki%... "This page has an average grade level of about 7. It should be easily understood by 12 to 13 year olds."
Ale należy pamiętać że język angielski jest trochę inny.
Ano właśnie. Indeks Gunning-Fog uzależniony jest od liczby tzw. "complex words", za które autorzy indeksu uznają słowa o 3 sylabach i więcej (por. http://en.wikipedia.org/wiki/Gunning_fog_index).
Słowa polskie są generalnie dłuższe i przez to do wyników nie da się zastosować skali stworzonej dla tekstów po angielsku.
Takich indeksów jest sporo: http://www.editcentral.com/gwt1/EditCentral.html nie wiem czy któryś jest używany powszechnie w Polsce.
Pozdrawiam, Robert
Witam,
Dnia 20 sierpnia 2012 Marek Mazurkiewicz napisał:
W podlinkowanym materialne napisano: "Wykorzystujemy indeks mglistości
Roberta Gunninga* dostosowany do specyfiki polszczyzny.*"
Ale bez wyjaśnienia, na czym to dostosowanie polegało (uznanie za trudne dopiero dłuższych słów?), trudno to ocenić.
Pozdrawiam, Robert
W dniu 2012-08-20 22:21, Robert Drózd pisze:
Witam,
Dnia 20 sierpnia 2012 Marek Mazurkiewicz napisał:
W podlinkowanym materialne napisano: "Wykorzystujemy indeks mglistości
Roberta Gunninga* dostosowany do specyfiki polszczyzny.*"
Ale bez wyjaśnienia, na czym to dostosowanie polegało (uznanie za trudne dopiero dłuższych słów?), trudno to ocenić.
Poddałem analizie tekst o oocyście i prawidłowo go podsumowało jako trudny 13-17. Co więcej, prostszy nie będzie, bo nie ma jak tego inaczej opisać, a przy tym nie wprowadzać błędów czy nieścisłości.
Połowę z badanych przeze mnie tekstów (ok. 20) z mojej dziedziny oceniło na powyżej 18. reszta nie była mniejsza niż 13. Ale bez szerszych informacji dot. algorytmu działania nie można stwierdzić czy ocena może być uznana za wiarygodną.
Pozdrawiam, Karol007
Poddałem analizie tekst o oocyście i prawidłowo go podsumowało jako trudny 13-17. Co więcej, prostszy nie będzie, bo nie ma jak tego inaczej opisać, a przy tym nie wprowadzać błędów czy nieścisłości.
Połowę z badanych przeze mnie tekstów (ok. 20) z mojej dziedziny oceniło na powyżej 18. reszta nie była mniejsza niż 13. Ale bez szerszych informacji dot. algorytmu działania nie można stwierdzić czy ocena może być uznana za wiarygodną.
Pozdrawiam, Karol007
Nie wiem, jak to jest liczone, ale identycznie (na 13-17) został oceniony pierwszy akapit w hasłach "poezja metafizyczna" i "Czarnoksiężnik z Krainy Oz". IMO gołym okiem widać, że teksty mają zdecydowanie różny poziom trudności. Ba, na 11-12 (matura) zostały ocenione dwa pierwsze akapity opisu treści "Czarnoksiężnika"! A nie wydaje mi się, by moje streszczenie używało trudniejszych wyrazów czy konstrukcji stylistycznych niż oryginał (tzn. polskie tłumaczenie) utworu. Albo ten algorytm jest do d, albo literatura pisana dla dzieci młodszych jest przyswajalna dopiero na poziomie maturalnym...
Gytha
From: Gytha gyda.ogg@gmail.com Sent: Friday, September 07, 2012 12:35 PM
Nie wiem, jak to jest liczone,
To ja spróbuję wyjaśnień na poziomie najbardziej ogólnym, bez wnikania w specyfikę różnych pism i języków. Trudność tekstu bez znajomości języka można ocenić na podstawie długości użytych w nim wyrazów i zbudowanych z nich zdań - im średnia długość większa, tym tekst jest uznawany za trudniejszy. Tyle może przeanalizować każdy dobry procesor tekstu, np. Writer z LibreOffice, więc popatrzmy, jak to wygląda na przytoczonych przykładach.
ale identycznie (na 13-17) został oceniony pierwszy akapit w hasłach "poezja metafizyczna"
znaków bez spacji: 548 średnia długość wyrazu, znaków: 6,93 wyrazów: 79 średnia długość zdania, wyrazów: 19,75 zdań: 4 średnia długość zdania, znaków: 137
i "Czarnoksiężnik z Krainy Oz".
znaków bez spacji: 382 średnia długość wyrazu, znaków: 5,78 wyrazów: 66 średnia długość zdania, wyrazów: 22 zdań: 3 średnia długość zdania, znaków: 127,33
IMO gołym okiem widać, że teksty mają zdecydowanie różny poziom trudności.
Czyżby? Może wyrazy są krótsze, ale zdania mają ich więcej.
Ba, na 11-12 (matura) zostały ocenione dwa pierwsze akapity opisu treści "Czarnoksiężnika"!
znaków bez spacji: 1048 średnia długość wyrazu, znaków: 5,63 wyrazów: 186 średnia długość zdania, wyrazów: 18,6 zdań: 10 średnia długość zdania, znaków: 104,8
Jak widać, faktycznie opis jest napisany nieco prostszym językiem, ale pominęliśmy analizę leksykalną i składniową, których bez wiedzy o danym języku nie da się przeprowadzić i uwzględnić w algorytmach.
A nie wydaje mi się, by moje streszczenie używało trudniejszych wyrazów czy konstrukcji stylistycznych niż oryginał (tzn. polskie tłumaczenie) utworu. Albo ten algorytm jest do d, albo literatura pisana dla dzieci młodszych jest przyswajalna dopiero na poziomie maturalnym...
Z punktu widzenia leksykalnego o wysokim poziomie trudności świadczy np. występowanie zapożyczeń, wyrazów obcych czy słów rzadko używanych. Mając korpus języka i jakieś zasoby słownikowe można bez wątpienia te dane uwzględnić w algorytmach.
Z punktu widzenia składniowego wysoki poziom trudności oznacza występowanie zdań złożonych podrzędnie, zdań złożonych wielokrotnie, strony biernej, równoważników zdania czy imiesłowów. To też się da jakoś uwzględnić w algorytmach (np. przez zliczanie konstrukcji spójnikowych i zaimkowych charakterystycznych dla zdań złożonych podrzędnie).
Teraz popatrzmy na opis „Czarnoksiężnika” - są w nim długie wyrazy, imiesłowy czy zdania złożone? Są, więc to na pewno nie jest opis na poziomie pierwszych klas podstawówki. Nawet proste zdanie „Budzi ją wstrząs spowodowany lądowaniem domku” nie jest typowe dla poziomu podstawowego. W przekazie dziecka brzmiałoby ono raczej „Jak domek lądował, to go zatrzęsło i się obudziła.” Porównanie leksykalne i składniowe obu zdań pozostawiam wnikliwym czytelnikom.