From: Gytha gyda.ogg@gmail.com Sent: Friday, September 07, 2012 12:35 PM
Nie wiem, jak to jest liczone,
To ja spróbuję wyjaśnień na poziomie najbardziej ogólnym, bez wnikania w specyfikę różnych pism i języków. Trudność tekstu bez znajomości języka można ocenić na podstawie długości użytych w nim wyrazów i zbudowanych z nich zdań - im średnia długość większa, tym tekst jest uznawany za trudniejszy. Tyle może przeanalizować każdy dobry procesor tekstu, np. Writer z LibreOffice, więc popatrzmy, jak to wygląda na przytoczonych przykładach.
ale identycznie (na 13-17) został oceniony pierwszy akapit w hasłach "poezja metafizyczna"
znaków bez spacji: 548 średnia długość wyrazu, znaków: 6,93 wyrazów: 79 średnia długość zdania, wyrazów: 19,75 zdań: 4 średnia długość zdania, znaków: 137
i "Czarnoksiężnik z Krainy Oz".
znaków bez spacji: 382 średnia długość wyrazu, znaków: 5,78 wyrazów: 66 średnia długość zdania, wyrazów: 22 zdań: 3 średnia długość zdania, znaków: 127,33
IMO gołym okiem widać, że teksty mają zdecydowanie różny poziom trudności.
Czyżby? Może wyrazy są krótsze, ale zdania mają ich więcej.
Ba, na 11-12 (matura) zostały ocenione dwa pierwsze akapity opisu treści "Czarnoksiężnika"!
znaków bez spacji: 1048 średnia długość wyrazu, znaków: 5,63 wyrazów: 186 średnia długość zdania, wyrazów: 18,6 zdań: 10 średnia długość zdania, znaków: 104,8
Jak widać, faktycznie opis jest napisany nieco prostszym językiem, ale pominęliśmy analizę leksykalną i składniową, których bez wiedzy o danym języku nie da się przeprowadzić i uwzględnić w algorytmach.
A nie wydaje mi się, by moje streszczenie używało trudniejszych wyrazów czy konstrukcji stylistycznych niż oryginał (tzn. polskie tłumaczenie) utworu. Albo ten algorytm jest do d, albo literatura pisana dla dzieci młodszych jest przyswajalna dopiero na poziomie maturalnym...
Z punktu widzenia leksykalnego o wysokim poziomie trudności świadczy np. występowanie zapożyczeń, wyrazów obcych czy słów rzadko używanych. Mając korpus języka i jakieś zasoby słownikowe można bez wątpienia te dane uwzględnić w algorytmach.
Z punktu widzenia składniowego wysoki poziom trudności oznacza występowanie zdań złożonych podrzędnie, zdań złożonych wielokrotnie, strony biernej, równoważników zdania czy imiesłowów. To też się da jakoś uwzględnić w algorytmach (np. przez zliczanie konstrukcji spójnikowych i zaimkowych charakterystycznych dla zdań złożonych podrzędnie).
Teraz popatrzmy na opis „Czarnoksiężnika” - są w nim długie wyrazy, imiesłowy czy zdania złożone? Są, więc to na pewno nie jest opis na poziomie pierwszych klas podstawówki. Nawet proste zdanie „Budzi ją wstrząs spowodowany lądowaniem domku” nie jest typowe dla poziomu podstawowego. W przekazie dziecka brzmiałoby ono raczej „Jak domek lądował, to go zatrzęsło i się obudziła.” Porównanie leksykalne i składniowe obu zdań pozostawiam wnikliwym czytelnikom.