From: Gytha <gyda.ogg(a)gmail.com>
Sent: Friday, September 07, 2012 12:35 PM
Nie wiem, jak to jest liczone,
To ja spróbuję wyjaśnień na poziomie najbardziej ogólnym, bez wnikania
w specyfikę różnych pism i języków.
Trudność tekstu bez znajomości języka można ocenić na podstawie długości
użytych w nim wyrazów i zbudowanych z nich zdań - im średnia długość
większa, tym tekst jest uznawany za trudniejszy.
Tyle może przeanalizować każdy dobry procesor tekstu, np. Writer
z LibreOffice, więc popatrzmy, jak to wygląda na przytoczonych
przykładach.
ale identycznie (na 13-17) został oceniony
pierwszy akapit w hasłach "poezja metafizyczna"
znaków bez spacji: 548 średnia długość wyrazu, znaków: 6,93
wyrazów: 79 średnia długość zdania, wyrazów: 19,75
zdań: 4 średnia długość zdania, znaków: 137
i "Czarnoksiężnik z
Krainy Oz".
znaków bez spacji: 382 średnia długość wyrazu, znaków: 5,78
wyrazów: 66 średnia długość zdania, wyrazów: 22
zdań: 3 średnia długość zdania, znaków: 127,33
IMO gołym okiem widać, że teksty mają zdecydowanie
różny
poziom trudności.
Czyżby? Może wyrazy są krótsze, ale zdania mają ich więcej.
Ba, na 11-12 (matura) zostały ocenione dwa pierwsze
akapity opisu treści "Czarnoksiężnika"!
znaków bez spacji: 1048 średnia długość wyrazu, znaków: 5,63
wyrazów: 186 średnia długość zdania, wyrazów: 18,6
zdań: 10 średnia długość zdania, znaków: 104,8
Jak widać, faktycznie opis jest napisany nieco prostszym językiem, ale
pominęliśmy analizę leksykalną i składniową, których bez wiedzy o danym
języku nie da się przeprowadzić i uwzględnić w algorytmach.
A nie wydaje mi się, by moje
streszczenie używało trudniejszych wyrazów czy konstrukcji
stylistycznych niż oryginał (tzn. polskie tłumaczenie) utworu. Albo ten
algorytm jest do d, albo literatura pisana dla dzieci młodszych jest
przyswajalna dopiero na poziomie maturalnym...
Z punktu widzenia leksykalnego o wysokim poziomie trudności świadczy np.
występowanie zapożyczeń, wyrazów obcych czy słów rzadko używanych. Mając
korpus języka i jakieś zasoby słownikowe można bez wątpienia te dane
uwzględnić w algorytmach.
Z punktu widzenia składniowego wysoki poziom trudności oznacza występowanie
zdań złożonych podrzędnie, zdań złożonych wielokrotnie, strony biernej,
równoważników zdania czy imiesłowów. To też się da jakoś uwzględnić
w algorytmach (np. przez zliczanie konstrukcji spójnikowych i zaimkowych
charakterystycznych dla zdań złożonych podrzędnie).
Teraz popatrzmy na opis „Czarnoksiężnika” - są w nim długie wyrazy,
imiesłowy czy zdania złożone? Są, więc to na pewno nie jest opis na
poziomie pierwszych klas podstawówki. Nawet proste zdanie „Budzi ją wstrząs
spowodowany lądowaniem domku” nie jest typowe dla poziomu podstawowego.
W przekazie dziecka brzmiałoby ono raczej „Jak domek lądował, to go
zatrzęsło i się obudziła.” Porównanie leksykalne i składniowe obu zdań
pozostawiam wnikliwym czytelnikom.
--
Andrzej P. Woźniak a_usher /na/ gazeta.pl
http://pl.wikipedia.org/wiki/Wikipedysta:Usher