Leafnode pisze:
E tam. To są wszystko arbitralne ustalenia wzięte z sufitu. Jakiej granicy nie wybierzesz i tak nie będzie dobrze.
Jasne że arbitralne, ale automatyczne wstępne sortowanie do ręcznej analizy to jest Dobra Rzecz (TM), zwłaszcza przy hurtowej ilości danych, a taką skalę ma obecnie polska Wikipedia.
Na przykład filtr antyspamowy w moim programie pocztowym też nie jest idealny - zostaje trochę śmiecia w skrzynce odbiorczej, a czasem może się zdarzyć, że zaklasyfikuje jakiś użyteczny list jako śmieć - ale i tak nie chciałbym z niego zrezygnować, bo znacznie upraszcza mi zapanowanie nad pocztą. Tę klasyfikację widzę podobnie - jako narzędzie ułatwiające operowanie na dużej ilości danych, takie zgrubne sito.
Jedyny problem MSZ to żeby było absolutnie jasne, że to są proste techniczne podziały, nie sugerujące poziomu merytorycznego. Można zastosować prostą, maksymalnie neutralną znaczeniowo terminologię - np. "mało rozbudowany artykuł", "średnio rozbudowany artykuł" itp.
Stopień rozbudowy nie mówi nic o treści, tylko o wielkości i strukturze.
Aaaa jeśli chcesz robić to client-side, to inna sprawa. Ale jeśli tak, to byś musiał "zmusić" użytkowników do odpalania tego JSa, co jest nierealne.
O ile zrozumiałem to nie ma być client-side, tylko robot-side. =}
Boty porządkowe już i tak biegają po Wikipedii, można im po prostu dołożyć dodatkową funkcję do wykonania podczas pojedynczego zapisu. Przy założeniu, że dodatkowe ileś znaków w edycji jest niewielkim obciążeniem, za to zapis do bazy jest kosztowny, to jest sensowne podejście.