[Wikipl-l] Automatyczna KLASYFIKACJA artykułów

Daniel Koć kocio w linuxnews.pl
Nie, 7 Wrz 2008, 19:46:50 UTC


Leafnode pisze:

> E tam. To są wszystko arbitralne ustalenia wzięte z sufitu. Jakiej
> granicy nie wybierzesz i tak nie będzie dobrze.

Jasne że arbitralne, ale automatyczne wstępne sortowanie do ręcznej
analizy to jest Dobra Rzecz (TM), zwłaszcza przy hurtowej ilości danych,
a taką skalę ma obecnie polska Wikipedia.

Na przykład filtr antyspamowy w moim programie pocztowym też nie jest 
idealny - zostaje trochę śmiecia w skrzynce odbiorczej, a czasem może 
się zdarzyć, że zaklasyfikuje jakiś użyteczny list jako śmieć - ale i 
tak nie chciałbym z niego zrezygnować, bo znacznie upraszcza mi 
zapanowanie nad pocztą. Tę klasyfikację widzę podobnie - jako narzędzie 
ułatwiające operowanie na dużej ilości danych, takie zgrubne sito.

Jedyny problem MSZ to żeby było absolutnie jasne, że to są proste
techniczne podziały, nie sugerujące poziomu merytorycznego. Można
zastosować prostą, maksymalnie neutralną znaczeniowo terminologię - np.
"mało rozbudowany artykuł", "średnio rozbudowany artykuł" itp.

Stopień rozbudowy nie mówi nic o treści, tylko o wielkości i strukturze.

> Aaaa jeśli chcesz robić to client-side, to inna sprawa. Ale jeśli tak,
> to byś musiał "zmusić" użytkowników do odpalania tego JSa, co jest
> nierealne.

O ile zrozumiałem to nie ma być client-side, tylko robot-side. =}

Boty porządkowe już i tak biegają po Wikipedii, można im po prostu 
dołożyć dodatkową funkcję do wykonania podczas pojedynczego zapisu. Przy 
założeniu, że dodatkowe ileś znaków w edycji jest niewielkim 
obciążeniem, za to zapis do bazy jest kosztowny, to jest sensowne podejście.

-- 
Всё идёт по плану



Więcej informacji o liście dyskusyjnej WikiPL-l