Leafnode pisze:
Jasne, jako wspomaganie jest OK. Tylko bez żadnych stwierdzeń w stylu "taki a taki przedział to zalążek, a powyżej to już nie".
Oczywiście. Stan na początku pomieszał ostateczny cel (ocena ogólna) z możliwościami narzędzia (mierzenie stopnia rozbudowy), ale w trakcie dyskusji się rozjaśniło.
O ile zrozumiałem to nie ma być client-side, tylko robot-side. =}
Z tego co zrozumiałem, to jedno i drugie ;)
Z tego co przeczytałem (kilka razy) ten fragment wiadomości od Stana Zurka, po którym stwierdziłeś, że ma to być client-side, to jednak tylko robotami.
Stan, dobrze cię zrozumiałem?
Jasne, ale w takim razie to trochę traci sens - bo niektóre artykuły nigdy nie będą "przelatywane" botem.
Hm, to prawda, ale można do tego podejść różnie:
* nie martwić się tym, że to nie wszystkie - i tak ta klasyfikacja nie jest uniwersalna, ponieważ wyłapuje tylko najbardziej ewidentne przypadki; jeśli celem jest "podpowiadanie" ludziom za które warto się zabrać, to nawet lepiej, jeśli strumień podpowiedzi będzie dostosowany do możliwości przerobu i wtedy ma to duży sens
* można też ustalić w miarę niską częstotliwość odwiedzania tych haseł, które się nie załapały na inne automatyczne zmiany
* można też do przechowywania tych danych na początek wykorzystać polski toolserver jako poligon; po pierwsze mamy nad nim kontrolę i będzie widać jak proces klasyfikowania wpływa na obciążenie, po drugie nie śmiecimy w historii zmian i możemy swobodnie eksperymentować czy klasyfikować wszystkie, czy tylko niektóre (może np. warto trzymać opis tylko dla potencjalnych najbardziej rozbudowanych, bo inne i tak mało kogo obchodzą?)