Cześć, ponieważ minął już jakiś czas od ustania dyskusji w tym wątku, chciałbym krótko podsumować co udało się nam osiągnąć. Dzięki ustalonemu na liście (po burzliwej dyskusji) formatowi stron ujednoznaczniających, byłem w stanie uwzględnić informacje z tych stron w Mikserze (dla przypomnienia: http://pl.wikimedia.org/wiki/Grafika:Netsprint_2007.pdf). Są one już wdrożone w serwisie. Poprawiła się też sytuacja jeśli chodzi o zgodność stron z w.w. formatem, co oprócz ułatwienia pracy mojego parsera ma, mam nadzieję, pozytywny wpływ na czytelność i użyteczność stron ujednoznaczniających dla wszystkich użytkowników Wikipedii. Porównując stan z końca czerwca z tym z połowy maja, widzimy, że ubyło dokumentów o najgorszych statusach: --, --- i !, i to pomimo, że przybyło około 800 nowych stron ujednoznaczniających. Dzięki Kociowi, który zauważył błąd w parserze wikitekstu, po naprawieniu tego błędu liczba dokumentów zupełnie się nie parsujących (status "!") spadła z ponad 100 do zaledwie 11, a te pozostałe 11 właśnie ręcznie poprawiłem, tak więc naprawdę jest ich teraz 0.
Oto porównanie:
Wersja z 14 maja: 25521 disambig-status 2142 disambig-status-- 383 disambig-status--- 1522 disambig-status---- 119 disambig-status-! 21355 disambig-status-+
Wersja z 29 czerwca: 26307 disambig-status 2268 disambig-status-- 319 disambig-status--- 1395 disambig-status---- 11 disambig-status-! 22314 disambig-status-+
Zaktualizowane szczegółowe dane i strony z linkami jak zwykle umieściłem pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Dodałem też plik invalid-see-also zawierający listę stron z niepoprawnymi wariantami nazwy sekcji "Zobacz też" (dotyczy wszystkich stron, nie tylko ujednoznaczniających). Ponieważ liczę, że kiedyś poprawi to jakiś bot, nie robiłem wersji "klikalnej".
Dziękuję wszystkim, którzy przyłączyli się do tego projektu czy to przez udział w dyskusji czy też edycję stron - widać, że przyniósł on spodziewane efekty, z czego bardzo się cieszę.
Pozdrawiam, Michał