Cześć,
ponieważ minął już jakiś czas od ustania dyskusji w tym wątku, chciałbym
krótko podsumować co udało się nam osiągnąć. Dzięki ustalonemu na liście
(po burzliwej dyskusji) formatowi stron ujednoznaczniających, byłem w
stanie uwzględnić informacje z tych stron w Mikserze (dla przypomnienia:
http://pl.wikimedia.org/wiki/Grafika:Netsprint_2007.pdf). Są one już
wdrożone w serwisie. Poprawiła się też sytuacja jeśli chodzi o zgodność
stron z w.w. formatem, co oprócz ułatwienia pracy mojego parsera ma, mam
nadzieję, pozytywny wpływ na czytelność i użyteczność stron
ujednoznaczniających dla wszystkich użytkowników Wikipedii. Porównując
stan z końca czerwca z tym z połowy maja, widzimy, że ubyło dokumentów o
najgorszych statusach: --, --- i !, i to pomimo, że przybyło około 800
nowych stron ujednoznaczniających. Dzięki Kociowi, który zauważył błąd w
parserze wikitekstu, po naprawieniu tego błędu liczba dokumentów
zupełnie się nie parsujących (status "!") spadła z ponad 100 do zaledwie
11, a te pozostałe 11 właśnie ręcznie poprawiłem, tak więc naprawdę jest
ich teraz 0.
Oto porównanie:
Wersja z 14 maja:
25521 disambig-status
2142 disambig-status--
383 disambig-status---
1522 disambig-status----
119 disambig-status-!
21355 disambig-status-+
Wersja z 29 czerwca:
26307 disambig-status
2268 disambig-status--
319 disambig-status---
1395 disambig-status----
11 disambig-status-!
22314 disambig-status-+
Zaktualizowane szczegółowe dane i strony z linkami jak zwykle umieściłem
pod adresem
http://netsprint.pl/publikacje/generowane-z-wikipedii/ .
Dodałem też plik invalid-see-also zawierający listę stron z
niepoprawnymi wariantami nazwy sekcji "Zobacz też" (dotyczy wszystkich
stron, nie tylko ujednoznaczniających). Ponieważ liczę, że kiedyś
poprawi to jakiś bot, nie robiłem wersji "klikalnej".
Dziękuję wszystkim, którzy przyłączyli się do tego projektu czy to przez
udział w dyskusji czy też edycję stron - widać, że przyniósł on
spodziewane efekty, z czego bardzo się cieszę.
Pozdrawiam,
Michał
--
Michał Kosmulski (mkosmul)
http://www.netsprint.pl/
http://hektor.umcs.lublin.pl/~mikosmul/