Witam,
ponieważ propozycja wisiała w kawiarence już ładnych parę dni i nikt nie
protestował, zaktualizowałem opis zaleceń edycyjnych dla stron
ujednoznaczniających
(
http://pl.wikipedia.org/wiki/Wikipedia:Strony_ujednoznaczniaj%C4%85ce)
zgodnie z wnioskami, do których wspólnie doszliśmy. Jeśli ktoś ma dalsze
uwagi to proszę o poprawki i/lub komentarze na liście.
Przygotowałem wstępną wersję kodu interpretującego strony
ujednoznaczniające i wygląda, że mechanizm dość dobrze działa - jest
nieco fałszywek, tj. stron pasujących do formatu ale zawierających w
miejscu "wybranego" linku link przypadkowy, ale stron tych jest mniej
niż się spodziewałem. Aby ułatwić sobie i innym wykrywanie i stopniowe
poprawianie disambigów w celu doprowadzenia jak największej ich części
do ustalonego formatu, wygenerowałem listę statusu poszczególnych stron,
zawierającą liczbę linków branych pod uwagę, liczbę linków zgodnych z
formatem oraz flagę określającą symbolicznie jak bardzo strona wymaga
dopracowania ("wszystkie linki dobre", "przynajmniej połowa linków
dobra" itd.). Dane oraz ich opis umieściłem pod adresem
http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Są tam dane
świeże, bo z 14 maja oraz dla porównania analogiczne dane wg zrzutu z 26
marca.
A oto garść statystyk z wersji majowej:
25521 przetworzonych stron ujednoznaczniających
76158/101499 = 0,750333 udział dobrych linków wśród wszystkich linków
18866 stron ze wszystkimi linkami dobrymi
4264 strony z przynajmniej połową dobrych linków
468 stron z mniej niż połową dobrych linków
1669 stron bez dobrych linków
254 strony w ogóle bez linków w ustalonym formacie (w tym mogą się też
mieścić ewentualne strony, na których mój parser głupieje)
Pozdrawiam,
Michał
--
Michał Kosmulski (mkosmul)
http://www.netsprint.pl/
http://hektor.umcs.lublin.pl/~mikosmul/