Witam, ponieważ propozycja wisiała w kawiarence już ładnych parę dni i nikt nie protestował, zaktualizowałem opis zaleceń edycyjnych dla stron ujednoznaczniających (http://pl.wikipedia.org/wiki/Wikipedia:Strony_ujednoznaczniaj%C4%85ce) zgodnie z wnioskami, do których wspólnie doszliśmy. Jeśli ktoś ma dalsze uwagi to proszę o poprawki i/lub komentarze na liście.
Przygotowałem wstępną wersję kodu interpretującego strony ujednoznaczniające i wygląda, że mechanizm dość dobrze działa - jest nieco fałszywek, tj. stron pasujących do formatu ale zawierających w miejscu "wybranego" linku link przypadkowy, ale stron tych jest mniej niż się spodziewałem. Aby ułatwić sobie i innym wykrywanie i stopniowe poprawianie disambigów w celu doprowadzenia jak największej ich części do ustalonego formatu, wygenerowałem listę statusu poszczególnych stron, zawierającą liczbę linków branych pod uwagę, liczbę linków zgodnych z formatem oraz flagę określającą symbolicznie jak bardzo strona wymaga dopracowania ("wszystkie linki dobre", "przynajmniej połowa linków dobra" itd.). Dane oraz ich opis umieściłem pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Są tam dane świeże, bo z 14 maja oraz dla porównania analogiczne dane wg zrzutu z 26 marca.
A oto garść statystyk z wersji majowej: 25521 przetworzonych stron ujednoznaczniających 76158/101499 = 0,750333 udział dobrych linków wśród wszystkich linków 18866 stron ze wszystkimi linkami dobrymi 4264 strony z przynajmniej połową dobrych linków 468 stron z mniej niż połową dobrych linków 1669 stron bez dobrych linków 254 strony w ogóle bez linków w ustalonym formacie (w tym mogą się też mieścić ewentualne strony, na których mój parser głupieje)
Pozdrawiam, Michał