Michal Kosmulski napisał(a):
podmieniłem listę artykułów. Po uwzględnieniu tej zmiany, statystyki wyglądają nastepująco: 25521 disambig-status 4214 disambig-status-- 388 disambig-status--- 1566 disambig-status---- 254 disambig-status-! 19099 disambig-status-+
0,754428 dobrych linków
Popatrzyłem pobieżnie na listę najcięższych przypadków (---) i znalazłem trzy większe grupy:
1. Hrabstwo xxx (421)
Schemat chyba wrzucany z bota: *hrabstwo xxx (ang. xxx County) w USA, w stanie yyy
wystarczy więc pewnie botem przejechać, żeby były myślniki, np w formie: *hrabstwo xxx (ang. xxx County) - hrabstwo w USA, w stanie yyy
2. Synagoga xxx w yyy (30)
To chyba też botem można naprawić z: *Synagoga xxx w yyy przy ulicy zzz
na: *Synagoga xxx w yyy - przy ulicy zzz
3. USS xxx (260) i HMS xxx (14)
Jak to powinno się naprawiać? Bo widzę, że są różne style definiowania: * przecinki zamiast myślników * słowo "był" albo "nosił nazwę" * wyliczanki "pierwszy xxx, drugi xxx" (http://pl.wikipedia.org/wiki/USS_Massachusetts)
Czy dla parsera problemem są opisy w postaci tekstu z linkami przed listą?