Michal Kosmulski napisał(a):
podmieniłem listę artykułów. Po uwzględnieniu tej
zmiany, statystyki
wyglądają nastepująco:
25521 disambig-status
4214 disambig-status--
388 disambig-status---
1566 disambig-status----
254 disambig-status-!
19099 disambig-status-+
0,754428 dobrych linków
Popatrzyłem pobieżnie na listę najcięższych przypadków (---) i znalazłem
trzy większe grupy:
1. Hrabstwo xxx (421)
Schemat chyba wrzucany z bota:
*hrabstwo xxx (ang. xxx County) w USA, w stanie yyy
wystarczy więc pewnie botem przejechać, żeby były myślniki, np w formie:
*hrabstwo xxx (ang. xxx County) - hrabstwo w USA, w stanie yyy
2. Synagoga xxx w yyy (30)
To chyba też botem można naprawić z:
*Synagoga xxx w yyy przy ulicy zzz
na:
*Synagoga xxx w yyy - przy ulicy zzz
3. USS xxx (260) i HMS xxx (14)
Jak to powinno się naprawiać? Bo widzę, że są różne style definiowania:
* przecinki zamiast myślników
* słowo "był" albo "nosił nazwę"
* wyliczanki "pierwszy xxx, drugi xxx"
(
http://pl.wikipedia.org/wiki/USS_Massachusetts)
Czy dla parsera problemem są opisy w postaci tekstu z linkami przed listą?
--
Kto powiedział "kasjer dupa"?!