To znaczy poprawi? =} Serio -- skoro i tak będziecie parsować całą bazę, to wyniki wyłapanych błędów powinny spływać gdzieś dla bota, który się takimi pierdółkami zajmuje (OIP http://pl.wikipedia.org/wiki/Wikipedysta:DonnerJack.bot). Na wszelki wypadek przypominam, że niekiedy występują też (również błędne) formy z dwukropkiem na końcu.
Do tego nie trzeba zaprzegac az takiego kombajnu jak ten parser - wystarczy prosty skrypcik w awku:
awk '/<title>/{t=$0; t=gensub(".*<title>(.*)</title>.*","\1","g");}/^ *=+.*[Zz]obacz +(te[zż].*:|tak[zż]e)/{print t "\t" $0;}' < plwiki-xxxx.xml
W zrzucie z 14 maja znalazlo sie 4762 takich zlych wpisow. Umiescilem je w pliku zle-zobacz-tez pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Format pliku jest nastepujacy: Tytul artykulu <TAB> Zly naglowek sekcji
W jaki sposob zglosic te dane do poprawienia przez bota?
Gwoli przypomnienia gdzie teraz jesteśmy: czekamy na ustalenia w sprawie disambigów "USS/HMS", disambigów z "w/..." (to obejmuje zarówno przypadki "w Pcimiu" jak i "w fizykochemii") oraz list zagnieżdżonych (z dwoma gwiazdkami i więcej). Pierwsze to kwestia decyzji, drugie i trzecie to kwestia sprawdzenia parserem jak to idzie i sygnału, czy efekty są dobre.
Jesli chodzi o listy zagniezdzone, to sa teraz obslugiwane - po prostu kazde wypunktowanie jest traktowane tak samo, bez wzgledu na poziom wciecia. Wyglada, ze dziala to dosc dobrze, tyle ze zglasza pewna liczbe falszywych bledow (wiersze nie zawierajace zadnego linku sa liczone jako blad mimo ze sa poprawne). Jest tego jednak na tyle malo ze nie stanowi to moim zdaniem wielkiego problemu.
Co do punktow o tresci "costam w gdziestam", to nie chce w to wchodzic, z dwoch glownych powodow: a) Jesli obslugujemy format "ABC w XYZ", to powinnismy tez lapac "we XYZ" ("we Wroclawiu"), "na XYZ" ("na Sycylii") i byc moze pare innych. To jednak prowadzi do stopniowej komplikacji parsera i jest swoista rownia pochyla, bo zawsze moze sie okazac ze trzeba dodac jeszcze jedno wyrazenie do listy i potem jeszcze jedno itd. Ostatecznym wynikiem moze byc strasznie zlozony zbior regul, ktorego utrzymanie i testowanie bedzie bardzo trudne. b) Nawet dla wyrazen typu "w costam" widze sporo sytuacji, gdzie ujednoznacznienie ma format zgodny z szablonem, ale link na pierwszej pozycji nie jest tym wlasciwym. W szczegolnosci, takie zachowanie moze wykazywac grupa hasel typu "jednowierszowe definicje" (czyli to, co wlasciwie powinno byc w wikislowniku), np. * [[wulkan]] na Sycylii * [[teatr]] w Nowym Saczu
Im wiecej "szablonow" obslugujemy, tym wiecej mozliwosci ze sie przeslizna takie niewlasciwe hasla. O ile w przypadku formatu z myslnikiem ryzyko jest niewielkie, o tyle dla formatow takich jak opisane wyzej, jest ono znacznie wieksze i nawet jesli w pewnym momencie wkladajac w to sporo wysilku upewnimy sie ze nic takiego nie ma w biezacej wersji, to jest neimal pewne ze wkrotce ktos kto nie wie o zaleceniach przypadkiem dopisze takie pozycje.
Pozdrawiam, Michal