To znaczy poprawi? =} Serio -- skoro i tak będziecie
parsować całą bazę,
to wyniki wyłapanych błędów powinny spływać gdzieś dla bota, który się
takimi pierdółkami zajmuje (OIP
http://pl.wikipedia.org/wiki/Wikipedysta:DonnerJack.bot). Na wszelki
wypadek przypominam, że niekiedy występują też (również błędne) formy z
dwukropkiem na końcu.
Do tego nie trzeba zaprzegac az takiego kombajnu jak ten
parser -
wystarczy prosty skrypcik w awku:
awk '/<title>/{t=$0;
t=gensub(".*<title>(.*)</title>.*","\\1","g");}/^
*=+.*[Zz]obacz +(te[zż].*:|tak[zż]e)/{print t "\t" $0;}' <
plwiki-xxxx.xml
W zrzucie z 14 maja znalazlo sie 4762 takich zlych wpisow. Umiescilem je
w pliku zle-zobacz-tez pod adresem
http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Format pliku
jest nastepujacy:
Tytul artykulu <TAB> Zly naglowek sekcji
W jaki sposob zglosic te dane do poprawienia przez bota?
Gwoli przypomnienia gdzie teraz jesteśmy: czekamy na
ustalenia w sprawie
disambigów "USS/HMS", disambigów z "w/..." (to obejmuje zarówno
przypadki "w Pcimiu" jak i "w fizykochemii") oraz list zagnieżdżonych
(z
dwoma gwiazdkami i więcej). Pierwsze to kwestia decyzji, drugie i
trzecie to kwestia sprawdzenia parserem jak to idzie i sygnału, czy
efekty są dobre.
Jesli chodzi o listy zagniezdzone, to sa teraz obslugiwane - po
prostu
kazde wypunktowanie jest traktowane tak samo, bez wzgledu na poziom
wciecia. Wyglada, ze dziala to dosc dobrze, tyle ze zglasza pewna liczbe
falszywych bledow (wiersze nie zawierajace zadnego linku sa liczone jako
blad mimo ze sa poprawne). Jest tego jednak na tyle malo ze nie stanowi
to moim zdaniem wielkiego problemu.
Co do punktow o tresci "costam w gdziestam", to nie chce w to wchodzic,
z dwoch glownych powodow:
a) Jesli obslugujemy format "ABC w XYZ", to powinnismy tez lapac "we
XYZ" ("we Wroclawiu"), "na XYZ" ("na Sycylii") i byc
moze pare innych.
To jednak prowadzi do stopniowej komplikacji parsera i jest swoista
rownia pochyla, bo zawsze moze sie okazac ze trzeba dodac jeszcze jedno
wyrazenie do listy i potem jeszcze jedno itd. Ostatecznym wynikiem moze
byc strasznie zlozony zbior regul, ktorego utrzymanie i testowanie
bedzie bardzo trudne.
b) Nawet dla wyrazen typu "w costam" widze sporo sytuacji, gdzie
ujednoznacznienie ma format zgodny z szablonem, ale link na pierwszej
pozycji nie jest tym wlasciwym. W szczegolnosci, takie zachowanie moze
wykazywac grupa hasel typu "jednowierszowe definicje" (czyli to, co
wlasciwie powinno byc w wikislowniku), np.
* [[wulkan]] na Sycylii
* [[teatr]] w Nowym Saczu
Im wiecej "szablonow" obslugujemy, tym wiecej mozliwosci ze sie
przeslizna takie niewlasciwe hasla. O ile w przypadku formatu z
myslnikiem ryzyko jest niewielkie, o tyle dla formatow takich jak
opisane wyzej, jest ono znacznie wieksze i nawet jesli w pewnym momencie
wkladajac w to sporo wysilku upewnimy sie ze nic takiego nie ma w
biezacej wersji, to jest neimal pewne ze wkrotce ktos kto nie wie o
zaleceniach przypadkiem dopisze takie pozycje.
Pozdrawiam,
Michal
--
Michał Kosmulski (mkosmul)
http://www.netsprint.pl/
http://hektor.umcs.lublin.pl/~mikosmul/