Re: [Wikipl-l] Propozycja zmian w szablonach

23 May 2007

...
  To znaczy poprawi? =} Serio -- skoro i tak będziecie
parsować całą bazę,
 to wyniki wyłapanych błędów powinny spływać gdzieś dla bota, który się
 takimi pierdółkami zajmuje (OIP
 http://pl.wikipedia.org/wiki/Wikipedysta:DonnerJack.bot). Na wszelki
 wypadek przypominam, że niekiedy występują też (również błędne) formy z
 dwukropkiem na końcu. Do tego nie trzeba zaprzegac az takiego kombajnu jak ten
parser - 
wystarczy prosty skrypcik w awku:

awk '/<title>/{t=$0;
t=gensub(".*<title>(.*)</title>.*","\\1","g");}/^

*=+.*[Zz]obacz +(te[zż].*:|tak[zż]e)/{print t "\t" $0;}' <
plwiki-xxxx.xml

W zrzucie z 14 maja znalazlo sie 4762 takich zlych wpisow. Umiescilem je 
w pliku zle-zobacz-tez pod adresem 
http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Format pliku 
jest nastepujacy:
Tytul artykulu <TAB> Zly naglowek sekcji

W jaki sposob zglosic te dane do poprawienia przez bota?

...
  Gwoli przypomnienia gdzie teraz jesteśmy: czekamy na
ustalenia w sprawie
 disambigów "USS/HMS", disambigów z "w/..." (to obejmuje zarówno
 przypadki "w Pcimiu" jak i "w fizykochemii") oraz list zagnieżdżonych
(z
 dwoma gwiazdkami i więcej). Pierwsze to kwestia decyzji, drugie i
 trzecie to kwestia sprawdzenia parserem jak to idzie i sygnału, czy
 efekty są dobre. Jesli chodzi o listy zagniezdzone, to sa teraz obslugiwane - po
prostu 
kazde wypunktowanie jest traktowane tak samo, bez wzgledu na poziom 
wciecia. Wyglada, ze dziala to dosc dobrze, tyle ze zglasza pewna liczbe 
falszywych bledow (wiersze nie zawierajace zadnego linku sa liczone jako 
blad mimo ze sa poprawne). Jest tego jednak na tyle malo ze nie stanowi 
to moim zdaniem wielkiego problemu.

Co do punktow o tresci "costam w gdziestam", to nie chce w to wchodzic, 
z dwoch glownych powodow:
a) Jesli obslugujemy format "ABC w XYZ", to powinnismy tez lapac "we 
XYZ" ("we Wroclawiu"), "na XYZ" ("na Sycylii") i byc
moze pare innych. 
To jednak prowadzi do stopniowej komplikacji parsera i jest swoista 
rownia pochyla, bo zawsze moze sie okazac ze trzeba dodac jeszcze jedno 
wyrazenie do listy i potem jeszcze jedno itd. Ostatecznym wynikiem moze 
byc strasznie zlozony zbior regul, ktorego utrzymanie i testowanie 
bedzie bardzo trudne.
b) Nawet dla wyrazen typu "w costam" widze sporo sytuacji, gdzie 
ujednoznacznienie ma format zgodny z szablonem, ale link na pierwszej 
pozycji nie jest tym wlasciwym. W szczegolnosci, takie zachowanie moze 
wykazywac grupa hasel typu "jednowierszowe definicje" (czyli to, co 
wlasciwie powinno byc w wikislowniku), np.
* [[wulkan]] na Sycylii
* [[teatr]] w Nowym Saczu

Im wiecej "szablonow" obslugujemy, tym wiecej mozliwosci ze sie 
przeslizna takie niewlasciwe hasla. O ile w przypadku formatu z 
myslnikiem ryzyko jest niewielkie, o tyle dla formatow takich jak 
opisane wyzej, jest ono znacznie wieksze i nawet jesli w pewnym momencie 
wkladajac w to sporo wysilku upewnimy sie ze nic takiego nie ma w 
biezacej wersji, to jest neimal pewne ze wkrotce ktos kto nie wie o 
zaleceniach przypadkiem dopisze takie pozycje.

Pozdrawiam,
Michal

-- 
Michał Kosmulski (mkosmul)
http://www.netsprint.pl/
http://hektor.umcs.lublin.pl/~mikosmul/

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

Re: [Wikipl-l] Propozycja zmian w szablonach