Może powinna być reguła, że jeśli po linku jest tylko nawias, to ma uznawać ten link niezależnie od treści nawiasu?
Faktycznie - wygląda, że działa to dość dobrze. Dodałem taką regułę i podmieniłem listę artykułów. Po uwzględnieniu tej zmiany, statystyki wyglądają nastepująco: 25521 disambig-status 4214 disambig-status-- 388 disambig-status--- 1566 disambig-status---- 254 disambig-status-! 19099 disambig-status-+
0,754428 dobrych linków
Zaktualizowałem też zalecenia redakcyjne.
A czy w przypadku hasła Cm o takiej postaci:
- Cm (''curium'') - [[symbolika chemiczna|symbol chemiczny]]
[[Pierwiastek|pierwiastka]] [[Kiur (pierwiastek)|kiur]]
- cm - skrót jednostki długości [[centymetr]]
wystarczyłoby tylko przerzucić linki z prawej na lewą:
- [[Kiur (pierwiastek)|Cm]] (''curium'') - symbol chemiczny pierwiastka kiur
- [[centymetr|cm]] - skrót jednostki długości centymetr
Tak, zgadza się.
Chętnie się pobawię w poprawianie tych haseł, ale przy tej ilości przydałby się jakiś prosty mechanizm "odhaczania" przejrzanych haseł, najlepiej przez kliknięcie na formularzu HTML (np. pola o znaczeniu: poprawione/było OK/problem z poprawą itp.), żeby był szybki feedback do testowania parsera. Dla wygody proponuję podzielić to na strony według znaczników nadanych przez parser (osobno +, osobno -- itp.) i posortować alfabetycznie.
Bardzo się cieszę z wszelkiej pomocy. Rozbite i posortowane pliki umieściłem w plikach o nazwach disambig-status-<status> pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Z odhaczaniem może być trudniej, bo tak prosto mechanizmu do zapamiętywania co było zmienione to nie uda mi się zrobić. Chyba żeby jakąś stronę w Wikipedii dodać i tam zaznaczać zmiany. Ale to chyba nie byłoby zbyt wygodne, nie wiem też czy długie listy (kilkanaście tysięcy wierszy) to jest dobry rodzaj tekstu do umieszczania w Wiki.
Pozdrawiam, Michał