[Wikipl-l] Analiza i wizualizacja błędnych interwiki

Lukasz Bolikowski bolo w icm.edu.pl
Wto, 18 Mar 2008, 14:40:53 UTC


Witajcie,

w ramach doktoratu napisałem narzędzie analizujące graf linków
międzyjęzykowych (interwiki) pomiędzy wszystkimi 256 wersjami
językowymi Wikipedii.

Okazuje się, że na przestrzeni lat nagromadziło się mnóstwo błędnych
linków międzyjęzykowych, które nie są usuwane, bo patrząc "lokalnie"
nie widać, że są błędne.  Odpowiednia analiza + wizualizacja pozwala
natomiast szybko wychwycić źródła błędów.

Główne zalety w stosunku do botów:
* analiza całej problematycznej składowej na raz, zamiast
"lokalnej" oceny sytuacji.
* fajna (IMHO) wizualizacja grafów.
* konkretne rekomendacje: usuń link, podziel artykuł,
połącz artykuły, usuń redirecty.

Wady:
* pracuje na przetworzonych dumpach, a nie na żywej Wikipedii,
więc rekomendacje bywają nieaktualne.
* (chwilowo) nie widzi niektórych redirectów, ze względu na
kiepską jakość dumpów tabeli redirect.  Wg zapewnień na
wikitech-l ma to w przyszłości ulec poprawie.
* wymaga Java Web Start 6 i zjada sporo zasobów.

Wada/zaleta:
* niczego nie zmienia (pokazuje źródła problemów i proponuje zmiany,
pozostawiając decyzję człowiekowi).

Ciekawostka: zakładając możliwość chodzenia "pod prąd" linku
interwiki, największa obecnie spójna składowa w grafie takich
linków ma ponad 48.000 artykułów opisujących ponad 2500 pojęć.
Innymi słowy: wykorzystując wyłącznie linki interwiki można
nawigować pomiędzy ponad 2,5 tys. tematów.

Zachęcam do testowania i uwag.  Narzędzie dostępne jest pod adresem:
   http://wikitools.icm.edu.pl/

Chciałbym zareklamować tę aplikację wśród szeroko rozumianych
poprawiaczy interwiki.  Która lista lub strona na meta jest do
tego celu najodpowiedniejsza?

Pozdrawiam,
Bolo1729



Więcej informacji o liście dyskusyjnej WikiPL-l