Witajcie,
w ramach doktoratu napisałem narzędzie analizujące graf linków międzyjęzykowych (interwiki) pomiędzy wszystkimi 256 wersjami językowymi Wikipedii.
Okazuje się, że na przestrzeni lat nagromadziło się mnóstwo błędnych linków międzyjęzykowych, które nie są usuwane, bo patrząc "lokalnie" nie widać, że są błędne. Odpowiednia analiza + wizualizacja pozwala natomiast szybko wychwycić źródła błędów.
Główne zalety w stosunku do botów: * analiza całej problematycznej składowej na raz, zamiast "lokalnej" oceny sytuacji. * fajna (IMHO) wizualizacja grafów. * konkretne rekomendacje: usuń link, podziel artykuł, połącz artykuły, usuń redirecty.
Wady: * pracuje na przetworzonych dumpach, a nie na żywej Wikipedii, więc rekomendacje bywają nieaktualne. * (chwilowo) nie widzi niektórych redirectów, ze względu na kiepską jakość dumpów tabeli redirect. Wg zapewnień na wikitech-l ma to w przyszłości ulec poprawie. * wymaga Java Web Start 6 i zjada sporo zasobów.
Wada/zaleta: * niczego nie zmienia (pokazuje źródła problemów i proponuje zmiany, pozostawiając decyzję człowiekowi).
Ciekawostka: zakładając możliwość chodzenia "pod prąd" linku interwiki, największa obecnie spójna składowa w grafie takich linków ma ponad 48.000 artykułów opisujących ponad 2500 pojęć. Innymi słowy: wykorzystując wyłącznie linki interwiki można nawigować pomiędzy ponad 2,5 tys. tematów.
Zachęcam do testowania i uwag. Narzędzie dostępne jest pod adresem: http://wikitools.icm.edu.pl/
Chciałbym zareklamować tę aplikację wśród szeroko rozumianych poprawiaczy interwiki. Która lista lub strona na meta jest do tego celu najodpowiedniejsza?
Pozdrawiam, Bolo1729
Dnia 18 marca 2008 15:40 Lukasz Bolikowski bolo@icm.edu.pl napisał(a):
Witajcie,
w ramach doktoratu napisałem narzędzie analizujące graf linków międzyjęzykowych (interwiki) pomiędzy wszystkimi 256 wersjami językowymi Wikipedii.
Okazuje się, że na przestrzeni lat nagromadziło się mnóstwo błędnych linków międzyjęzykowych, które nie są usuwane, bo patrząc "lokalnie" nie widać, że są błędne. Odpowiednia analiza + wizualizacja pozwala natomiast szybko wychwycić źródła błędów.
Główne zalety w stosunku do botów:
- analiza całej problematycznej składowej na raz, zamiast
"lokalnej" oceny sytuacji.
- fajna (IMHO) wizualizacja grafów.
- konkretne rekomendacje: usuń link, podziel artykuł,
połącz artykuły, usuń redirecty.
Wady:
- pracuje na przetworzonych dumpach, a nie na żywej Wikipedii,
więc rekomendacje bywają nieaktualne.
- (chwilowo) nie widzi niektórych redirectów, ze względu na
kiepską jakość dumpów tabeli redirect. Wg zapewnień na wikitech-l ma to w przyszłości ulec poprawie.
- wymaga Java Web Start 6 i zjada sporo zasobów.
Wada/zaleta:
- niczego nie zmienia (pokazuje źródła problemów i proponuje zmiany,
pozostawiając decyzję człowiekowi).
Ciekawostka: zakładając możliwość chodzenia "pod prąd" linku interwiki, największa obecnie spójna składowa w grafie takich linków ma ponad 48.000 artykułów opisujących ponad 2500 pojęć. Innymi słowy: wykorzystując wyłącznie linki interwiki można nawigować pomiędzy ponad 2,5 tys. tematów.
Zachęcam do testowania i uwag. Narzędzie dostępne jest pod adresem: http://wikitools.icm.edu.pl/
Chciałbym zareklamować tę aplikację wśród szeroko rozumianych poprawiaczy interwiki. Która lista lub strona na meta jest do tego celu najodpowiedniejsza?
Pozdrawiam, Bolo1729
Łoo:) strasznie dożo zasobów zjada:) Poza tym nie rozgryzłem jeszcze jak tego się używa ale wizualizacja połączeń wygląda imponująco.
Karol007
Karol yazmış:
Łoo:) strasznie dożo zasobów zjada:) Poza tym nie rozgryzłem jeszcze jak tego się używa ale wizualizacja połączeń wygląda imponująco.
Dzięki! W moim przypadku typowa sekwencja operacji to: * Ctrl-O = otwarcie grafu (najlepiej średniego, 100-300 art.) * Ctrl-A = wszystkie domyślne analizy (to może potrwać) * Ctrl-V = włączenie wizualizacji * Ctrl-R = przeczytanie rekomendacji * szuranie myszką i kręcenie kółkiem = oglądanie grafu * Ctrl-O = [kolejny graf]
Pozdrawiam, Bolo1729
Dnia 18 marca 2008 18:04 Lukasz Bolikowski bolo@icm.edu.pl napisał(a):
Karol yazmış:
Łoo:) strasznie dożo zasobów zjada:) Poza tym nie rozgryzłem jeszcze jak tego się używa ale wizualizacja połączeń wygląda imponująco.
Dzięki! W moim przypadku typowa sekwencja operacji to:
- Ctrl-O = otwarcie grafu (najlepiej średniego, 100-300 art.)
- Ctrl-A = wszystkie domyślne analizy (to może potrwać)
- Ctrl-V = włączenie wizualizacji
- Ctrl-R = przeczytanie rekomendacji
- szuranie myszką i kręcenie kółkiem = oglądanie grafu
- Ctrl-O = [kolejny graf]
Pozdrawiam, Bolo1729
Ooo, dzięki za skróty i wskazówki, będzie łatwiej i szybciej zapoznać się z tym "małym okienkiem" jak go sobie nazwałem zanim maksymalizowałem. PS. za pierwszym razem otworzyłem coś co miało ponad 14 tys. artów:) i po włączeniu połączeń za głowę się chwyciłem bo mój komp (a uchodzi za całkiem mocny sprzęt) ledwo to łykał, i dławiło go dość mocno:) W wolnych chwilach będę się tym bawił, nie wiem jeszcze jak rozpoznawać informacje o błędach:) ale do tego też dojdę z czasem:) Będę się dzielił swoimi spostrzeżeniami i uwagami:)
Pozdrawiam, Karol007
Witajcie!
ŚWIETNE! Może dlatego, że interwiki to moja mała pasja, ale pierwsze zabawy bardzo mi się spodobały, owszem trochę zjada (szczególnie jak się jakiś większy graf chce powiększać) i instalacja trochę trwała, ale efekt jest na prawdę niezły!
PS:"Drobne redakcyjne" posłałem na priva ;)
Witam
Gdzie można sobie ściągnąć kod źródłowy tego czegoś?
P.W.
-----Original Message----- From: wikipl-l-bounces@lists.wikimedia.org [mailto:wikipl-l-bounces@lists.wikimedia.org] On Behalf Of Lukasz Bolikowski Sent: Tuesday, March 18, 2008 3:41 PM To: wikipl-l@lists.wikimedia.org Subject: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
Witajcie,
w ramach doktoratu napisałem narzędzie analizujące graf linków międzyjęzykowych (interwiki) pomiędzy wszystkimi 256 wersjami językowymi Wikipedii.
Okazuje się, że na przestrzeni lat nagromadziło się mnóstwo błędnych linków międzyjęzykowych, które nie są usuwane, bo patrząc "lokalnie" nie widać, że są błędne. Odpowiednia analiza + wizualizacja pozwala natomiast szybko wychwycić źródła błędów.
Główne zalety w stosunku do botów: * analiza całej problematycznej składowej na raz, zamiast "lokalnej" oceny sytuacji. * fajna (IMHO) wizualizacja grafów. * konkretne rekomendacje: usuń link, podziel artykuł, połącz artykuły, usuń redirecty.
Wady: * pracuje na przetworzonych dumpach, a nie na żywej Wikipedii, więc rekomendacje bywają nieaktualne. * (chwilowo) nie widzi niektórych redirectów, ze względu na kiepską jakość dumpów tabeli redirect. Wg zapewnień na wikitech-l ma to w przyszłości ulec poprawie. * wymaga Java Web Start 6 i zjada sporo zasobów.
Wada/zaleta: * niczego nie zmienia (pokazuje źródła problemów i proponuje zmiany, pozostawiając decyzję człowiekowi).
Ciekawostka: zakładając możliwość chodzenia "pod prąd" linku interwiki, największa obecnie spójna składowa w grafie takich linków ma ponad 48.000 artykułów opisujących ponad 2500 pojęć. Innymi słowy: wykorzystując wyłącznie linki interwiki można nawigować pomiędzy ponad 2,5 tys. tematów.
Zachęcam do testowania i uwag. Narzędzie dostępne jest pod adresem: http://wikitools.icm.edu.pl/
Chciałbym zareklamować tę aplikację wśród szeroko rozumianych poprawiaczy interwiki. Która lista lub strona na meta jest do tego celu najodpowiedniejsza?
Pozdrawiam, Bolo1729
_______________________________________________ WikiPL-l mailing list WikiPL-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikipl-l
Witaj
Chciałem zauważyć, że udostępniając ten program bez kodu źródłowego, popełniasz przestępstwo na szkodę Free Software Foundation, Inc., oraz pośrednio Stephena Ostermillera i Aarona M. Renna.
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
-----Original Message----- From: Lukasz Bolikowski [mailto:bolo@icm.edu.pl] Sent: Thursday, March 20, 2008 4:30 PM To: wikimedia@tlen.pl; Polish Wikipedia mailing list Subject: Re: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
Tomasz Klim yazmış:
Gdzie można sobie ściągnąć kod źródłowy tego czegoś?
Chwilowo jeszcze nie można, bo mi trochę wstyd panującego tam bałaganu, ale w wolnej chwili wyczyszczę i udostępnię na którejś otwartej licencji.
Pozdrawiam, Bolo
Dlaczego wg Ciebie MUSI to zrobić?
Kangel
Witaj
Chciałem zauważyć, że udostępniając ten program bez kodu źródłowego, popełniasz przestępstwo na szkodę Free Software Foundation, Inc., oraz pośrednio Stephena Ostermillera i Aarona M. Renna.
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
Witam
Absolutnie nie musi i nigdzie tego nie napisałem.
Może sobie alternatywnie porozmawiać z przedstawicielami FSF. Za naruszenie praw autorskich kary śmierci się nie przewiduje, co najwyżej grzywnę lub wpłatę pieniężną na cel związany z wolnym oprogramowaniem w ramach ugody.
-----Original Message----- From: Kacper Aniołek [mailto:k4ngel@gmail.com] Sent: Thursday, March 20, 2008 4:51 PM To: wikimedia@tlen.pl; Polish Wikipedia mailing list Subject: Re: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
Dlaczego wg Ciebie MUSI to zrobić?
Kangel
Witaj
Chciałem zauważyć, że udostępniając ten program bez kodu źródłowego,
popełniasz przestępstwo na szkodę Free Software Foundation, Inc., oraz pośrednio Stephena Ostermillera i Aarona M. Renna.
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim
zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
Tomasz Klim yazmış:
Chciałem zauważyć, że udostępniając ten program bez kodu źródłowego, popełniasz przestępstwo na szkodę Free Software Foundation, Inc., oraz pośrednio Stephena Ostermillera i Aarona M. Renna.
Masz rację, nie zauważyłem, że ostermillerutils są na GPL.
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
Właśnie usunąłem starą wersję i udostępniłem taką, która nie korzysta z tego pakietu, a także usunąłem logo Wikipedii, które umieszczałem bez odpowiedniej informacji (dzięki, Wiher).
Czy dobrze rozumiem, że JAR-y na licencji Apache mogą zostać (nie modyfikowałem w żaden sposób ich zawartości)?
Pozdrawiam, Bolo
Witaj
Czyli właśnie ostatecznie potwierdziłeś, że naruszałeś prawa autorskie FSF. To mi wiele upraszcza :)
Co do kodu na licencji Apache, to tak, może zostać.
-----Original Message----- From: wikipl-l-bounces@lists.wikimedia.org [mailto:wikipl-l-bounces@lists.wikimedia.org] On Behalf Of Lukasz Bolikowski Sent: Thursday, March 20, 2008 5:37 PM To: Undisclosed-Recipient Cc: 'Polish Wikipedia mailing list' Subject: Re: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
Tomasz Klim yazmış:
Chciałem zauważyć, że udostępniając ten program bez kodu źródłowego, popełniasz przestępstwo na szkodę Free Software Foundation, Inc., oraz pośrednio Stephena Ostermillera i Aarona M. Renna.
Masz rację, nie zauważyłem, że ostermillerutils są na GPL.
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
Właśnie usunąłem starą wersję i udostępniłem taką, która nie korzysta z tego pakietu, a także usunąłem logo Wikipedii, które umieszczałem bez odpowiedniej informacji (dzięki, Wiher).
Czy dobrze rozumiem, że JAR-y na licencji Apache mogą zostać (nie modyfikowałem w żaden sposób ich zawartości)?
Pozdrawiam, Bolo
_______________________________________________ WikiPL-l mailing list WikiPL-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikipl-l
20-03-08, Tomasz Klim wikimedia@tlen.pl napisał(a):
Witaj
Czyli właśnie ostatecznie potwierdziłeś, że naruszałeś prawa autorskie FSF. To mi wiele upraszcza :)
Przyszedłeś trollować, czy encyklopedię pisać?
Można wypuścić soft na GPL, bez źródeł. Ale w tedy należy na życzenie 'klienta' nieodpłatnie udostępnić takowy...
Pozdrawiam AJF/WarX
Witaj
Powiem w ten sposób - nie uczestniczę w rozwoju Wikipedii, a jedynie śledzę m.in. listy dyskusyjne Wikimedii.
I nie patrzę na interesy Wikimedii/Wikipedii, ale jeśli już, to na interesy FSF.
Ktoś stworzył narzędzie, naruszając interesy FSF. Gdybym podpowiedział mu prywatnie, co i jak, to by się dyskretnie wycofał z naruszenia, a tym samym interesy FSF pozostałyby naruszone - takie przypadki już się w przeszłości zdarzały, np. w stosunku do projektu ClamAV i w co najmniej jednym przypadku uszły naruszającej licencję firmie na sucho.
Wobec tego nie można sobie wg mnie pozwolić na kolejne takie przypadki i (1) publicznie informować o tym autora, (2) od razu zgłaszać, gdzie trzeba, czekając jedynie na pierwsze, publiczne potwierdzenie braku dostępności źródeł, a tym samym naruszenia licencji.
A co do "życzenia", to istotnie, można źródeł nie udostępniać, ale należy w takim przypadku umieścić na stronie wyraźną ofertę udostępnienia źródeł na życzenie. Pan Bolikowski nie zrobił nawet tego, napisał natomiast (i dalej będę pisał z pamięci), iż źródeł nie udostępni, gdyż się ich wstydzi i najpierw musi je wyczyścić i uporządkować.
Nadmieniam przy okazji, iż wypuszczenie nowej wersji programu wraz ze źródłami (już uporządkowanymi) również nie naprawia problemu, gdyż nadal prawa użytkowników wersji 0.06 wypuszczonego programu są pogwałcone. Sensownym wyjściem dla p. Bolikowskiego jest w chwili obecnej jedynie wypuszczenie pełnych (dających się skompilować i uruchomić) źródeł programu w wersji 0.06, oraz opcjonalnie (według jego woli) nowszych wersji programu, ze źródłami lub bez, o ile program nie będzie już korzystał z komponentów na licencji GPL.
-----Original Message----- From: Artur Fijałkowski [mailto:wiki.warx@gmail.com] Sent: Monday, March 24, 2008 12:04 PM To: wikimedia@tlen.pl; Polish Wikipedia mailing list Subject: Re: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
20-03-08, Tomasz Klim wikimedia@tlen.pl napisał(a):
Witaj
Czyli właśnie ostatecznie potwierdziłeś, że naruszałeś prawa autorskie FSF. To mi wiele upraszcza :)
Przyszedłeś trollować, czy encyklopedię pisać?
Można wypuścić soft na GPL, bez źródeł. Ale w tedy należy na życzenie 'klienta' nieodpłatnie udostępnić takowy...
Pozdrawiam AJF/WarX
On Tue, Mar 25, 2008 at 09:35:13PM +0100, Tomasz Klim wrote:
I nie patrzę na interesy Wikimedii/Wikipedii, ale jeśli już, to na interesy FSF.
Ale czaisz różnicę między: - akademickim, eksperymentalnym, darmowym projektem, w którym autor niechcący naruszył licencję i poprawił błąd w przyszłych wersjach, a: - komercyjnym produktem zawierającym świadomie zaembedowany kawałek kodu na GPL, ze świadomym złamaniem licencji i brakiem woli producenta do naprawienia problemu ?
Witaj
Tak, oczywiście. Czaję taką różnicę. W obu jednak przypadkach dochodzi do złamania prawa i jakkolwiek w tym pierwszym przypadku całokształt sytuacji może stanowić potężną okoliczność łagodzącą, to jednak nadal prawo zostało złamane.
Przypuszczam jednak, że jeśli autor w ciągu np. miesiąca (strzelam!) się zreflektuje i naprawi swój błąd, to nie będzie mowy nawet o ugodzie, czy w ogóle rozprawie sądowej.
Jeśli natomiast się nie zreflektuje i będzie szedł w zaparte, to zapewne skończy się na ugodzie przed sądem, w której autor zgodzi się wpłacić powiedzmy 1000 PLN (znowu strzelam, ale takie są polskie realia kwotowe) na konto jakiejś fundacji wspierającej wolne oprogramowanie, oraz i tak będzie musiał te źródła udostępnić.
-----Original Message----- From: Marcin Sochacki [mailto:wanted@gnu.univ.gda.pl] Sent: Tuesday, March 25, 2008 9:52 PM To: wikimedia@tlen.pl; Polish Wikipedia mailing list Subject: Re: [Wikipl-l] Analiza i wizualizacja błędnych interwiki
On Tue, Mar 25, 2008 at 09:35:13PM +0100, Tomasz Klim wrote:
I nie patrzę na interesy Wikimedii/Wikipedii, ale jeśli już, to na
interesy FSF.
Ale czaisz różnicę między: - akademickim, eksperymentalnym, darmowym projektem, w którym autor niechcący naruszył licencję i poprawił błąd w przyszłych wersjach, a: - komercyjnym produktem zawierającym świadomie zaembedowany kawałek kodu na GPL, ze świadomym złamaniem licencji i brakiem woli producenta do naprawienia problemu ?
| -----Original Message----- | From: ... Marcin Sochacki | Sent: Tuesday, March 25, 2008 9:52 PM / | Ale czaisz różnicę między: /
Mam tu przy okazji takie spostrzeżenia (mało oryginalne):
1. szczytna intencja znosi prawo (myślenie niwelacyjne)
2. jak o problemie nie mówimy, to problemu nie ma (myślenie magiczne)
3. winien jest ten, kto mówi o problemie (myślenie skazujące)
Pzdr., Janusz "Ency" Dorożyński
Tomasz Klim yazmış:
Sugeruję więc udostępnienie kodu w trybie natychmiastowym, zanim zostaniesz zgłoszony na GPL Violations. I nie na którejś otwartej licencji, a konkretnie na GNU GPL 2, lub względnie 3.
FYI: właśnie udostępniłem źródła na GPL v3, można ściągnąć stąd: http://wikitools.icm.edu.pl/wiki/WikiBrowser_0.06
Przepraszam poszkodowanych, dziękuję sympatyzującym.
Wszystkich pozdrawiam, Bolo1729