Natomiast mnie też zainteresowało bezapelacyjne stwierdzenie o tym co służy Wikipedii. Jak i późniejsze wypowiedzi z konta Radomil ;-) . Obie zaistniały w oderwaniu od realiów, cokolwiek zrozumiałym w naszym jednak półświatku umiejącym edytować na poziomach od średniego do super zaawansowanego.
Sorki, ale obwaiam się, że to nie "ci ludzie" są oderwani od realiów. Większość wikipedystów nie pasjonuje się programowaniem a edytują wikipedietylko dla tego, że jest to proste.
Faktycznie rzecz w tych ludziach. Otóż wiki jest produktem w pierwszej kolejności do czytania - przez większość ludzkości, czyli Wikipedia ma służyć do czytania i w żadnym wypadku nie ma służyć Wikipedii (lub społeczności jej edytorów).
Najpierw musi być co czytać. Gdyby hasła pisali sami "programiści" Wikipedia byłaby prawdopodobnie leksykonem z dziedziny elektroniki z ewentualną domieszką pokemonów.
To że my jesteśmy w tej grupie i nieźle się przy tym bawimy nie ma aż tak wielkiego znaczenia wobec celu pierwszego.
Proszę obalić tezę, że popularność Wikipedia zawdzięcza jakości swojego kontentu a nie pierwszym miejscom spośród miliona wskazań (często pewnie lepszym niż wskazanie na wiki) w wynikach guglania jakiegoś słowa. Jeśli obalić się nie da, to będzie to oznaczało, że wiki jest już uwikłana w relacje w biznesem. Oczywiście można z pozycji religijnych udawać, że tak nie jest, ale z takimi osobami ja osobiście nie będę w stanie porozumieć się, gdyż uważam, że uwikłanie jest. Może nawet groźniejsze niż jestem w stanie podejrzewać.
Uroczy sofizmat, ale podajac jakąś tezę to ty masz ją udowodnić, a nie zakładać, że jest poprawna aż ktoś inny Cię przekona, że się mylisz.
Ale póki co nie widzę powodu, aby w takiej sytuacji nie wspierać - oczywiście jeśli ma to sens i służy Wikipedii, czyli celowi pierwszemu - i współpracować z takim ciekawym rodzimym przedsięwzięciem jak choćby Netsprint. Zresztą ludzie od niego też rodzimi ;-) i sympatyczni.
Wikipedia to "wspólna piaskonica" ;) Programisciu nie są tu jakąś uprzywilejowaną grupą.
Wikipedia to "wspólna piaskonica" ;) Programisciu nie są tu jakąś uprzywilejowaną grupą.
Co więcej, są nawet mniej uprzywilejowani, bo wszelkie zmiany dotyczące Wikipedii jako całości powinny być przedyskutowane na szerszym forum wszystkich Wikipedystów.
Siłą Wikipedii jest ilość edytujących. Jeśli pozostaniemy w czystym wikikodzie, to jest większa szansa, że ludzie mogą pojąc co się dzieje i czuć się częścią społeczności. Jeśli jednak zaczniemy się bawić w programowanie wszystkiego i wszędzie to zdegradujemy WIĘKSZOŚĆ Wikipedystów do poziomu redagowaczy - nie będą już oni częścią społeczności, a tylko zwykłymi wyrobnikami dostarczającymi suche dane. Już teraz oskarża się administratorów, że są zamkniętą kliką. Chyba jednak nie tędy droga.
Nie wspomnę już o tym, że w obecnym stanie Wikipedia działa dość skutecznie. Czy naprawdę jest sens bawić się w takie kilometrowe dysputy? Przez ten cały zmarnowany czas każdy z nas mógły opracować co najmniej jeden artykuł. I chyba nie da się zaprzeczyć, że to jest o wiele wiele ważniejsze ;-)
Pozdrawiam
Zureks
| -----Original Message----- | From: ... Stan Zurek | Sent: Thursday, May 10, 2007 11:50 AM / | Siłą Wikipedii jest ilość edytujących.
A co z jakością edytujących?
| Jeśli pozostaniemy w czystym wikikodzie, to jest większa szansa, | że ludzie mogą pojąc co się dzieje i czuć się częścią społeczności.
Zgłaszamy wniosek wyłączenie parsera, infoboksów i przypisów?
/ | Czy naprawdę jest sens bawić się w takie kilometrowe dysputy?
Psłszne wpwdm sę w tlgrfcznm skrce i pndzę edtwć :-P
| -----Original Message----- | From: ... Witek1988 | Sent: Thursday, May 10, 2007 12:46 PM / | "Witamy w Wikipedii - wolnej encyklopedii, którą każdy może | redagować.", a adresować coś do wiekszej liczby ludzi, niż do | wszystkich się raczej nie da... | | Polecam też do ... zajżeć.
ZajRZzałem. Nic nowego. Mowa o drugim celu - możliwości edytowania. Oczywiście to mój PoV, że ten cel jest drugi, zapewne są tacy, którzy uważają to za cel pierwszy, a nawet jedyny.
/ | Pierwszym celem powinno być stworzenie dobrej jakości | encyklopedii, popularnośc jest znacznie mniej ważna.
Polecam zajRZeć do http://pl.wikipedia.org/wiki/Worse_is_Better - w kontekście jakości na przykładzie Nupedia vs. Wikipedia.
| -----Original Message----- | From: ... Radomil Binek | Sent: Thursday, May 10, 2007 11:33 AM / | Sorki, ale ...
Odpowiedzi warte - poważnie - dyskusji, ale ponieważ jak sadzę pod moim adresem padło stwierdzenie Zureksa o kilometrowych dyskusjach, to sorki, nie będę nadużywał cierpliwości. Pzdr., Janusz "Ency" Dorożyński
10-05-07, Dorożyński Janusz dorozynskij@wampnm.webd.pl napisał(a): [...]
| Pierwszym celem powinno być stworzenie dobrej jakości | encyklopedii, popularnośc jest znacznie mniej ważna.
Polecam zajRZeć do http://pl.wikipedia.org/wiki/Worse_is_Better
Czyli jak dla mnie znowu teraz chcemy mieć treść, a nie publiczność:)
w kontekście jakości na przykładzie Nupedia vs. Wikipedia.
Czyli Wikipedia zawierała dużo więcej treści, bo każdy mógł ją bez problemu dodawać. Dalej utwierdzasz mnie tylko w moim zdaniu.
A tak na marginesie, to ciekawe kiedy na poważnie na Wikipedii zaczną się konflikty w stylu praktyczne i popularne vs. dobrej jakości i wolne (w tym niepowiązane z tym co nie jest wolne)
A tak na marginesie, to ciekawe kiedy na poważnie na Wikipedii zaczną się konflikty w stylu praktyczne i popularne vs. dobrej jakości i wolne (w tym niepowiązane z tym co nie jest wolne)
Nie wywołuj wilka z lasu :) inkluzjoniści i delecjoniści już od dawna wytwarzają nową równowagę wszechświata :p
przykuta
Czy naprawdę jest sens bawić się w takie kilometrowe dysputy?
To nie było do nikogo. Chodzi mi tylko o to, że gadamy w kółko (chyba już z 50 listów w tym wątku) - lepiej wziąć się do wikiroboty przez ten czasy.
Jeśli "worse is better" to nie ma sensu bardziej komplikować implementacji - czym prościej tym ławiej, szybciej (zarówno dla człowieka jak i dla serwerów) i mniej komplikacji.
Zgłaszamy wniosek wyłączenie parsera, infoboksów i przypisów?
Akurat osobiście nie lubię mnożenia szablonów i infoboksów (wiem, wiem to tylko moje zdanie), bo nie jestem w stanie być na bieżąco. Nie mówiąc już o tym, że wygląd poszczególnych szablonów, infoboksów i formatownia nie jest spójny, przez co czytelnik (a to przecież wszystko dla niego!) może odnieść czasami wrażenie pstrokacizny.
Tak mi się teraz zamarzyło, żeby mieć jakiś jeden super wikiprosty, uniwersalny, automagiczny infoboks (coś jakby tabela), który można było używać we wszelkich celach. Ech... ;-)
Pozdrawiam
Zureks
Stan Zurek napisał(a):
Czy naprawdę jest sens bawić się w takie kilometrowe dysputy?
To nie było do nikogo. Chodzi mi tylko o to, że gadamy w kółko (chyba już z 50 listów w tym wątku) - lepiej wziąć się do wikiroboty przez ten czasy.
Jest czas na łowienie ryb i na suszenie sieci. =} Gdybym nie był ciekaw dyskusji to bym nie siedział na liście dyskusyjnej... Ważne tylko żeby czasem zmienić temat, a nie próbować rozkładać wszystko na atomy. Czasem trzeba spojrzeć całościowo.
Mnie się zdaje, że temat tych szablonów disambigacji wywołuje takie reakcje, bo dotyczy szerokiego problemu, o którym zresztą z Michałem rozmawialiśmy - jak pogodzić możliwości z wygodą. I MSZ to zawsze będzie kompromis, tak jak w kwestiach bezpieczeństwa.
Ja chętnie bym widział np. jakieś AJAX-owe GUI do edycji. Te przyciski nad okienkiem trochę udają taką graficzną edycję, do której użytkownicy są przyzwyczajeni - tu anegdotka o tym jak bardzo: na kursie dla początkujących nowa użytkowniczka kilka razy kliknęła ikonkę pogrubienia, bo "nie zadziałało" jej od razu.
Z drugiej strony moi rozmówcy słusznie zwracali uwagę, że nie wystarczy w ten sposób wprowadzać treść. Taki graficzny "edytor wiki" musiałoby służyć także do kolejnych edycji tekstu/tabeli/szablonu itp., a to już nie jest trywialne zadanie. Ale istnieją przecież graficzne edytory HTML, które pozwalają też na ręczną edycję źródła, więc być może w tym kierunku to pójdzie. Ostatecznie składnia Wiki to tylko jeden z pomysłów na uproszczenie życia Zwykłych Użytkowników.
Inny kierunek to podział na autorów i redaktorów - ja na Wikipedii "żyję" niemal wyłącznie z redagowania, bo to lubię bardziej i na tym się znam, a roboty i tak mam po pachy. Z tym, że ten podział nie jest sztywny - zawsze mogę samorzutnie zamienić się w autora i stworzyć jakieś hasło, albo zrobić fotkę, i to jest w Wiki fajne i wyjątkowe. Już dziś są także ludzie "od botów", "od grafik wektorowych", mamy całą masę wikiprojektów, które też się na czymś konkretnym skupiają, i nic w tym dziwnego - rozrastamy się i albo się ogarnia całość rezygnując ze szczegółów, albo ma się swoją "działkę" i współpracuje z innymi "działkowcami".
Ilustracje z mojego podwórka: chociaż mam naturę wikiwłóczykija, i klikam często w różnych miejscach od prawie 3 lat, to w moich obserwowanych (czyli odwiedzonych kiedykolwiek) i tak mam zaledwie 3% wszystkich stron! Podobnie z kategoriami - już nie odważam się kategoryzować wielu haseł, bo nie znam systemów wymyślonych dla pewnych kategorii; a przecież to ja byłem tym botem, który kiedyś zdołał sam ręcznie wypełnić całą szeroką kategorię "informatyka". =} Teraz już by się tak nie dało, dlatego wstawiam kategorię "?" i zostawiam to osobom, które się parają właśnie dopasowywaniem haseł do kategorii.
Możliwe więc, że klasyczny podział zadań wydawniczych autor/redaktor/korektor/recenzent/składacz znajdzie i u nas jakieś odzwierciedlenie. Tylko jest kolosalna różnica: w odróżnieniu np. od niektórych systemów CMS czy wydawnictw, gdzie te role są przydzielane na sztywno i odgórnie przez kierownictwo projektu, u nas będzie się to działo samorzutnie, zgodnie z predyspozycjami i umiejętnościami uczestników. Prawdopodobnie będzie to miało takie konsekwencje, że każdy Wikipedysta prawie od początku będzie się uczył jakiejś specjalizacji, a jednocześnie ludzie, którzy nie potrafią efektywnie współpracować, zaczną zanikać w Wikipedii (i innych projektach siostrzanych, które przekroczą masę krytyczną).
Myślę, że właśnie do takich dyskusji idealnie nadaje się planowane spotkanie GDJ ("Gdzie jesteśmy? Dokąd zmierzamy? Jak?" - http://meta.wikimedia.org/wiki/GDJ), na które tak zaprasza Przykuta. Moim zdaniem wątek z szablonami sygnalizuje, że jest potrzeba ustalania raz na jakiś czas generalnych kierunków rozwoju Wikimediów. Nie na zawsze, ale na jakiś odcinek. Jak ktoś porównywał kiedyś stare i nowe artykuły "na medal" to rozumie, że chodzi o rozwijanie się etapami, a nie łapanie od razu ideału za nogi. Nawet najlepsze plany trzeba umieć korygować po drodze, ale to nie znaczy, że nie warto planować i zaglądać w przyszłość.
A co do samej sprawy disambigów - te zalecenia ręcznej edycji są bardzo konkretnym wynikiem dyskusji i na chwilę obecną myślę że to najlepsze i najprostsze wyjście.
On 5/10/07, Daniel Koć kocio@linuxnews.pl wrote:
Ja chętnie bym widział np. jakieś AJAX-owe GUI do edycji. Te przyciski nad okienkiem trochę udają taką graficzną edycję, do której użytkownicy są przyzwyczajeni - tu anegdotka o tym jak bardzo: na kursie dla początkujących nowa użytkowniczka kilka razy kliknęła ikonkę pogrubienia, bo "nie zadziałało" jej od razu.
Z drugiej strony moi rozmówcy słusznie zwracali uwagę, że nie wystarczy w ten sposób wprowadzać treść. Taki graficzny "edytor wiki" musiałoby służyć także do kolejnych edycji tekstu/tabeli/szablonu itp., a to już nie jest trywialne zadanie. Ale istnieją przecież graficzne edytory HTML, które pozwalają też na ręczną edycję źródła, więc być może w tym kierunku to pójdzie. Ostatecznie składnia Wiki to tylko jeden z pomysłów na uproszczenie życia Zwykłych Użytkowników.
Polecam rzut okiem na: http://en.wikipedia.org/wiki/Wikipedia:WikiProject_User_scripts/Scripts#Edit...
Czy naprawdę jest sens bawić się w takie kilometrowe dysputy?
To nie było do nikogo. Chodzi mi tylko o to, że gadamy w kółko (chyba już z 50 listów w tym wątku) - lepiej wziąć się do wikiroboty przez ten czasy.
[[Wikiprojekt:Usprawnianie disambigów]] i lecimy - dyskusja w toku - na stronie dyskusji projektu.
przykuta
Witam, ponieważ propozycja wisiała w kawiarence już ładnych parę dni i nikt nie protestował, zaktualizowałem opis zaleceń edycyjnych dla stron ujednoznaczniających (http://pl.wikipedia.org/wiki/Wikipedia:Strony_ujednoznaczniaj%C4%85ce) zgodnie z wnioskami, do których wspólnie doszliśmy. Jeśli ktoś ma dalsze uwagi to proszę o poprawki i/lub komentarze na liście.
Przygotowałem wstępną wersję kodu interpretującego strony ujednoznaczniające i wygląda, że mechanizm dość dobrze działa - jest nieco fałszywek, tj. stron pasujących do formatu ale zawierających w miejscu "wybranego" linku link przypadkowy, ale stron tych jest mniej niż się spodziewałem. Aby ułatwić sobie i innym wykrywanie i stopniowe poprawianie disambigów w celu doprowadzenia jak największej ich części do ustalonego formatu, wygenerowałem listę statusu poszczególnych stron, zawierającą liczbę linków branych pod uwagę, liczbę linków zgodnych z formatem oraz flagę określającą symbolicznie jak bardzo strona wymaga dopracowania ("wszystkie linki dobre", "przynajmniej połowa linków dobra" itd.). Dane oraz ich opis umieściłem pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Są tam dane świeże, bo z 14 maja oraz dla porównania analogiczne dane wg zrzutu z 26 marca.
A oto garść statystyk z wersji majowej: 25521 przetworzonych stron ujednoznaczniających 76158/101499 = 0,750333 udział dobrych linków wśród wszystkich linków 18866 stron ze wszystkimi linkami dobrymi 4264 strony z przynajmniej połową dobrych linków 468 stron z mniej niż połową dobrych linków 1669 stron bez dobrych linków 254 strony w ogóle bez linków w ustalonym formacie (w tym mogą się też mieścić ewentualne strony, na których mój parser głupieje)
Pozdrawiam, Michał
Michal Kosmulski napisał(a):
zgodnie z wnioskami, do których wspólnie doszliśmy. Jeśli ktoś ma dalsze uwagi to proszę o poprawki i/lub komentarze na liście.
niż się spodziewałem. Aby ułatwić sobie i innym wykrywanie i stopniowe poprawianie disambigów w celu doprowadzenia jak największej ich części do ustalonego formatu, wygenerowałem listę statusu poszczególnych stron,
Zacząłem od tych najgorszych (---) po kolei od góry i znalazłem np. hasło "dyskryminacja", które wygląda tak:
* [[dyskryminacja (prawo)|dyskryminacja]] (prawo) * [[dyskryminacja (psychologia społeczna)|dyskryminacja]] (psychologia społeczna) * [[dyskryminacja (psychoakustyka)|dyskryminacja]] (psychoakustyka) * [[dyskryminacja pozytywna]]
Wydaje mi się, że parser powinien to łyknąć, bo są 3 x pojedyncze linki od razu z lewej z dookreśleniem w nawiasie oraz jeden nawet bez tego nawiasu, czyli prosty jak budowa cepa.
Podobna sytuacja z BBWR:
* [[Bezpartyjny Blok Współpracy z Rządem]] ([[1928]]-[[1935]]) * [[Bezpartyjny Blok Wspierania Reform]] ([[1993]]-[[1997]])
Może powinna być reguła, że jeśli po linku jest tylko nawias, to ma uznawać ten link niezależnie od treści nawiasu?
A czy w przypadku hasła Cm o takiej postaci:
* Cm (''curium'') - [[symbolika chemiczna|symbol chemiczny]] [[Pierwiastek|pierwiastka]] [[Kiur (pierwiastek)|kiur]] * cm - skrót jednostki długości [[centymetr]]
wystarczyłoby tylko przerzucić linki z prawej na lewą:
* [[Kiur (pierwiastek)|Cm]] (''curium'') - symbol chemiczny pierwiastka kiur * [[centymetr|cm]] - skrót jednostki długości centymetr
czy jakoś inaczej to powinno być?
Chętnie się pobawię w poprawianie tych haseł, ale przy tej ilości przydałby się jakiś prosty mechanizm "odhaczania" przejrzanych haseł, najlepiej przez kliknięcie na formularzu HTML (np. pola o znaczeniu: poprawione/było OK/problem z poprawą itp.), żeby był szybki feedback do testowania parsera. Dla wygody proponuję podzielić to na strony według znaczników nadanych przez parser (osobno +, osobno -- itp.) i posortować alfabetycznie.
Może powinna być reguła, że jeśli po linku jest tylko nawias, to ma uznawać ten link niezależnie od treści nawiasu?
Faktycznie - wygląda, że działa to dość dobrze. Dodałem taką regułę i podmieniłem listę artykułów. Po uwzględnieniu tej zmiany, statystyki wyglądają nastepująco: 25521 disambig-status 4214 disambig-status-- 388 disambig-status--- 1566 disambig-status---- 254 disambig-status-! 19099 disambig-status-+
0,754428 dobrych linków
Zaktualizowałem też zalecenia redakcyjne.
A czy w przypadku hasła Cm o takiej postaci:
- Cm (''curium'') - [[symbolika chemiczna|symbol chemiczny]]
[[Pierwiastek|pierwiastka]] [[Kiur (pierwiastek)|kiur]]
- cm - skrót jednostki długości [[centymetr]]
wystarczyłoby tylko przerzucić linki z prawej na lewą:
- [[Kiur (pierwiastek)|Cm]] (''curium'') - symbol chemiczny pierwiastka kiur
- [[centymetr|cm]] - skrót jednostki długości centymetr
Tak, zgadza się.
Chętnie się pobawię w poprawianie tych haseł, ale przy tej ilości przydałby się jakiś prosty mechanizm "odhaczania" przejrzanych haseł, najlepiej przez kliknięcie na formularzu HTML (np. pola o znaczeniu: poprawione/było OK/problem z poprawą itp.), żeby był szybki feedback do testowania parsera. Dla wygody proponuję podzielić to na strony według znaczników nadanych przez parser (osobno +, osobno -- itp.) i posortować alfabetycznie.
Bardzo się cieszę z wszelkiej pomocy. Rozbite i posortowane pliki umieściłem w plikach o nazwach disambig-status-<status> pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Z odhaczaniem może być trudniej, bo tak prosto mechanizmu do zapamiętywania co było zmienione to nie uda mi się zrobić. Chyba żeby jakąś stronę w Wikipedii dodać i tam zaznaczać zmiany. Ale to chyba nie byłoby zbyt wygodne, nie wiem też czy długie listy (kilkanaście tysięcy wierszy) to jest dobry rodzaj tekstu do umieszczania w Wiki.
Pozdrawiam, Michał
A tak swoją drogą, to jest np. strona ujednoznaczniająca "Wskaźnik": http://pl.wikipedia.org/wiki/Wska%C5%BAnik i to co tam jest podane (fragment): * w [[chemia|chemii]]: związek chemiczny, który przez zmianę zabarwienia umożliwia ocenę odczynu ** [[lakmus]] ** [[oranż metylowy|oranż metylowy]] ** [[wskaźnik izotopowy]]
to chyba z samej natury nie pasuje do strony ujednoznaczniającej? To są przykłady wskaźników a nie różne znaczenia słowa wskaźnik. Może takie strony należałoby przebudowywać zostawiając tylko ujednoznacznienia, a przykłady przerzucając np. do "Zobacz też"?
I przepraszam za nienetykietową sygnaturkę w poprzednim liście.
Pozdrawiam, Michał
A tak swoją drogą, to jest np. strona ujednoznaczniająca "Wskaźnik": http://pl.wikipedia.org/wiki/Wska%C5%BAnik i to co tam jest podane (fragment):
- w [[chemia|chemii]]: związek chemiczny, który przez zmianę zabarwienia
umożliwia ocenę odczynu ** [[lakmus]] ** [[oranż metylowy|oranż metylowy]] ** [[wskaźnik izotopowy]]
to chyba z samej natury nie pasuje do strony ujednoznaczniającej? To są przykłady wskaźników a nie różne znaczenia słowa wskaźnik. Może takie strony należałoby przebudowywać zostawiając tylko ujednoznacznienia, a przykłady przerzucając np. do "Zobacz też"?
I przepraszam za nienetykietową sygnaturkę w poprzednim liście.
Pozdrawiam, Michał
Ten sam przypadek co nóż
http://pl.wikipedia.org/w/index.php?title=N%C3%B3%C5%BC&oldid=5540618
Spokojnie można podać definicje wskaźnika i wymienić typy wskaźników, a nawet zrobić tabelkę dla wskaźników z różnych dziedzin wiedzy. IMO jest sporo takich list, które udają disambigi ;)
przykuta
Spokojnie można podać definicje wskaźnika i wymienić typy wskaźników, a nawet zrobić tabelkę dla wskaźników z różnych dziedzin wiedzy. IMO jest sporo takich list, które udają disambigi ;)
Pytanie, czy powinny udawać :) Dla mnie to jest jednak raczej podobne do "luźnego skojarzenia", więc może powinno być w osobnej sekcji, powiedzmy "Rodzaje wskaźników"? Pozdrawiam, Michał
Michal Kosmulski napisał(a):
http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Z odhaczaniem może być trudniej, bo tak prosto mechanizmu do zapamiętywania co było zmienione to nie uda mi się zrobić. Chyba żeby jakąś stronę w Wikipedii dodać i tam zaznaczać zmiany. Ale to chyba nie byłoby zbyt wygodne, nie wiem też czy długie listy (kilkanaście tysięcy wierszy) to jest dobry rodzaj tekstu do umieszczania w Wiki.
Zdecydowanie zły, dlatego proponowałem w ten sposób. Ale skoro to by było kłopotliwe to proponuję jeszcze inaczej: bardziej niż dane w postaci czystego tekstu interesuje mnie zwykła tabela w htmlu, w której kliknięcie na tytuł hasła przenosi mnie od razu do jego edycji.
Może faktycznie odhaczanie to za ciężki mechanizm, ale w takim razie proponuję coś prostego: link nie byłby bezpośrednio do Wikipedii, tylko do jakiegoś skryptu, który najpierw zapamiętywałby kliknięcie, a następnie robił przekierowanie.
To oczywiście nie daje pełnego obrazu, ale jest duże prawdopodobieństwo, że jak ktoś kliknął, to pewnie po to żeby poprawiać, i warto się tym hasłom ponownie przyjrzeć za jakiś czas. Chyba że taki feedback specjalnie nic ci nie daje, to wtedy zwykłe przekierowanie, choć z drugiej strony skrypcik mógłby np. zaznaczać hasła w tabeli, które ktoś już odwiedzał z tej strony, żeby było wiadomo na bieżąco którymi pewnie już się ktoś zajął.
Michal Kosmulski napisał(a):
podmieniłem listę artykułów. Po uwzględnieniu tej zmiany, statystyki wyglądają nastepująco: 25521 disambig-status 4214 disambig-status-- 388 disambig-status--- 1566 disambig-status---- 254 disambig-status-! 19099 disambig-status-+
0,754428 dobrych linków
Popatrzyłem pobieżnie na listę najcięższych przypadków (---) i znalazłem trzy większe grupy:
1. Hrabstwo xxx (421)
Schemat chyba wrzucany z bota: *hrabstwo xxx (ang. xxx County) w USA, w stanie yyy
wystarczy więc pewnie botem przejechać, żeby były myślniki, np w formie: *hrabstwo xxx (ang. xxx County) - hrabstwo w USA, w stanie yyy
2. Synagoga xxx w yyy (30)
To chyba też botem można naprawić z: *Synagoga xxx w yyy przy ulicy zzz
na: *Synagoga xxx w yyy - przy ulicy zzz
3. USS xxx (260) i HMS xxx (14)
Jak to powinno się naprawiać? Bo widzę, że są różne style definiowania: * przecinki zamiast myślników * słowo "był" albo "nosił nazwę" * wyliczanki "pierwszy xxx, drugi xxx" (http://pl.wikipedia.org/wiki/USS_Massachusetts)
Czy dla parsera problemem są opisy w postaci tekstu z linkami przed listą?
Cześć,
Schemat chyba wrzucany z bota:
fajnie, że zwróciłeś na to uwagę. Byłoby super gdyby dało się część poprawek zrobić automatycznie.
Czy dla parsera problemem są opisy w postaci tekstu z linkami przed listą?
Nie do końca rozumiem pytanie. Czy chodzi o obsługę takich sytuacji jak poniżej?
* Nazwisko Kowalski nosili również [[poeta|poeci]]: ** [[Jan Kowalski]] ** [[Kazimierz Kowalski]]
W takim przypadku, bot pierwszy wiersz policzy jako błędny, bo nie jest on zgodny z formatem. Trudno na to coś poradzić, bo zdarzają się również przypadki w rodzaju (załóżmy że w haśle 'Kot'):
* [[Kotowate]] ** [[Kot domowy]] ** [[Kot leśny]]
gdzie pierwszy wiersz też jest istotnym linkiem. Trudno odróżnić jedną sytuację od drugiej, więc jakiś odsetek takich linków będzie policzony jako błędny mimo, że w gruncie rzeczy błędny nie jest.
Pozdrawiam, Michał
Michal Kosmulski napisał(a):
Schemat chyba wrzucany z bota:
fajnie, że zwróciłeś na to uwagę. Byłoby super gdyby dało się część poprawek zrobić automatycznie.
Po przejrzeniu czy schemat rzeczywiście się potwierdza sprawa do: http://pl.wikipedia.org/wiki/Wikipedia:Zadania_dla_bot%C3%B3w
Nie do końca rozumiem pytanie. Czy chodzi o obsługę takich sytuacji jak poniżej?
- Nazwisko Kowalski nosili również [[poeta|poeci]]:
** [[Jan Kowalski]] ** [[Kazimierz Kowalski]]
Nie, chodziło mi o pierwszy wiersz jako zwykły tekst z linkami, nie będący elementem listy (czyli nie zaczynający się od gwiazdki):
Nazwisko Kowalski nosili również [[poeta|poeci]]: ... ...
Nie, chodziło mi o pierwszy wiersz jako zwykły tekst z linkami, nie będący elementem listy (czyli nie zaczynający się od gwiazdki):
Nazwisko Kowalski nosili również [[poeta|poeci]]:
Taki wiersz jest po prostu ignorowany, bo nie zaczyna się od symbolu wypunktowania '*'. Gdyby było: * Nazwisko Kowalski nosili również [[poeta|poeci]]: to z kolei będzie ignorowany ponieważ link nie jest pierwszym słowem w wierszu, a gdyby było: * [[poeta|poeci]]: to zostanie zignorowany ponieważ nie ma po linku myślnika ani opisu w nawiasach. Dopiero: * [[poeta|poeci]] zostanie zinterpretowane i doprowadzi do powstania "fałszywego synonimu". Pozdrawiam, Michał
Jak widać w http://pl.wikipedia.org/w/index.php?title=Wikipedia:G%C5%82osowania/Regulami...
po północy są tylko dwie edycje LUCPOLa i jedna Vuvara.
A jak widać w http://pl.wikipedia.org/wiki/Wikipedia:G%C5%82osowania/Regulamin_odbierania_...
Po głosie Przykuty ja sie naprodukowałem. Gdyby byłą usunięta cała moja edycja to by mojego tekstu nie było. A tak ? Ani to wycofana edycja, ani edycja :>
Tak sobie mysle ze mogła zajść sytuacja ze ja pisząc dość długo otworzyłem do edytowania nagłówek "Komentarz do niektórych głosów "przeciw" i "separatystycznych" " natomiast LUCPOL poprawiajac swój "pogrubiony" wcześniej mocno głos klikał edytuj nagłówka "Wstrzymuję się". I tak ten problem powstał. PMG
Nie edytowales w stronie glownej glosowania tylko w jej podstronie wklejonej do niej jako "szablon" i dlatego tam masz edycje a nie w stronie glownej, choc tam mozesz przeczytac to co napisales. Ja i LUCPOL edytowalismy besposrednio w glosowaniu. Pozdrawiam... Maciej Dobrut (Vuvar1)
Hey! Wiesz, po przemyśleniu i przedyskutowaniu sprawy z kilkoma osobami doszedłem do wniosku, że jednak nie będę kandydował. Roboty mam na wiki wystarczająco dużo, żeby brać sobie na kark jeszcze cieciowanie, a zresztą jestem za słaby technicznie i pewnie nie dawałbym sobie rady. Przepraszam za zamieszanie... Pozdrawiam serdecznie Piotr Domaradzki (Belissarius)
18-05-07, Maciej Dobrut fafuk57@googlemail.com napisał(a):
Nie edytowales w stronie glownej glosowania tylko w jej podstronie wklejonej do niej jako "szablon" i dlatego tam masz edycje a nie w stronie glownej, choc tam mozesz przeczytac to co napisales. Ja i LUCPOL edytowalismy besposrednio w glosowaniu. Pozdrawiam... Maciej Dobrut (Vuvar1)
WikiPL-l mailing list WikiPL-l@lists.wikimedia.org http://lists.wikimedia.org/mailman/listinfo/wikipl-l
Skromnosc najwazniejsza cecha admina :) (choc watek zle podczepiony). Czytalem dyskusje i mialem Cie dzis o to pytac. Prosze o ponowne przemyslenie...Pozdrawiam... Naciej Dobrut (Vuvar1)
Nie będę ponownie przemyśliwał. Sprawa zamknięta - będę bardziej przydatny wiki jako autor, uczestnik kilku projektów i tzw. ekspert niż jako cieć. Przy tym moja znajomość techniki jest doprawdy żenująca i nie radziłbym sobie. To nie żadna skromność, a realne rozważenie "za" i "przeciw". Pomysł był głupi od początku do końca. Naprawdę lepiej będzie i dla mnie i dla wiki jak zostanę przy tym co umiem najlepiej, a mam przed sobą co najmniej dwa nieukończone projekty, które aż wyją "dokończ!". Jesteście mi Wszyscy bardzo życzliwi i dzięki za to, ale muszę zrezygnować. Pozdrawiam bardzo serdecznie Piotr Domaradzki (belissarius)
2007/5/18, Maciej Dobrut fafuk57@googlemail.com:
Skromnosc najwazniejsza cecha admina :) (choc watek zle podczepiony). Czytalem dyskusje i mialem Cie dzis o to pytac. Prosze o ponowne przemyslenie...Pozdrawiam... Naciej Dobrut (Vuvar1)
WikiPL-l mailing list WikiPL-l@lists.wikimedia.org http://lists.wikimedia.org/mailman/listinfo/wikipl-l
Daniel Koć napisał(a):
Popatrzyłem pobieżnie na listę najcięższych przypadków (---) i
znalazłem trzy większe
grupy:
Pomyłka, miałem na myśli "----" (4-, nie 3-).
W "--" (2-, największy zbiór) z kolei mamy:
1. Bitwa xxx
Nie rozumiem dlaczego parser ma problem z czymś takim jak Bitwa pod Arkadiopolis. Niby dwa banalne, a uznał tylko jeden z nich * [[Bitwa pod Arkadiopolis (970)]] * [[Bitwa pod Arkadiopolis (1194)]]
albo Bitwa pod Arkadiopolis, gdzie jest podobnie, a też z jednym ma problem: * [[bitwa pod Nikopolis (66 p.n.e.)]] * [[bitwa pod Nikopolis (250)]] * [[bitwa pod Nikopolis (1396)]]
może chodzi mu o kropki w nawiasie w 1. linku?
2. Jezioro xxx, Język xxx, Konrad xxx, Osiedle xxx, Partia xxx, Posłowie xxx kadencji, Przejście graniczne xxx-yyy, Rezerwat przyrody xxx, Synagoga xxx, Ulica xxx, ...
Dlaczego np. Jezioro Długie ma 9/10 trafień, a Język południowoarabski 1/2?
Czyżby jakiś systematyczny błąd w regułkach i gubi się zawsze jeden link? Może się burzy, że czasem hasło jeszcze nie utworzone (chyba nie powinien, ale nie wiem jak wyglądają te XML-e)? A może też ocenia treść linka, a tam znajduje rózne znaki typu myslniki, kropki, nawiasy, i to mu się nie podoba?
P.S.: ostatnio drugi raz już musiałem przerabiać majl, bo dostawałem "Typ wiadomości nie jest dozwolony". Czyżby wina HTML-a czy jak?
http://pl.wikipedia.org/wiki/Wikipedia:Zadania_dla_bot%C3%B3w#Generowanie_li...
Tak sie zastanawiam: Albo jest to tak strasznie i przerażająco cięzkie zadanie ze nikt nie chce sie go podjąć, ani nawet napisać ze to jest takie przerażające zadanie, albo:
1.Czy ktoś, poza świeżymi opratorami botów, zagląda na te strony ? 2.Czy naprawde na zadanie dzięki któremu bot nie wykona iluśtam małych edycji tylko jedną/kilka żaden z operatorów botów nie chce poświęcić czasu ? 3.Czy ktoś sie zajmuje "stale" tymi zadaniami ?
Ja rozumiem że głównym zadaniem wiki jest wprowadzanie nowych haseł i uzupełnianie starych - ale mała administracja też jest potrzebna.
Moim zdaniem powinno sie zadeklarować więcej osób które sie będą opiekować danymi projektami. I że jezeli jest jakiś problem to do nich atakowac. Bo tak to jest podstrona a i tak sie nikt tym nie interesuje. Tacy eksperci od jednego projektu i jednej strony.
PMG
Moim zdaniem powinno sie zadeklarować więcej osób które sie będą opiekować danymi projektami. I że jezeli jest jakiś problem to do nich atakowac. Bo tak to jest podstrona a i tak sie nikt tym nie interesuje. Tacy eksperci od jednego projektu i jednej strony.
PMG
Ktoś czasami to czyści, bo widzę na OZ, ale oczywiście warto do tego założyć Wikiprojekt administracyjny. Lidera już widze ;)
przykuta
Wydaje mi się, że Przykuta ma rację. Jest masa projektów, które powstały, ale którymi nikt się nie zajmuje. Powstały, bo ktoś tam coś skrobnął i od tego czasu wiszą w próżni - takie czarne dziury pl-wiki. Dlatego też - mimo że dotąd zgłaszałem sprzeciw, bo nie widziałem takiego sensu - zaproponuję swoje usługi jako admin, bo jest co najmniej kilka projektów, które mógłbym obsłużyć. Tak naprawdę to jest nas "żywych" na wiki bardzo mało - mimo imponującej listy - i ktoś tę robotę musi wykonywać. Znaczny odsetek zgłoszonych wikipedystów to w rzeczywistości martwe dusze, znam co najmniej kilka osób, które tylko w wakacje mają czas (wcale ich za to nie winię, ale...), są tacy users, których widać tylko okazjonalnie, ale są także tacy, którzy - niczym mróweczki - dłubią sobie po cichu, a jak wydłubią zgłaszają art - często - medalowy. Tych ostatnich trzeba nam najbardziej, ale administracyjne mrówki też są potrzebne. Ja nie będę z pewnością dobrym adminem, bo też nie mam czasu, ale na pewno jestem obecny codziennie (dla Was conocnie) i z reguły przebiegam wszystko, co przebiec zdołam "cieciem" nie będąc. Mam nadzieję, że się przydam. ~~~~
WikiPL-l mailing list WikiPL-l@lists.wikimedia.org http://lists.wikimedia.org/mailman/listinfo/wikipl-l
Czesc.
Nie rozumiem dlaczego parser ma problem z czymś takim jak Bitwa pod Arkadiopolis. Niby dwa banalne, a uznał tylko jeden z nich
- [[Bitwa pod Arkadiopolis (970)]]
- [[Bitwa pod Arkadiopolis (1194)]]
Dlaczego np. Jezioro Długie ma 9/10 trafień, a Język południowoarabski 1/2?
Mój błąd. Problem objawiał się wtedy gdy ostatni wpis na stronie zawierał tylko link (bez opisu tekstowego po myślniku) a po nim nie występował pusty wiersz. Poprawiłem i od zmieniły się statystyki: 25521 disambig-status 2083 disambig-status-- 361 disambig-status--- 1516 disambig-status---- 254 disambig-status-! 21307 disambig-status-+
Załadowałem pod poprzedni adres zaktualizowane listy dokumentów (może być konieczne przeładowanie strony przez kliknięcie na Reload z Ctrl, bo serwer czasem keszuje stronę i pokazuje starą wersję).
Pozdrawiam, Michał
Michal Kosmulski napisał(a):
Mój błąd. Problem objawiał się wtedy gdy ostatni wpis na stronie zawierał tylko link (bez opisu tekstowego po myślniku) a po nim nie występował pusty wiersz. Poprawiłem i od zmieniły się statystyki: 25521 disambig-status 2083 disambig-status-- 361 disambig-status--- 1516 disambig-status---- 254 disambig-status-! 21307 disambig-status-+
Ha, i od razu z 0,754428 dobrych linków się zrobiło 0,834881078. =} Głównie kosztem 2-, które zmalało o połowę. Moim zdaniem ten wynik potwierdza, że metoda ręcznych poprawek stylu disambigów jest dobra, bo prosta i czytelna dla ludzi, a jakiejkolwiek poprawki, nawet trywialnej, wymaga niecałe 17% haseł. Nieźle jak na stan surowy.
Ale do roboty: kolejny rodzaj to !, gdzie chyba wpadły disambigi, które mają sekcje -- inne niż "Zobacz też". Wydaje mi się, że parser powinien je po prostu pomijać, bo służą tylko zwiększeniu czytelności w hasłach dotyczących bardzo popularnych nazw, a linki są robione zwykle porządnie. Zatrzymywać się powinien tylko po znalezieniu specjalnej sekcji "Zobacz też". Na razie ! to mały zbiorek, ale z czasem disambigi zacznie puchnąć i zastosowanie sekcji będzie naturalnym odruchem.
No i ostatni zbiór problemowych disambigów na tej liście, też niewielki, 3-. Tu w zasadzie też tylko problem z sekcjami jest regularny, reszta to np. przecinki do zamiany na myślniki i inne takie.
Właściwie do dokładniejszej analizy pozostają tylko dwie sprawy: * listy wielostopniowe/zagnieżdżone (pewne elementy listy składają się z dodatkowego wypunktowania) * konstrukcje typu "[[coś]] (ewentualny nawias) w/przy/na/nad/koło/... ewentualnie_jakieś [[miejsce]]"
bo zdaje się będą generować stosunkowo dużo pominięć tego parsera, a mogą się pojawiać także w przyszłości. W tym drugim przypadku mieszczą się te liczne hrabstwa i jeśli przyjmiesz regułę, że takie wyrażenia z "w/..." są OK, to nawet nie będzie trzeba kłopotać bota o wstawianie myślników do tych disambigów.
Myślę, że po załatwieniu problemów z pomijaniem sekcji i ewentualnie kwestii wyrażeń z "w/..." można będzie się brać za ręczne poprawki.
P.S.: jeśli nikogo więcej nie interesują szczegóły i nie planuje się przyłączyć do analizy ani poprawiania disambigów, to możemy przejść na priva. Za jakiś czas podalibyśmy tylko efekty na listę albo na tablicę ogłoszeń.
| -----Original Message----- | From: ... Daniel Koć | Sent: Friday, May 18, 2007 2:22 PM / | P.S.: jeśli nikogo więcej nie interesują szczegóły i nie | planuje się przyłączyć do analizy ani poprawiania disambigów, | to możemy przejść na priva. Za jakiś czas podalibyśmy tylko | efekty na listę albo na tablicę ogłoszeń.
Zgłaszam się jako interesujący się :-)) i chętnie obserwujący owocne skutki tematu urodzonego na liście. Co do pracy "ręcamy" to mogę spróbować.
Pzdr., Janusz "Ency" Dorożyński
Cześć, umieściłem pod tym samym adresem co zwykle nową listę disambigów, tym razem uwzględniającą już linki z sekcji innych niż "Zobacz też" i "Zobacz także". Faktycznie, liczba pozycji ze statusem '!' zmniejszyła się około dwukrotnie.
Pozdrawiam, Michał
umieściłem pod tym samym adresem co zwykle nową listę disambigów, tym razem uwzględniającą już linki z sekcji innych niż "Zobacz też" i "Zobacz także". Faktycznie, liczba pozycji ze statusem '!' zmniejszyła się około dwukrotnie. Pozdrawiam, Michał
Sorry, bo nie sledziłem wątku, ale o co chodzi z tym "Zobacz także"? Na Wikpedii nie ma czegoś takiego, obowiązuje tylko "Zobacz też".
Beno
Sorry, bo nie sledziłem wątku, ale o co chodzi z tym "Zobacz także"? Na Wikpedii nie ma czegoś takiego, obowiązuje tylko "Zobacz też".
Chodzi tylko o to, ze jesli ktos przez pomylke wpisal "Zobacz takze", to parser zorientuje sie ze to mialo byc "Zobacz tez" i potraktuje odpowiednio :) Pozdrawiam, Michal
Sorry, bo nie sledziłem wątku, ale o co chodzi z tym "Zobacz także"? Na Wikpedii nie ma czegoś takiego, obowiązuje tylko "Zobacz też".
Chodzi tylko o to, ze jesli ktos przez pomylke wpisal "Zobacz takze", to parser zorientuje sie ze to mialo byc "Zobacz tez" i potraktuje odpowiednio :)
Pozdrawiam, Michal
Jeeezu... kogo mam ozłocić? :-)))
Beno
Michał Kosmulski napisał(a):
Chodzi tylko o to, ze jesli ktos przez pomylke wpisal "Zobacz takze", to parser zorientuje sie ze to mialo byc "Zobacz tez" i potraktuje odpowiednio :)
To znaczy poprawi? =} Serio -- skoro i tak będziecie parsować całą bazę, to wyniki wyłapanych błędów powinny spływać gdzieś dla bota, który się takimi pierdółkami zajmuje (OIP http://pl.wikipedia.org/wiki/Wikipedysta:DonnerJack.bot). Na wszelki wypadek przypominam, że niekiedy występują też (również błędne) formy z dwukropkiem na końcu.
Gwoli przypomnienia gdzie teraz jesteśmy: czekamy na ustalenia w sprawie disambigów "USS/HMS", disambigów z "w/..." (to obejmuje zarówno przypadki "w Pcimiu" jak i "w fizykochemii") oraz list zagnieżdżonych (z dwoma gwiazdkami i więcej). Pierwsze to kwestia decyzji, drugie i trzecie to kwestia sprawdzenia parserem jak to idzie i sygnału, czy efekty są dobre.
To znaczy poprawi? =} Serio -- skoro i tak będziecie parsować całą bazę, to wyniki wyłapanych błędów powinny spływać gdzieś dla bota, który się takimi pierdółkami zajmuje (OIP http://pl.wikipedia.org/wiki/Wikipedysta:DonnerJack.bot). Na wszelki wypadek przypominam, że niekiedy występują też (również błędne) formy z dwukropkiem na końcu.
Do tego nie trzeba zaprzegac az takiego kombajnu jak ten parser - wystarczy prosty skrypcik w awku:
awk '/<title>/{t=$0; t=gensub(".*<title>(.*)</title>.*","\1","g");}/^ *=+.*[Zz]obacz +(te[zż].*:|tak[zż]e)/{print t "\t" $0;}' < plwiki-xxxx.xml
W zrzucie z 14 maja znalazlo sie 4762 takich zlych wpisow. Umiescilem je w pliku zle-zobacz-tez pod adresem http://netsprint.pl/publikacje/generowane-z-wikipedii/ . Format pliku jest nastepujacy: Tytul artykulu <TAB> Zly naglowek sekcji
W jaki sposob zglosic te dane do poprawienia przez bota?
Gwoli przypomnienia gdzie teraz jesteśmy: czekamy na ustalenia w sprawie disambigów "USS/HMS", disambigów z "w/..." (to obejmuje zarówno przypadki "w Pcimiu" jak i "w fizykochemii") oraz list zagnieżdżonych (z dwoma gwiazdkami i więcej). Pierwsze to kwestia decyzji, drugie i trzecie to kwestia sprawdzenia parserem jak to idzie i sygnału, czy efekty są dobre.
Jesli chodzi o listy zagniezdzone, to sa teraz obslugiwane - po prostu kazde wypunktowanie jest traktowane tak samo, bez wzgledu na poziom wciecia. Wyglada, ze dziala to dosc dobrze, tyle ze zglasza pewna liczbe falszywych bledow (wiersze nie zawierajace zadnego linku sa liczone jako blad mimo ze sa poprawne). Jest tego jednak na tyle malo ze nie stanowi to moim zdaniem wielkiego problemu.
Co do punktow o tresci "costam w gdziestam", to nie chce w to wchodzic, z dwoch glownych powodow: a) Jesli obslugujemy format "ABC w XYZ", to powinnismy tez lapac "we XYZ" ("we Wroclawiu"), "na XYZ" ("na Sycylii") i byc moze pare innych. To jednak prowadzi do stopniowej komplikacji parsera i jest swoista rownia pochyla, bo zawsze moze sie okazac ze trzeba dodac jeszcze jedno wyrazenie do listy i potem jeszcze jedno itd. Ostatecznym wynikiem moze byc strasznie zlozony zbior regul, ktorego utrzymanie i testowanie bedzie bardzo trudne. b) Nawet dla wyrazen typu "w costam" widze sporo sytuacji, gdzie ujednoznacznienie ma format zgodny z szablonem, ale link na pierwszej pozycji nie jest tym wlasciwym. W szczegolnosci, takie zachowanie moze wykazywac grupa hasel typu "jednowierszowe definicje" (czyli to, co wlasciwie powinno byc w wikislowniku), np. * [[wulkan]] na Sycylii * [[teatr]] w Nowym Saczu
Im wiecej "szablonow" obslugujemy, tym wiecej mozliwosci ze sie przeslizna takie niewlasciwe hasla. O ile w przypadku formatu z myslnikiem ryzyko jest niewielkie, o tyle dla formatow takich jak opisane wyzej, jest ono znacznie wieksze i nawet jesli w pewnym momencie wkladajac w to sporo wysilku upewnimy sie ze nic takiego nie ma w biezacej wersji, to jest neimal pewne ze wkrotce ktos kto nie wie o zaleceniach przypadkiem dopisze takie pozycje.
Pozdrawiam, Michal
Michal Kosmulski napisał(a):
W jaki sposob zglosic te dane do poprawienia przez bota?
Na stronie DonnerJack.bota jest prośba, żeby wszystko zgłaszać do dyskusji operatora, więc napisałem krótko o sprawie ABachowi. Mam nadzieję, że już bezpośrednio się dalej dogadacie.
Jesli chodzi o listy zagniezdzone, to sa teraz obslugiwane - po prostu
OK, no to bardzo fajnie!
b) Nawet dla wyrazen typu "w costam" widze sporo sytuacji, gdzie ujednoznacznienie ma format zgodny z szablonem, ale link na pierwszej pozycji nie jest tym wlasciwym. W szczegolnosci, takie zachowanie moze wykazywac grupa hasel typu "jednowierszowe definicje" (czyli to, co wlasciwie powinno byc w wikislowniku), np.
- [[wulkan]] na Sycylii
- [[teatr]] w Nowym Saczu
Jasne, o ile z komplikacją reguł mnie nie przekonało (lista tych jest w sumie ograniczona), to ten argument mnie przekonuje. Wobec tego na przykładzie synagog by to można tak:
z: *Synagoga xxx w yyy przy ulicy zzz
zamienić na jedną z poniższych form: *Synagoga xxx w yyy - przy ulicy zzz *Synagoga xxx w yyy (przy ulicy zzz)
Ta druga forma chyba ładniejsza, bo jest to de facto dookreślenie a nie definicja. W hrabstwach opis jest dłuższy, w dodatku już ma nawias, więc proponuję:
z: *hrabstwo xxx (ang. xxx County) w USA, w stanie yyy
zamienić na: *hrabstwo xxx (ang. xxx County) - hrabstwo w USA, w stanie yyy
Zaraz poszukam bota chętnego do tej poprawki -- najlepiej WarXboT-a, który tworzył te disambigi. =}
To zostały jeszcze dwie rzeczy: * disambigi USS/HMS - na ten temat najlepiej żeby się wypowiedział PMG, bo jest kilka propozycji do wyboru, a może coś lepszego się wymyśli, bo on w tym siedzi * wygenerowanie list w postaci HTML, żeby klikając na tytule hasła wchodzić od razu do trybu edycji; daj znać czy chcesz to zrobić, bo właściwie mogę to zrobić sam, ale jeśli ktoś chce się przyłączyć, to wygodniej byłoby mieć listę, na której będzie widać, które hasła zostały już odwiedzone przez kogoś innego (skrypt przechwytujący kliknięcie)
Właściwie po rozwiązaniu tej drugiej sprawy można przystąpić od razu do ręcznych poprawek. Wystarczy po prostu ustalić, że disambigi USS/HMS na razie omijamy i tyle.
zamienić na jedną z poniższych form: *Synagoga xxx w yyy - przy ulicy zzz *Synagoga xxx w yyy (przy ulicy zzz)
Ta druga forma chyba ładniejsza, bo jest to de facto dookreślenie a nie
definicja.
Bardzo dobry pomysł, a na marginesie dodam, że powinniśmy unikać kresek, bo te ciągle "pływają" pomiędzy dywizem, półpauzą, pauzą, znakiem myślnika (już nie mówiąc o róznych sposobach kodowania), a oprogramowamnie wiki widzi każde z nich jako inny znak.
Beno
Bardzo dobry pomysł, a na marginesie dodam, że powinniśmy unikać kresek, bo te ciągle "pływają" pomiędzy dywizem, półpauzą, pauzą, znakiem myślnika (już nie mówiąc o róznych sposobach kodowania), a oprogramowamnie wiki widzi każde z nich jako inny znak.
Faktycznie, w parserze musialem uwzglednic kolo 5 rodzajow myslnikow unikodowych, do tego – i — oraz zapisy przez encje typu —. Troche tego jest. Z drugiej strony, zapis z myslnikiem wydaje mi sie w wiekszosci przypadkow najbardziej przejrzysty. Pozdrawiam, Michal
- wygenerowanie list w postaci HTML, żeby klikając na tytule hasła
wchodzić od razu do trybu edycji; daj znać czy chcesz to zrobić, bo właściwie mogę to zrobić sam, ale jeśli ktoś chce się przyłączyć, to wygodniej byłoby mieć listę, na której będzie widać, które hasła zostały już odwiedzone przez kogoś innego (skrypt przechwytujący kliknięcie)
Listy w formacie HTML umiescilem pod adresem tym co inne pliki, sa opisane jako "wersje kilkalne". Wygenerowal je nastepujacy skrypt (uruchamiac w katalogu z plikami disambig-status-*). Kod jest zlozony napredce wiec nie jest zbyt przejrzysty, ale dziala :)
for i in disambig-status-*; do awk 'function wikify(title) {return gensub(" ","_","g",title)} BEGIN{FS="\t"} NR==1{print "<html>\n<head>\n<title>Linki do poprawienia: " FILENAME "</title>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n</head>\n<body><h1>Linki do poprawienia z pliku " FILENAME "</h1><table border="1"><tr style="font-weight: bold;"><td>Artykuł</td><td>Dobrych linków</td><td>Złych linków</td></tr>"}{print "<tr><td><a href="http://pl.wikipedia.org/wiki/" wikify($1) "">" $1 "</a></td><td>" $2 "</td><td>" $3 "</td></tr>"}END{print "</table></body>\n</html>";}' $i > ~/tmp/$i.html; done
Ze zliczaniem kliniec przez wszystkich naraz jest juz troche trudniej, wiec w tym momencie raczej tego nie zrobie. Kazdy u siebie powinien widziec po kolorze linkow, ktore strony sam odwiedzil - male pocieszenie ale zawsze cos.
Pozdrawiam, Michal
Michal Kosmulski napisał(a):
Ze zliczaniem kliniec przez wszystkich naraz jest juz troche trudniej, wiec w tym momencie raczej tego nie zrobie. Kazdy u siebie powinien widziec po kolorze linkow, ktore strony sam odwiedzil - male pocieszenie ale zawsze cos.
OK, liczyłem się z tą możliwością i mam plan B. =} Wystarczy dać znać kto się czym zajmuje i ew. jak stwierdzi, że na danym haśle się zatrzymuje. Ja zaczynam robić "!".
A co do zamiany wielopoziomowych list na sekcje to brzmi niegłupio, faktycznie co do sensu są to rzeczy równoważne, ale nie jestem pewien, czy nie ma takich sytuacji, kiedy lista jest bardziej właściwa technicznie, więc się nie wypowiadam.
Daniel Koć napisał(a):
OK, liczyłem się z tą możliwością i mam plan B. =} Wystarczy dać znać kto się czym zajmuje i ew. jak stwierdzi, że na danym haśle się zatrzymuje. Ja zaczynam robić "!".
OK, to krótkie (119) więc się już uwinąłem. Generalnie większość problemów to były listy zrobione enterem zamiast gwiazdki, czyli:
[[element1]] - foo [[element2]] - bar
W kilku przypadkach była to pomyłka - disambig ktoś dawał zamiast disambigR.
Ale znalazłem też kilka haseł, które wyglądają zupełnie niewinnie (lekko je poprawiałem zwykle, ale nie ruszałem listy):
Aleksiej Tołstoj Ariete Baldwin V Bartoszewski Blef (ujednoznacznienie) Čech (ujednoznacznienie) Perea Skarga (ujednoznacznienie) Zenobia Żurawski
Zobacz czy tam się nie czai jakiś błąd systematyczny parsera.
Teraz wezmę się za 3-, 383 hasła to powinien być jakiś osobodzień pracy. Jeszcze tylko prośba: w spisie na stronie podawaj ilości haseł, bo po aktualizacjach te liczby się zmieniały, OK?
Uff, do domu...
Aleksiej Tołstoj Ariete Baldwin V Bartoszewski Blef (ujednoznacznienie) Čech (ujednoznacznienie) Perea Skarga (ujednoznacznienie) Zenobia Żurawski
Kilka sposrod tych hasel ja poprawilem niedawno (np. Blef), natomiast przynajmniej Żurawski to na pewno blad w parserze. Nie wiem jeszcze na ile trudne bedzie poprawienie, w kazdym razie gdyby ktos zauwazyl inne strony gdzie na pewno 14 maja byla poprawna strona a parser wypluwa ze nie, to prosze dajcie znac - bede bardzo wdzieczny.
Jeszcze tylko prośba: w spisie na stronie podawaj ilości haseł, bo po aktualizacjach te liczby się zmieniały, OK?
Chodzi o umieszczenie liczby hasel w naglowku kazdej z wygenerowanych stron disambig-status-*.html?
Pozdrawiam, Michal
Michal Kosmulski napisał(a):
Kilka sposrod tych hasel ja poprawilem niedawno (np. Blef), natomiast
Acha, to dla mnie niespodzianka. =} No właśnie dlatego chciałem żeby była jakaś koordynacja, ale mam nadzieję, że takich przypadków jest mało.
Chodzi o umieszczenie liczby hasel w naglowku kazdej z wygenerowanych stron disambig-status-*.html?
Raczej na tej głównej stronie - wiesz, żeby było łatwo ocenić ile jeszcze zostało roboty. Zwłaszcza jeśli znów będziesz aktualizował za jakiś czas.
Acha, to dla mnie niespodzianka. =} No właśnie dlatego chciałem żeby była jakaś koordynacja, ale mam nadzieję, że takich przypadków jest mało.
W takim razie ja biore hasla z trzema minusami i ide od konca. Oczywiscie jak cos mi samo pod rece wejdzie to poprawiam bez wzgledu na to, na ktorej liscie sie znalazlo. Jest pewna grupa hasel, ktore wlasciwie nie sa disambigami ale normalnymi haslami tez nie do konca. Wezmy np. haslo "Yerba Buena" (http://pl.wikipedia.org/w/index.php?title=Yerba_Buena&oldid=4881234) - nie bardzo wiem co z nim zrobic. W takich wypadkach chyba najlepiej byloby dodawac linki do nie istniejacych jeszcze stron (nawet jesli wszystkie linki na stronie ujednoznaczniajacej mialyby byc czerwone)? Dotychczas takie dokumenty przeskawialem, zostawiajac na pozniej. Michal
| -----Original Message----- | From: ... Michał Kosmulski | Sent: Wednesday, May 23, 2007 8:11 PM / | W takim razie ja biore hasla z trzema minusami i ide od | konca.
Chyba z czterema :-))
Pzdr., Janusz "Ency" Dorożyński
Michał Kosmulski napisał(a):
Jest pewna grupa hasel, ktore wlasciwie nie sa disambigami ale normalnymi haslami tez nie do konca. Wezmy np. haslo "Yerba Buena" (http://pl.wikipedia.org/w/index.php?title=Yerba_Buena&oldid=4881234) - nie bardzo wiem co z nim zrobic. W takich wypadkach chyba najlepiej byloby dodawac linki do nie istniejacych jeszcze stron (nawet jesli wszystkie linki na stronie ujednoznaczniajacej mialyby byc czerwone)? Dotychczas takie dokumenty
MSZ to jak najbardziej jest strona ujednaznaczniająca, tylko bez rozwinięcia w osobnych hasłach. Ja bym tu tylko zrobił wcięte elementy dotyczące San Francisco, bo tak chyba najbardziej pasuje (właśnie, tutaj sekcje byłyby za ciężkie, więc zostawmy wcięte listy):
* Yerba Buena (łac. Clinopodium douglasii, Lamiaceae) .... * W latach [[1846]]-[[1847]] nazwą tą określano dzisiejsze miasto [[San Francisco]]. Do dziś w mieście tym można odnaleźć ślady dawnej nazwy: ** Centrum dla Sztuki Yerba Buena... ** Wyspa Yerba Buena...
Jeśli można się spodziewać, że hasło się w końcu pojawi (np. 1. i 4.), to można nawet od razu zrobić czerwonego linka, ale w 2. nie ma sensu (jest już hasło o SF, raczej na pewno nie potrzeba hasła o jego starej nazwie), a 3. jest zbyt niszowe prawdopodobnie.
Jednak nawet jeśli nie będzie żadnych linków od nazw to jest OK - jest wyjaśnienie i są linki w wyjaśnieniu, czytelnik nie jest pozostawiony sam sobie, a to najważniejsze.
On 5/24/07, Daniel Koć kocio@linuxnews.pl wrote:
Michał Kosmulski napisał(a):
Jest pewna grupa hasel, ktore wlasciwie nie sa disambigami ale normalnymi haslami tez nie do konca. Wezmy np. haslo "Yerba Buena" (http://pl.wikipedia.org/w/index.php?title=Yerba_Buena&oldid=4881234) - nie bardzo wiem co z nim zrobic. W takich wypadkach chyba najlepiej byloby dodawac linki do nie istniejacych jeszcze stron (nawet jesli wszystkie linki na stronie ujednoznaczniajacej mialyby byc czerwone)? Dotychczas takie dokumenty
MSZ to jak najbardziej jest strona ujednaznaczniająca, tylko bez rozwinięcia w osobnych hasłach.
Czyli nie jest stroną ujednoznaczniającą, moim zdaniem prawidłowo powinno to wyglądać tak: http://pl.wikipedia.org/w/index.php?title=Yerba_Buena&oldid=7964081
Raczej na tej głównej stronie - wiesz, żeby było łatwo ocenić ile jeszcze zostało roboty. Zwłaszcza jeśli znów będziesz aktualizował za jakiś czas.
OK, dodalem. Pewnie znowu trzeba bedzie kliknac ctrl+reload zeby bylo widac zmiany. Pozdrawiam, Michal
Jeszcze nawiązując do wielopoziomych wypunktowań, pomyslałem, że może byłoby dobrym pomysłem zalecenie "Jeśli chcesz zrobić zagnieżdżoną listę wypunktowaną, zrób zamiast tego sekcję". Zwykle zagnieżdżone listy są stosowane według takiego schematu:
* Osoby o nazwisku ABC ** [[John ABC]] ** [[Mary ABC]] ...
* Obiekty geograficzne ** [[Przylądek ABC]] ** [[ABC (rzeka)|ABC]] - rzeka w [[USA]]
W takiej sytuacji użycie schematu:
==Osoby o nazwisku ABC== * [[John ABC]] * [[Mary ABC]] ...
==Obiekty geograficzne== * [[Przylądek ABC]] * [[ABC (rzeka)|ABC]] - rzeka w [[USA]]
zwiększa czytelność, a przy okazji likwiduje problem z wypunktowaniami, które są tylko tytułem dla zagnieżdżonych podpunktów i przez to wyskakują jako błąd w parserze.
Co myślicie o sformułowaniu takiego zalecenia?
Michał
Jeszcze nawiązując do wielopoziomych wypunktowań, pomyslałem, że może byłoby dobrym pomysłem zalecenie "Jeśli chcesz zrobić zagnieżdżoną listę wypunktowaną, zrób zamiast tego sekcję". Zwykle zagnieżdżone listy są stosowane według takiego schematu:
- Osoby o nazwisku ABC
** [[John ABC]] ** [[Mary ABC]] ...
- Obiekty geograficzne
** [[Przylądek ABC]] ** [[ABC (rzeka)|ABC]] - rzeka w [[USA]]
W takiej sytuacji użycie schematu:
==Osoby o nazwisku ABC==
- [[John ABC]]
- [[Mary ABC]]
...
==Obiekty geograficzne==
- [[Przylądek ABC]]
- [[ABC (rzeka)|ABC]] - rzeka w [[USA]]
zwiększa czytelność, a przy okazji likwiduje problem z wypunktowaniami, które są tylko tytułem dla zagnieżdżonych podpunktów i przez to wyskakują jako błąd w parserze.
Co myślicie o sformułowaniu takiego zalecenia?
Dochodzi jeszcze jedna kwestia standaryzacyjna...
ma być tak: == tekst ==
czy też: ==tekst==
W obecnej chwili jeśli się nie mylę boty na WP:SK mają ustawione tą pierwszą wersję, jako tą czytelniejszą.
A_Bach
zwiększa czytelność, a przy okazji likwiduje problem z wypunktowaniami, które są tylko tytułem dla zagnieżdżonych podpunktów i przez to wyskakują jako błąd w parserze. Co myślicie o sformułowaniu takiego zalecenia? Michał
Bardzo zły pomysł - wydłuża spis treści i straaaaaasznie wydłuża artykuł. W dodatku może dojść do tego, że spójna grupa informacji nie zmieści się w jednym oknie i trzeba będzie przewijać.
Skoro jacyś ludzie wymyślili wiele setek lat temu podpunkty i się przyjęło, to widocznie były ku temu powody.
Beno
Bardzo zły pomysł - wydłuża spis treści i straaaaaasznie wydłuża artykuł. W dodatku może dojść do tego, że spójna grupa informacji nie zmieści się w jednym oknie i trzeba będzie przewijać.
Oczywiscie moja uwaga odnosila sie tylko do stron ujednoznaczniajacych, bo tylko ich dotyczy caly watek. Te strony sa prawie zawsze krotkie, zas sekcji jest zwykle nie wiecej niz 2-3 wiec spisu tresci w ogole nie ma. Pozdrawiam, Michal
Oczywiscie moja uwaga odnosila sie tylko do stron ujednoznaczniajacych, bo tylko ich dotyczy caly watek. Te strony sa prawie zawsze krotkie, zas sekcji jest zwykle nie wiecej niz 2-3 wiec spisu tresci w ogole nie ma. Pozdrawiam, Michal
W takim razie sorry. Nie będę się wtrącał. Myslałem, że to już dyskusja o UniversalBocie :-)
Beno
On Wed, 23 May 2007 11:42:05 +0200 Daniel Koć kocio@linuxnews.pl wrote:
Michal Kosmulski napisał(a):
W jaki sposob zglosic te dane do poprawienia przez bota?
Na stronie DonnerJack.bota jest prośba, żeby wszystko zgłaszać do dyskusji operatora, więc napisałem krótko o sprawie ABachowi. Mam nadzieję, że już bezpośrednio się dalej dogadacie.
Wikiprojekt:Sprzątanie kodu
Projekt aktywny... wykonywany niejako przy okazji innych edycji. Nie widzę raczej sensu zapuszczać bota tylko i wyłącznie na taką pojedyńczą zmianę jak ta. Za bardzo zaśmieci to pewnie Obserwowane. Ale jeśli uważacie inaczej, to nie widzę problemu :)
A_Bach
Projekt aktywny... wykonywany niejako przy okazji innych edycji. Nie widzę raczej sensu zapuszczać bota tylko i wyłącznie na taką pojedyńczą zmianę jak ta. Za bardzo zaśmieci to pewnie Obserwowane. Ale jeśli uważacie inaczej, to nie widzę problemu :)
Nie ma chyba wielkiego pospiechu - mozna to zrobic przy okazji. Kiedy uznasz, ze nadszedl stosowny moment, chwile przedtem daj mi znac, to ponownie wygeneruje liste na podstawie aktualnej wersji Wikipedii oraz (jak nie zapomne) uwzglednie tez wariant "Zobacz rowniez", ktory jak zauwazylem tez sie w kilku miejscach pojawia. Pozdrawiam, Michal
On Wed, 23 May 2007 15:45:10 +0200
Projekt aktywny... wykonywany niejako przy okazji innych edycji. Nie widzę raczej sensu zapuszczać bota tylko i wyłącznie na taką pojedyńczą zmianę jak ta. Za bardzo zaśmieci to pewnie Obserwowane. Ale jeśli uważacie inaczej, to nie widzę problemu :)
Nie ma chyba wielkiego pospiechu - mozna to zrobic przy okazji. Kiedy uznasz, ze nadszedl stosowny moment, chwile przedtem daj mi znac, to ponownie wygeneruje liste na podstawie aktualnej wersji Wikipedii oraz (jak nie zapomne) uwzglednie tez wariant "Zobacz rowniez", ktory jak zauwazylem tez sie w kilku miejscach pojawia.
To jeszcze inni muszą się wyopowiedzieć co muślą o takiej robocie.
Ps. Dołóż też sobie ==Patrz też==. Również pojawia się w kilku miejscach na wiki.
A_Bach