Automatyczna ocena jakości artykułów

List overview All Threads
Download

newer

older

Sprzeczne artykuły.

Propozycja zmiany dotyczacej listy...

Stan Zurek

7 Sep 2008 7 Sep '08

1:47 a.m.

Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

( co jest wywołaniem tego szablonu: http://pl.wikipedia.org/wiki/Wikipedysta:Zureks/Brudnopis1 )

Każdy rząd w tabeli może być oceniony w skali od 1 (najniższa ocena) do 5 (najwyższa) i jeszcze nie wiem jak to mogłoby być rozwiązane od strony technicznej, ale wydaje mi się, że chyba wszystkie "zmienne" dałoby się mierzyć automatycznie odpowiednim botem (przynajmniej takie jest założenie).

Dwa przykłady pokazane musiałem oczywiście "zmierzyć" ręcznie, ale jak widać fajnie się to wizualnie przedstawia i faktycznie na pierwszy rzut oka widać na ile dany artykuł spełnia te "automatyczne" kryteria.

Bot mógłby tutaj również robić następujące rzeczy:

- status "Zalążka" dostaje każdy artykuł, który przejdzie przez sitko EK i SdU - status "Krótkiego" można przyznać botem po spełnieniu odpowienich kryteriów (patrz opis pod obydwiema kolorowymi tabelkami) - status "Średniego" raczej również można przyznać botem - status "Dobrego" i "Medalowego" też można przyznać botem, bo da się wykryć czy dany art ma przypisany taki status - jeśli jakiś artykuł się rozwinie od czasu ostatniego pomiaru, to można go automatycznie zmienić (np. z Zalążka na Krótki) albo też pokazać w jakiejś kategorii, że możnaby się zastanowić nad procedurą Dobrego czy nawet Medalowego

Wszystkie użyte zmienne powinny być mierzalne automatycznie - jeśli ktoś ma pomysł na jakąś inną zmienną wykrywalną botem to proszę o informacje. Wszelkie opisy ręczne typu "Zastrzeżenia" to są dodatki i z punktu widzenia bota nie istnieją (no może poza zliczaniem liczby zastrzeżeń, ale to się trochę mija z celem).

Taką tabelkę widziałbym początkowo jako wpis na samej górze strony dyskusji, co mogłoby potem zostać użyte do oznakowania KAŻDEGO artykułu tak jak się obecnie znakuje Dobre i Medale.

Proszę o KONSTRUKTYWNĄ krytykę (nie interesuje mnie krytykanctwo) i ewentualne pomysły jak to dalej ulepszyć (szczególnie pod kątem automatyki). Odpowiedzi można pisać tutaj lub na samym dole tej strony (zalecane):

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Pozdrawiam

Zureks

Show replies by date

Karol Głąb

7 Sep 7 Sep

2:38 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 6 września 2008 19:47 użytkownik Stan Zurek zureks@gmail.com napisał:

...

Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

( co jest wywołaniem tego szablonu: http://pl.wikipedia.org/wiki/Wikipedysta:Zureks/Brudnopis1 )

Każdy rząd w tabeli może być oceniony w skali od 1 (najniższa ocena) do 5 (najwyższa) i jeszcze nie wiem jak to mogłoby być rozwiązane od strony technicznej, ale wydaje mi się, że chyba wszystkie "zmienne" dałoby się mierzyć automatycznie odpowiednim botem (przynajmniej takie jest założenie).

Dwa przykłady pokazane musiałem oczywiście "zmierzyć" ręcznie, ale jak widać fajnie się to wizualnie przedstawia i faktycznie na pierwszy rzut oka widać na ile dany artykuł spełnia te "automatyczne" kryteria.

Bot mógłby tutaj również robić następujące rzeczy:

status "Zalążka" dostaje każdy artykuł, który przejdzie przez sitko EK i SdU

status "Krótkiego" można przyznać botem po spełnieniu odpowienich

kryteriów (patrz opis pod obydwiema kolorowymi tabelkami)

status "Średniego" raczej również można przyznać botem

status "Dobrego" i "Medalowego" też można przyznać botem, bo da się

wykryć czy dany art ma przypisany taki status

jeśli jakiś artykuł się rozwinie od czasu ostatniego pomiaru, to

można go automatycznie zmienić (np. z Zalążka na Krótki) albo też pokazać w jakiejś kategorii, że możnaby się zastanowić nad procedurą Dobrego czy nawet Medalowego

Wszystkie użyte zmienne powinny być mierzalne automatycznie - jeśli ktoś ma pomysł na jakąś inną zmienną wykrywalną botem to proszę o informacje. Wszelkie opisy ręczne typu "Zastrzeżenia" to są dodatki i z punktu widzenia bota nie istnieją (no może poza zliczaniem liczby zastrzeżeń, ale to się trochę mija z celem).

Taką tabelkę widziałbym początkowo jako wpis na samej górze strony dyskusji, co mogłoby potem zostać użyte do oznakowania KAŻDEGO artykułu tak jak się obecnie znakuje Dobre i Medale.

Proszę o KONSTRUKTYWNĄ krytykę (nie interesuje mnie krytykanctwo) i ewentualne pomysły jak to dalej ulepszyć (szczególnie pod kątem automatyki). Odpowiedzi można pisać tutaj lub na samym dole tej strony (zalecane):

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Pozdrawiam

Zureks

Na zapodanej przez Zureksa stronie dodałem sekcje, gdzie wg jego prośby, można zwięźle wpisywać uwagi i pomysły. Z mojej strony nie mogę zbyt wiele pomóc ponieważ nie jestem techniczny. Tutaj natomiast chciałbym zapytać jeszcze czy decydujemy się na nową zakładkę/przestrzeń nazw? Czas w którym bot będzie powstawał a następnie ewoluował w pierwszej fazie rozwoju, mógłby być jednocześnie oczekiwaniem na rezultaty działań programistów MediaWiki (może do początku nowego roku by było wszystko gotowe?).

Serdecznie pozdrawiam, Karol007

Karol Głąb

3:02 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 6 września 2008 20:38 użytkownik Karol Głąb kamikaze0007@gmail.com napisał:

...

Na zapodanej przez Zureksa stronie dodałem sekcje, gdzie wg jego prośby, można zwięźle wpisywać uwagi i pomysły. Z mojej strony nie mogę zbyt wiele pomóc ponieważ nie jestem techniczny. Tutaj natomiast chciałbym zapytać jeszcze czy decydujemy się na nową zakładkę/przestrzeń nazw? Czas w którym bot będzie powstawał a następnie ewoluował w pierwszej fazie rozwoju, mógłby być jednocześnie oczekiwaniem na rezultaty działań programistów MediaWiki (może do początku nowego roku by było wszystko gotowe?).

Serdecznie pozdrawiam, Karol007

Zapomniałem o jednej rzeczy, ingerencja w wywołanie szablonu nie powinna mieć miejsca, wywoływanie szablonu na zabezpieczonych podstronach i wywoływanie strony w dyskusji nie wchodzi w grę. W nowej przestrzeni, możliwość edycji i zgłoszenia błędów powinien mieć każdy, zatem zabezpieczenie tego też nie wchodzi w grę. Ograniczenia techniczne nie pozwalają chyba zabezpieczyć jednej czy dwóch sekcji artykułu, więc nowa przestrzeń by musiała mieć jedynie formularz do punktowego wypisywania niedociągnięć w artykule przez wszystkich, albo rozdzielenie okien edycyjnych i zablokowanie tego które będzie używane przez bota:)

Podsumowując, chodzi mi o pozbycie się kwestii sprawdzania historii wywoływanego szablonu, czy przypadkiem jakiś wandalizujący IP'ek czy zidentyfikowany szkodnik (zalogowany wandal), nie zażartował sobie i nie zmienił stopni przyznanych przez bota.

~~~~

McMonster

3 a.m.

Kilka pierwszych moich opinii, które przyszły mi do głowy. Pomysł ciekawy, ale problemem może okazać się już samo tworzenie takiego bota.

Z góry założyłbym, że bardzo trudne będzie liczenie słów oraz źródeł. Bot musiałby rozpoznać, co jest słowem, a co np. elementem technicznym (wywołanie infoboksu), trzeba by też wcześniej określić, co konkretnie jest słowem treści artykułu (na przykład jak traktować tytuły sekcji).

Teraz źródła. To już wg mnie prawie fikcja, odpowiednie szablony {{cytuj ...}} nie są powszechnie stosowane, bot więc musiałby rozpoznać, która część artykułu to opisane źródło, przy tym różnie ludzie takie źródła opisują (różnice w sposobie opisu bibliograficznego i ilości jego elementów, a także rodzaju) i różne błędy przy tym popełniają (chodzi mi tu o typografię głównie).

To na początek. Innym problemem, który mi na myśl przychodzi, to gdzie te tabelki przechowywać? Fakt, są strony dyskusji, ale idealne miejsce to to nie jest, tym bardziej, jeśli docelowo taką tabelkę będzie posiadać każdy artykuł, to będzie oznaczało stworzenie setek tysięcy stron dyskusji.

W zanadrzu jest jeszcze opcja półautomatycznego bota, ale taki wymagałby stworzenia interfejsu i głębokiego przemyślenia metody działania. Byłby też bardziej skomplikowany i potwornie wolny. Pochłonąłby mnóstwo czasu osób oddelegowanych do jego obsługi. Takie osoby też musiałyby się znaleźć i tu dochodzi problem doboru, napisanie zasad.

Podsumowując, pomysł ciekawy i warty próby realizacji, ale wymaga to rozwiązania mnóstwa problemów technicznych (chociaż może inni WikiHakerzy mają inne zdanie, lub pomysły na rozwiązanie) i nie liczyłbym na jego szybką realizację, nie wolno nam się przy tym spieszyć, trzeba to dogłębnie przeanalizować i dostosować oryginalny pomysł do warunków i potrzeb.

To tak tytułem wstępu, jak coś wymyślę, to jeszcze napiszę.

-- Pozdrawiam, Greetings, Gashi - McMonster

Karol Głąb

3:11 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 6 września 2008 21:00 użytkownik McMonster themcmonster@gmail.com napisał:

...

Kilka pierwszych moich opinii, które przyszły mi do głowy. Pomysł ciekawy, ale problemem może okazać się już samo tworzenie takiego bota.

Z góry założyłbym, że bardzo trudne będzie liczenie słów oraz źródeł. Bot musiałby rozpoznać, co jest słowem, a co np. elementem technicznym (wywołanie infoboksu), trzeba by też wcześniej określić, co konkretnie jest słowem treści artykułu (na przykład jak traktować tytuły sekcji).

AWB teraz zlicza mi słowa, linki i powtarzające się linki bez problemu dla każdej edytowanej strony, więc jest to możliwe:)

...

Teraz źródła. To już wg mnie prawie fikcja, odpowiednie szablony {{cytuj ...}} nie są powszechnie stosowane, bot więc musiałby rozpoznać, która część artykułu to opisane źródło, przy tym różnie ludzie takie źródła opisują (różnice w sposobie opisu bibliograficznego i ilości jego elementów, a także rodzaju) i różne błędy przy tym popełniają (chodzi mi tu o typografię głównie).

Tutaj wychodzi słuszność mojej walki z ujednoliceniem sekcji końcowych i stosowania tam szablonów (które nie wszystkim się podobają, a których stosowanie nastręcza wielu problemów, szczególnie nowym użytkownikom). W tym miejscu dochodzimy do kwestii narzędzi ułatwiających edycję, rozdzielenie okien edycji, oraz konsekwentnego stosowania się do zaleceń.

...

To na początek. Innym problemem, który mi na myśl przychodzi, to gdzie te tabelki przechowywać? Fakt, są strony dyskusji, ale idealne miejsce to to nie jest, tym bardziej, jeśli docelowo taką tabelkę będzie posiadać każdy artykuł, to będzie oznaczało stworzenie setek tysięcy stron dyskusji.

Na to odpowiedziałem w dodatku do pierwszej wiadomości:-)

...

W zanadrzu jest jeszcze opcja półautomatycznego bota, ale taki wymagałby stworzenia interfejsu i głębokiego przemyślenia metody działania. Byłby też bardziej skomplikowany i potwornie wolny. Pochłonąłby mnóstwo czasu osób oddelegowanych do jego obsługi. Takie osoby też musiałyby się znaleźć i tu dochodzi problem doboru, napisanie zasad.

Półautomat z racji ogromu pracy całkowicie odpada.

...

Podsumowując, pomysł ciekawy i warty próby realizacji, ale wymaga to rozwiązania mnóstwa problemów technicznych (chociaż może inni WikiHakerzy mają inne zdanie, lub pomysły na rozwiązanie) i nie liczyłbym na jego szybką realizację, nie wolno nam się przy tym spieszyć, trzeba to dogłębnie przeanalizować i dostosować oryginalny pomysł do warunków i potrzeb.

To tak tytułem wstępu, jak coś wymyślę, to jeszcze napiszę.

-- Pozdrawiam, Greetings, Gashi - McMonster

Serdecznie pozdrawiam, Karol007

McMonster

4:09 a.m.

Dnia 2008-09-06, o godz. 21:11:30 "Karol Głąb" kamikaze0007@gmail.com napisał(a):

...

AWB teraz zlicza mi słowa, linki i powtarzające się linki bez problemu dla każdej edytowanej strony, więc jest to możliwe:)

Możliwe, ale musiałby się znaleźć ktoś, to zaadaptowałby kod bota w docelowym projekcie.

Tak trochę z innej beczki, to razem z innymi militarystami na Wiki rozważaliśmy importowanie {{en:WPMILHIST}}, ale w wersji zupełnie ręcznej, uproszczonej i na znacznie mniejsza skalę, ale pomysł upadł z naszego lenistwa.

-- Pozdrawiam, Greetings, Gashi - McMonster

Wojciech Muła

4:58 a.m.

Stan Zurek napisał:

...

Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Świetnie i przejrzyście to wygląda! Jeśli uda się coś takiego robić z automatu, to będzie przełom. Jednak podział na artykuły dobre czy medalowe jest zbyt ostry.

Pisałeś, żeby takie zestawienie wstawiać na stronę dyskusji -- IMHO nie ma to sensu, lepiej żeby istniał jakiś tool, który na żądanie oceniałby artykuł.

-- Kupię: http://wmula.republika.pl/kupie.html

Tomasz Ganicz

6:16 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 6 września 2008 19:47 użytkownik Stan Zurek zureks@gmail.com napisał:

...

Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Wg mnie to jakiś ponury nonsens. Z tabeli wynika, że jeśli stworzę zupełny bełkot liczący pow. 500 słów, utworzę pow. 20 sekcji, dam zupełnie wydumane pseudoźródła, utworzę pow. 100 wikilinków, pow. 30 interwiki, 5 linków zew. to powstanie w ten sposób artykuł medalowy? A jeśli stworzę wartościowy bardzo artykuł, którego nie ma w innych wersjach Wikipedii (czyli będzie 0 interwiki) oparty na 5 źródłach (ale za to jedynych jakie są na ten temat) i będzie tam 19 sekcji to artykuł nie będzie mógł nigdy uzyskać statusu medalu? Jakość artykułu musi być oceniania przez ludzi - żaden bot tego nie zrobi, a przy stosowaniu kryteriów wyłącznie ilościowych aż się prosi bardzo łatwo "wypromować" kiepski artykuł zawierający mnóstwo błędów merytorycznych, przez sztuczne rozdmuchanie jego objętości, dodanie niepotrzebnych do niczego linków wew., fałszywych źródeł itd...

-- Tomek "Polimerek" Ganicz http://pl.wikimedia.org/wiki/User:Polimerek http://www.ganicz.pl/poli/ http://www.ptchem.lodz.pl/en/TomaszGanicz.html

Karol Głąb

3:38 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 7 września 2008 00:16 użytkownik Tomasz Ganicz polimerek@gmail.com napisał:

...

W dniu 6 września 2008 19:47 użytkownik Stan Zurek zureks@gmail.com napisał:

...
Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Wg mnie to jakiś ponury nonsens. Z tabeli wynika, że jeśli stworzę zupełny bełkot liczący pow. 500 słów, utworzę pow. 20 sekcji, dam zupełnie wydumane pseudoźródła, utworzę pow. 100 wikilinków, pow. 30 interwiki, 5 linków zew. to powstanie w ten sposób artykuł medalowy? A jeśli stworzę wartościowy bardzo artykuł, którego nie ma w innych wersjach Wikipedii (czyli będzie 0 interwiki) oparty na 5 źródłach (ale za to jedynych jakie są na ten temat) i będzie tam 19 sekcji to artykuł nie będzie mógł nigdy uzyskać statusu medalu? Jakość artykułu musi być oceniania przez ludzi - żaden bot tego nie zrobi, a przy stosowaniu kryteriów wyłącznie ilościowych aż się prosi bardzo łatwo "wypromować" kiepski artykuł zawierający mnóstwo błędów merytorycznych, przez sztuczne rozdmuchanie jego objętości, dodanie niepotrzebnych do niczego linków wew., fałszywych źródeł itd...

-- Tomek "Polimerek" Ganicz

W tym miejscu Poli ma rację, może w tym świetle, może lepiej będzie, gdyby to było jedynie podsumowanie artykułu, taka zbiorcza tabelka co jest (poniżej czego nie ma), można dodać liczbę odwiedzin artykułu itp.

Karol007

Michał Buczyński

5:43 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

Co się rzuca w oczy przy pierwszy spojrzeniu na tabelkę:

1. Mit kwantyfikowalności. Rozumiem Zureksie, że postarałeś się o kryteria w rodzaju "przynajmniej jedno źródło" itd., ale i tak mam wrażenie, że nie przy każdym haśle da się sensownie stosować te kryteria.

O ile pewnie da się wymusić tworzenie sekcji czy dodawanie źródeł (choć nie jestem obecnie pewien, czy nie doprowadziłoby to do wstawiania zupełnie naciąganych/mało wartościowych/niszowych i niepewnych źródeł oraz "sekcjomanii" to wymóg np. grafiki budzi moje zastrzeżenie.

Istnieje bardzo wiele haseł, gdzie wstawienie *sensownej* grafiki jest *bardzo* trudne. Chodzi mi o np. terminy abstrakcyjne - co miałaby przedstawiać grafika w haśle zmienna losowa? Nieco lepiej jest z takim [[Twierdzenie Lebesgue'a o zbieżności monotonicznej]] - zapewne możnaby zrobić animowany przykład - natomiast nie jest to grafika oczywista i raczej nie będzie ona "definicyjna".

Z postulowaną definicyjnością grafiki problem jest szerszy - co będzie taką grafiką dla hasła o np. filozofii Kanta? Albo o którejś symfonii Mahlera? Skan strony tytułowej partytury? To tylko nuty, jakiś egzemplarz. Zdjęcie muzyków grających symfonię? To tylko muzycy na scenie, mogliby grać coś innego. Skan rękopisu, o ile istnieje? Ale skąd to wziąć?

Poza tym kłania się problem trudności w pozyskaniu mediów np. z powodu praw autorskich.

2. Interwiki jako kryterium jakości hasła - dla mnie to niezrozumiałe. To może być jakiś wyznacznik ważności hasła lub jego prawdziwości (czy nie fałszywka), ale jakości?

Poza tym w pełni zgadzam się z Polimerkiem.

Z tych więc powodów obawiam się, że automat może być dobrym narzędziem pomocniczym - mówiącym mi ile kb ma hasło, co tam jest etc. - ale nigdy mi nie powie całej prawdy o jakości, albo ile w haśle brakuje do pełnej i zrównoważonej informacji, oceny faktów itd. To może ocenić tylko znawca tematu (Polimerek często posługiwał się przykładem hasła o popperyźmie autorstwa Kiliana).

IMVHO automat nie zastąpi medali, DA/LA, a nawet w pełni {{stub}}ów. Ale i owszem, może bardzo pomóc. Choćby przez to, że wymaga stosunkowo minimalnego wkładu roboczego Wikipedystów.

Może pomagać ogółowi wikipedystów/czytelników oraz uczestnikom projektów listując hasła bez grafik, krótkie, próbując obiektywizować kryteria oceny itd. itp.

Pozdrawiam serdecznie! michał "aegis maelstrom" buczyński

Stan Zurek

6:09 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

...

Mit kwantyfikowalności. ... "przynajmniej jedno źródło" itd., ale i tak mam wrażenie, że nie przy każdym haśle da się sensownie stosować te kryteria.

Pewnie się nie da, ale proszę mi pokazać jeden Dobry artykuł, który nie ma źródeł. Nie ma źródeł = nie ma podstaw do przyznania wyższej oceny. Są źródła = można spróbować je zweryfikować i podjąć odpowiednia decyzję.

...

O ile pewnie da się wymusić tworzenie sekcji czy dodawanie źródeł (choć nie jestem obecnie pewien, czy nie doprowadziłoby to do wstawiania zupełnie naciąganych/mało wartościowych/niszowych i niepewnych źródeł oraz "sekcjomanii" to wymóg np. grafiki budzi moje zastrzeżenie.

Ależ podane przeze mnie zakresy liczbowe są całkowicie do ustalenia. Porąbanie tekstu na kawałki to tak naprawdę dobra sprawa, bo wtedy czytelnik może bardzo łatwo odnaleźć potrzebne informacje zamiast przekopywać się przez paragrafy tekstu. Pozytywnym efektem ubocznym jest dużo większa użyteczność dla osób niewidomych, dla których szczegółowe klikalne spisy treści na początku artykułu są co najmniej bardzo pożądane.

...

Istnieje bardzo wiele haseł, gdzie wstawienie *sensownej* grafiki jest *bardzo* trudne.

Zgadzam się. Zresztą jak zauważyłeś podział na "jakąś" i "definicyjną" grafikę jest jeszcze trudniejszy z punktu widzenia wykrywalności botem. Ale do abstraktcyjnych artykułów (np. automatycznie w danej kategorii) można dodać szablonik {{bez_grafiki}} i zrobić podział na: brak, {{bez_grafiki}}, jedna, kilka, galeria commons - wówczas można przyznać status Średniego botem dla tych artów, dla których "sensowne" grafiki są bardzo trudne.

...

Interwiki jako kryterium jakości hasła - dla mnie to niezrozumiałe.

To może być jakiś wyznacznik ważności hasła lub jego prawdziwości (czy nie fałszywka), ale jakości?

No ten parametr nie musi być koniecznie brany pod uwagę przy Krótkich i Średnich, ale jeśli coś ma dużo inter-wików (znaczy nie fałszywy i jakoś tam ważny) to wtedy powinniśmy chyba podjąć szczególne działania by go rozbudować. Dokładnie widzę to jako dodatkowe kryterium (np. dla artów które mają sztucznie nabite sekcje, długość i pseudo-źródła)

...

IMVHO automat nie zastąpi medali, DA/LA, a nawet w pełni {{stub}}ów. Ale i owszem, może bardzo pomóc. Choćby przez to, że wymaga stosunkowo minimalnego wkładu roboczego Wikipedystów.

============================= No ale przecież mnie o to chodziło od samego początku!!! Zrobić prosty system który ma POMÓC w ocenie. Podstawowe stopnie Zalążek, Krótki i Średni można zrobić automatycznie, ale Dobry i Medalowy w żadnym wypadku = tylko ręcznie. =============================

...

Może pomagać ogółowi wikipedystów/czytelników oraz uczestnikom projektów listując hasła bez grafik, krótkie, próbując obiektywizować kryteria oceny itd. itp.

I dokładnie o to chodzi. To jest mierzalne, jako tako obiektywne (kwestia odpowiednich kryteriów). Jeśli bot wykaże że coś urosło od ostatniego pomiaru to zasygnalizuje, że coś się powinno nadawać na Dobry lub Medal, i tutaj przejmą sprawę ludzie i przeprowadzą odpowiednią procedurę. Przy czym zmieniłbym trochę kryteria i przydałyby się kategorie Wikipedystów względem specjalizacji - wybrać 2 dowolne osoby które znają się jako tako na danym temacie i jeśli nie znajdą nic głebszego do zarzucenia to przyznać Dobry (żadnego tam głosowania). Dla medalowych 4-5 osób, a jeśli brakuje specjalistów to szukać kontaktu ze światem zewnętrznym (doktoranci wzwyż). Bo ja to widzę tak, że jak coś jest medalowe, to praktycznie nie ma potrzeby tam już wiele dodawać i spokojnie można go traktować jako "wersję stabilną", co właśnie usprawiedliwia kontrolę przez nie-wikipedystów.

Pozdrawiam

Zureks

Tomasz Ganicz

6 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 7 września 2008 09:38 użytkownik Karol Głąb kamikaze0007@gmail.com napisał:

...

W dniu 7 września 2008 00:16 użytkownik Tomasz Ganicz polimerek@gmail.com napisał:

...
W dniu 6 września 2008 19:47 użytkownik Stan Zurek zureks@gmail.com napisał:

...
Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

Popracowałem trochę nad koncepcją wizualną i wyszło mi coś takiego:

http://pl.wikipedia.org/wiki/Dyskusja_wikipedysty:Zureks/Brudnopis1

Wg mnie to jakiś ponury nonsens. Z tabeli wynika, że jeśli stworzę zupełny bełkot liczący pow. 500 słów, utworzę pow. 20 sekcji, dam zupełnie wydumane pseudoźródła, utworzę pow. 100 wikilinków, pow. 30 interwiki, 5 linków zew. to powstanie w ten sposób artykuł medalowy? A jeśli stworzę wartościowy bardzo artykuł, którego nie ma w innych wersjach Wikipedii (czyli będzie 0 interwiki) oparty na 5 źródłach (ale za to jedynych jakie są na ten temat) i będzie tam 19 sekcji to artykuł nie będzie mógł nigdy uzyskać statusu medalu? Jakość artykułu musi być oceniania przez ludzi - żaden bot tego nie zrobi, a przy stosowaniu kryteriów wyłącznie ilościowych aż się prosi bardzo łatwo "wypromować" kiepski artykuł zawierający mnóstwo błędów merytorycznych, przez sztuczne rozdmuchanie jego objętości, dodanie niepotrzebnych do niczego linków wew., fałszywych źródeł itd...

-- Tomek "Polimerek" Ganicz

W tym miejscu Poli ma rację, może w tym świetle, może lepiej będzie, gdyby to było jedynie podsumowanie artykułu, taka zbiorcza tabelka co jest (poniżej czego nie ma), można dodać liczbę odwiedzin artykułu itp.

Taki bot, który by wyszukiwał obszerne artykuły z dużą liczbą przypisów, sekcji, linków zew i grafik - byłyby przydatny w ew. sporządzaniu list artykułów, które być może - po przeanalizowaniu ich zawartości merytorycznej przez ludzi - warto by było zgłaszać do DA i medalu. Można by też rozważyć jakieś minimalne normy ilościowe dla artykułów DA i medalowych, aczkolwiek tu się już trochę boję takiego rozwiązania, żeby się nie pojawiły przypadki, że wg zdroworozsądkowych kryteriów artykuł jest w pełni OK - ale do normy ilościowej brakuje mu np: jednego źródła albo 5 słów. Na pewno taki bot by mógł też zgromadzić dużo przydatnych informacji statystycznych - np: ile jest artykułów mających więcej niż 5 przypisów, czy więcej niż 500 słów - ale pomysł aby ocena była zupełnie automatyczna szybko doprowadziłby do ciężkich absurdów, które by ośmieszyły Wikipedię. Np: status medalowy mógłby w ten sposób uzyskać sprytnie napisany hoax i to by był dopiero wstyd dla Wikipedii... Zdaje się, że wg. tej tabelki artykuł o Batucie miałby automatycznie status nr. 3 - czyli coś w rodzaju DA... No i wreszcie taki system zachęcałby bardzo do chodzenia na ilość a nie jakość - np: po co coś opisać krótko a treściwie i umieścić tam naprawdę przydatne źródła i linki wewnętrzne w sensowny sposób, skoro to może spowodować, że art. się okaże być tylko na "2" - podczas gdy po dodaniu trochę niepotrzebnych linków wew., napisaniu go bardziej rozwlekłym stylem, podzieleniu na wiele jednoakapitowych sekcji może być już "3" a może nawet "4"...

-- Tomek "Polimerek" Ganicz http://pl.wikimedia.org/wiki/User:Polimerek http://www.ganicz.pl/poli/ http://www.ptchem.lodz.pl/en/TomaszGanicz.html

Karol Głąb

6:11 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 7 września 2008 12:00 użytkownik Tomasz Ganicz polimerek@gmail.com napisał:

[CIACH]

...

Taki bot, który by wyszukiwał obszerne artykuły z dużą liczbą przypisów, sekcji, linków zew i grafik - byłyby przydatny w ew. sporządzaniu list artykułów, które być może - po przeanalizowaniu ich zawartości merytorycznej przez ludzi - warto by było zgłaszać do DA i medalu. Można by też rozważyć jakieś minimalne normy ilościowe dla artykułów DA i medalowych, aczkolwiek tu się już trochę boję takiego rozwiązania, żeby się nie pojawiły przypadki, że wg zdroworozsądkowych kryteriów artykuł jest w pełni OK - ale do normy ilościowej brakuje mu np: jednego źródła albo 5 słów. Na pewno taki bot by mógł też zgromadzić dużo przydatnych informacji statystycznych - np: ile jest artykułów mających więcej niż 5 przypisów, czy więcej niż 500 słów - ale pomysł aby ocena była zupełnie automatyczna szybko doprowadziłby do ciężkich absurdów, które by ośmieszyły Wikipedię. Np: status medalowy mógłby w ten sposób uzyskać sprytnie napisany hoax i to by był dopiero wstyd dla Wikipedii... Zdaje się, że wg. tej tabelki artykuł o Batucie miałby automatycznie status nr. 3 - czyli coś w rodzaju DA... No i wreszcie taki system zachęcałby bardzo do chodzenia na ilość a nie jakość - np: po co coś opisać krótko a treściwie i umieścić tam naprawdę przydatne źródła i linki wewnętrzne w sensowny sposób, skoro to może spowodować, że art. się okaże być tylko na "2" - podczas gdy po dodaniu trochę niepotrzebnych linków wew., napisaniu go bardziej rozwlekłym stylem, podzieleniu na wiele jednoakapitowych sekcji może być już "3" a może nawet "4"...

-- Tomek "Polimerek" Ganicz

Automatyczne wstawianie do artykułu szablonów DA i medalu całkowicie od samego początku wykluczyłem, oceny bota mogą być tylko pomocą. Na tej podstawie można by niezwykle łatwo budować wszelkie statystyki zbiorcze, np. zależność przyrostu liczby artykułów ocenionych przez bota na 3, od czasu. Można wykorzystać np to narzędzie:

http://stats.grok.se/pl/200809/Strona%20g%C5%82%C3%B3wna

do wyświetlania liczby odwiedzin, rozmiar artykułu, ilość szablonów (np. do obliczenia stopnia oszablonowania artykułów w naszej Wikipedii i całą masę innych rzeczy.

Karol007

Stan Zurek

5:36 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

...

Wg mnie to jakiś ponury nonsens. Z tabeli wynika, że jeśli stworzę zupełny bełkot liczący pow. 500 słów, utworzę pow. 20 sekcji, dam zupełnie wydumane pseudoźródła, utworzę pow. 100 wikilinków, pow. 30 interwiki, 5 linków zew. to powstanie w ten sposób artykuł medalowy?

No przeciez prosilem uprzejmie bez krytykanctwa. Wyraźnie napisalem pod tabelkami jak ma przebiegać procedura oceny. Zalążek, krótki i średni można zrobić botem, ale Dobry i Medalowy można ZGŁOSIĆ (a nie automatycznie ustawić na wyższy poziom) do oceny RĘCZNEJ jeśli wyjdzie z auto-oceny że artykuł jest długi, ma źródła itd.

PO TO MAJĄ BYĆ ZARZUTY MERYTORYCZNE.

Zamiast czekać na to aż ktoś zgłosi taki artykuł (albo też bardziej prawdopodobne jest że nie), to będzie go można botem wyłowić i rozpocząć procedurę, a nie liczyć na to ze jakis "główny autor" to zrobi. Wtedy być może ludzie zaczną pracować razem nad poprawą, a nie tylko wystawiać zarzuty i czekać aż główny autor to zrobi.

Proszę na to spojrzeć z innej strony - nie wiemy jaki dobry jest dany artykuł. Ale jeśli ma galerię na commons, 20 sekcji, źródła (powyżej 10) książkowe, czasopismowe i internetowe, jeśli ma powyżej 100 wiki-linków i powyżej 30 inter-wiki (znaczy duże prawdopodobieństwo że ważny międzynarodowo) i że ma kilka linków zewnętrznych, to spokojnie artykuł jest objętościowo na tyle duży, żeby na nim popracować i co najmniej zrobić Dobry, bo tak jak pisałem Dobre są chyba jednak tak trochę po macoszemu traktowane obecniej.

...

jeśli stworzę wartościowy bardzo artykuł, którego nie ma w innych wersjach Wikipedii (czyli będzie 0 interwiki) oparty na 5 źródłach (ale za to jedynych jakie są na ten temat) i będzie tam 19 sekcji to artykuł nie będzie mógł nigdy uzyskać statusu medalu?

Jeśli artykuł będzie wystarczająco dobry, to oczywiście można go zgłosić "ręcznie" w każdej chwili.

...

Jakość artykułu musi być oceniania przez ludzi - żaden bot tego nie zrobi

Sęk w tym, że bardzo łatwo jest krytykować, jak to łatwo zauważyć powyżej, ale niestety tego się wszystkiego ręcznie NIE DA odwalić, bo po pierwsze i tak brakuje rąk do pracy, a po drugie jak sam Polimerku zauważyłeś gdzieś wcześniej - takie informacje się szybko deaktualizują.

Moja propozycja pozwala rozpoczęcie prac w kierunku jakiejś sensownej oceny jakości (która na dzień dzisiejszy praktycznie nie istnieje poza Dobrymi i Medalami) oraz na dużą POMOC w RĘCZNEJ ocenie takiej jakości.

Nie wspomnę już tutaj o takich drobnostkach, jak podniesienie zaufania do jakości artykułów jeśli każdy czytelnik będzie sobie mógł zajrzeć i zobaczyć jak wygląda taki wykresik.

No a dla nowych edytorów będzie oczywiście dodatkowo większe parcie na jakieś sensowne źródła, bo bez tego ocena jakości nie podskoczy.

Oczywiście źródeł nigdy się nie da ocenić automatycznie, ale ja powątpiewam w ogóle czy ręczna ocena też jest do końca bezproblemowa, bo jeśli ktoś się odwoła do (cytuję) "5 źródeł (ale za to jedynych jakie są na ten temat)" to wtedy powodzenia życzę każdemu kto spróbuje do nich dotrzeć (99% że w Googlu nic nie będzie na ten temat), szczególnie jeśli "weryfikujący" siedzi na drugim końcu Polski lub Świata.

Zacznijmy od czegoś, zróbmy pilota, i jak nie działa to można tą zdechłą kaczkę zastąpić innym kurczakiem. Ale jeśli działa to może z brzydkiego kaczątka wyjdzie łabądź?

I tak na zakończenie - napisałem sobie już program, który mi z wiki-kodu (edytowalnego tekstu) wykrywa ilość: słów, wiki-linków, inter-wiki, kategorii, sekcji, grafik, grafikę w infoboksie, całkowitą liczbę cytowań (źródeł), źródła internetowe oraz to czy artykuł ma już status medalowego. Nad resztą pracuję.

Jak dopiszę resztę, to postaram się to zabudować w jakiegoś bota i zrobię kilka testów na jakiejś małej kategorii (zapisując wyniki do mojego brudnopisu lub gdzieś tam).

Pozdrawiam

Zureks

Karol Głąb

5:57 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 7 września 2008 11:36 użytkownik Stan Zurek zureks@gmail.com napisał:

...

...
Wg mnie to jakiś ponury nonsens. Z tabeli wynika, że jeśli stworzę zupełny bełkot liczący pow. 500 słów, utworzę pow. 20 sekcji, dam zupełnie wydumane pseudoźródła, utworzę pow. 100 wikilinków, pow. 30 interwiki, 5 linków zew. to powstanie w ten sposób artykuł medalowy?

No przeciez prosilem uprzejmie bez krytykanctwa. Wyraźnie napisalem pod tabelkami jak ma przebiegać procedura oceny. Zalążek, krótki i średni można zrobić botem, ale Dobry i Medalowy można ZGŁOSIĆ (a nie automatycznie ustawić na wyższy poziom) do oceny RĘCZNEJ jeśli wyjdzie z auto-oceny że artykuł jest długi, ma źródła itd.

PO TO MAJĄ BYĆ ZARZUTY MERYTORYCZNE.

Zamiast czekać na to aż ktoś zgłosi taki artykuł (albo też bardziej prawdopodobne jest że nie), to będzie go można botem wyłowić i rozpocząć procedurę, a nie liczyć na to ze jakis "główny autor" to zrobi. Wtedy być może ludzie zaczną pracować razem nad poprawą, a nie tylko wystawiać zarzuty i czekać aż główny autor to zrobi.

Proszę na to spojrzeć z innej strony - nie wiemy jaki dobry jest dany artykuł. Ale jeśli ma galerię na commons, 20 sekcji, źródła (powyżej 10) książkowe, czasopismowe i internetowe, jeśli ma powyżej 100 wiki-linków i powyżej 30 inter-wiki (znaczy duże prawdopodobieństwo że ważny międzynarodowo) i że ma kilka linków zewnętrznych, to spokojnie artykuł jest objętościowo na tyle duży, żeby na nim popracować i co najmniej zrobić Dobry, bo tak jak pisałem Dobre są chyba jednak tak trochę po macoszemu traktowane obecniej.

Moje myślenie powraca na pierwotny tor. Bocia ocena znacznie pomoże wyłapywać artykuły, których droga do dobrego lub medalu jest znacznie krótsza niż zalążków.:-)

...

...
jeśli stworzę wartościowy bardzo artykuł, którego nie ma w innych wersjach Wikipedii (czyli będzie 0 interwiki) oparty na 5 źródłach (ale za to jedynych jakie są na ten temat) i będzie tam 19 sekcji to artykuł nie będzie mógł nigdy uzyskać statusu medalu?

Jeśli artykuł będzie wystarczająco dobry, to oczywiście można go zgłosić "ręcznie" w każdej chwili.

...
Jakość artykułu musi być oceniania przez ludzi - żaden bot tego nie zrobi

Sęk w tym, że bardzo łatwo jest krytykować, jak to łatwo zauważyć powyżej, ale niestety tego się wszystkiego ręcznie NIE DA odwalić, bo po pierwsze i tak brakuje rąk do pracy, a po drugie jak sam Polimerku zauważyłeś gdzieś wcześniej - takie informacje się szybko deaktualizują.

Moja propozycja pozwala rozpoczęcie prac w kierunku jakiejś sensownej oceny jakości (która na dzień dzisiejszy praktycznie nie istnieje poza Dobrymi i Medalami) oraz na dużą POMOC w RĘCZNEJ ocenie takiej jakości.

Nie wspomnę już tutaj o takich drobnostkach, jak podniesienie zaufania do jakości artykułów jeśli każdy czytelnik będzie sobie mógł zajrzeć i zobaczyć jak wygląda taki wykresik.

No a dla nowych edytorów będzie oczywiście dodatkowo większe parcie na jakieś sensowne źródła, bo bez tego ocena jakości nie podskoczy.

Oczywiście źródeł nigdy się nie da ocenić automatycznie, ale ja powątpiewam w ogóle czy ręczna ocena też jest do końca bezproblemowa, bo jeśli ktoś się odwoła do (cytuję) "5 źródeł (ale za to jedynych jakie są na ten temat)" to wtedy powodzenia życzę każdemu kto spróbuje do nich dotrzeć (99% że w Googlu nic nie będzie na ten temat), szczególnie jeśli "weryfikujący" siedzi na drugim końcu Polski lub Świata.

Zacznijmy od czegoś, zróbmy pilota, i jak nie działa to można tą zdechłą kaczkę zastąpić innym kurczakiem. Ale jeśli działa to może z brzydkiego kaczątka wyjdzie łabądź?

I tak na zakończenie - napisałem sobie już program, który mi z wiki-kodu (edytowalnego tekstu) wykrywa ilość: słów, wiki-linków, inter-wiki, kategorii, sekcji, grafik, grafikę w infoboksie, całkowitą liczbę cytowań (źródeł), źródła internetowe oraz to czy artykuł ma już status medalowego. Nad resztą pracuję.

Jak dopiszę resztę, to postaram się to zabudować w jakiegoś bota i zrobię kilka testów na jakiejś małej kategorii (zapisując wyniki do mojego brudnopisu lub gdzieś tam).

Pozdrawiam

Zureks

Intensywnie to wszystko analizuję, biorę pod uwagę kolejne uwagi (które czasem docierają do mnie z opóźnieniem:-) dlatego przepraszam za moja chwiejność decyzyjną.

Zastanawiałem się czy szablon Zureksa nie mógłby przyznawać ocen, a bot wpisywalby tylko wartości liczbowe uzyskane na podstawie analizy artykułu. Nie wiem tylko czy za pomocą funkcji parsera można budować zdania logiczne typu: {{#if:{{{wiki-linki}}}<10|1}} {{#if:11<{{{wiki-linki}}}<20|2}} itd. albo coś w tym stylu. Wówczas bot byłby bardziej uniwersalny, i w razie zmiany w zakresach niektórych parametrów nie trzeba by ingerować w kod źródłowy, tylko w sam szablon.

Karol007

PMG

6:19 p.m.

Kiedyś mówiłem na temat automatycznego sprawdzania na en.wiki medali.

Odbywa się to za pomocą takiego narzędzia

http://en.wikipedia.org/wiki/User:AndyZ/peerreviewer

a raporty wyglądają tak:

http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Military_history/Peer_rev...

Tym którzy boją się że botem przyznawane są medale - nie są. Ale to jest przydatne jak się pisze hasła i ktoś dokona takiego sprawdzenia.

PMG

---------------------------------------------------- Otworzą skocznię im. Adama Małysza! Co o tym sądzisz? Wyraź swoją opinię. Kliknij: http://klik.wp.pl/?adr=http%3A%2F%2Fcorto.www.wp.pl%2Fas%2F10313570.html&...

Tomasz Ganicz

6:33 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 7 września 2008 12:19 użytkownik PMG pmgpmg@wp.pl napisał:

...

Kiedyś mówiłem na temat automatycznego sprawdzania na en.wiki medali.

Odbywa się to za pomocą takiego narzędzia

http://en.wikipedia.org/wiki/User:AndyZ/peerreviewer

a raporty wyglądają tak:

http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Military_history/Peer_rev...

Tym którzy boją się że botem przyznawane są medale - nie są. Ale to jest przydatne jak się pisze hasła i ktoś dokona takiego sprawdzenia.

Ten bot na en jest sprytny bo sprawdza składnię i wyłapuje prawdopodobne błędy językowe i w układzie artykułu - nie wiem czy dla języka polskiego to takie łatwe do zrobienia, bo u nas jest zmienny szyk zdania - ale pewnie ortografię dałoby się sprawdzać pół-automatem. (Poprawianie błędów ort automatem już żeśmy ćwiczyli z wiadomymi rezultatami) W en jest też np: taka zasada, że się nie tworzy jednozdaniowych akapitów i że sekcja musi zawierać co najmniej 3 akapity (nie jednozdaniowe) - chyba, że streszcza artykuł poboczny, do którego link jest podany szablonem main, co zapobiega tworzeniu jednozdaniowych sekcyjek. Takich łatwych do sprawdzenia automatem reguł jest pewnie sporo.. trzebaby je zebrać w jednym miejscu. Może dałoby się wyłapywać też linki zew. wplecione w tekst, kod html użyty do formatowania prostego tekstu, niepoprawne rozłożenie grafik powodujące kiszkowatość tekstu i inne takie...

-- Tomek "Polimerek" Ganicz http://pl.wikimedia.org/wiki/User:Polimerek http://www.ganicz.pl/poli/ http://www.ptchem.lodz.pl/en/TomaszGanicz.html

Leafnode

9:06 p.m.

Stan Zurek wrote:

...

Jakiś czas temu wspomniałem na tej liście o pomyśle automatycznej ocenie jakości artykułów.

(...)

Kilka zdań mojej opinii na ten temat.

1. Wygenerowanie statystyk może pomóc w kilku kwestiach, może być pewną wskazówką, ale w żadnym wypadku nie może być oceną jakości. Nie wyobrażam sobie, żeby jakość była oceniana na podstawie liczby słów - i to niezależnie od tego, jakie by były progi.

2. Statystyki dla każdego artykułu można wygenerować, ale wrzucanie tego wszystkiego do stron dyskusji byłoby zabójstwem dla wiki - 550k zmian. Lepiej np. skorzystać z toolservera, wrzucić wszystko do SQLa i generować na bieżąco - wtedy analizy będą dużo ciekawsze, będzie można je składać wg. życzenia itp.

3. Faktycznej oceny jakości nie da się zautomatyzować. Jakiś czas temu próbowałem zainteresować "społeczność" oceną ręczną, podobną do tej z en.wiki - http://pl.wikipedia.org/wiki/Wikipedysta:Leafnode/Ocena_jako%C5%9Bci To, i ocena istotności pomogłaby projektom skoordynować pracę - informując, które istotne artykuły są słabo opracowane. Ale odzew był mizerny, żeby nie mówić "żaden". Ale wikiprojekt Biblia używa tego, może w wolnej chwili zacznę to realizować w Astronautyce...

4. Krytykanctwem nazywanie innej oceny Twojego pomysłu niż pozytywna jest co najmniej nie na miejscu.

5. Kryteria ilościowe nigdy nie są dobre (więcej nie zawsze jest lepiej, więc generalizacja tu nie pomoże).

6. Używanie interwiki jako wyznaczników czegokolwiek nigdy nie lubiłem - zwłaszcza na SDU, gdzie używane były często jako głos "za". Owszem, brak interwiki może wskazywać, że... jest go brak ;), ale kto będzie siedział i przeglądał wszystkie artykuły bez interwiki, zwłaszcza w kontekście DA/AnM? Przecież to pierwsza rzecz, która jest sprawdzana przy zgłoszeniu kandydatury...

To na tyle.

/Leafnode

Stan Zurek

8 Sep 8 Sep

midnight

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

...

Wygenerowanie statystyk może pomóc w kilku kwestiach, może być pewną

wskazówką, ale w żadnym wypadku nie może być oceną jakości.

Do rozróżnienia czy coś jeszcze jest zalążkiem czy nie wystarczy automat (moim zdaniem) natomiast byłoby fajne narzędzie/pomoc/co tam jeszcze do niemal automatycznego zgłaszania że coś urosło na tyle żeby się podjąć oceny jakości ręcznie.

Jeszcze raz powtarzam, że to ma być *pomoc* a nie całkowite *zastąpienie* elementu ludzkiego. Nie o to chodzi.

...

Statystyki dla każdego artykułu można wygenerować, ale wrzucanie tego

wszystkiego do stron dyskusji byłoby zabójstwem dla wiki - 550k zmian.

Tego nie trzeba robić w jednym rzucie i natychmiast. Jak już jakiś bot łazi po artykułach (interwiki i takie tam) to można wtedy zrobić przy okazji automatyczną ocenę. Co więcej, ja bym to widział w taki sposób, że informację skondensować maksymalnie (np same 3-pikselowe paski kolorów, tak że cała "tabelka" zmieściła by się w jednym lub dwóch wierszach np. na dole każdego artykułu. Wówczas przed każdym zapisaniem niech jakiś AutoBot poprzelicza wskaźniki w wrzuci odpowiedni szablon (obecnie tylko około 200 znaków wywołania, ale można oczywiście dużo bardziej skompresować).

...

Lepiej np. skorzystać z toolservera, wrzucić wszystko do SQLa i generować na bieżąco

Ano można. Ja zaproponowałem tylko jakąś tam koncepcję wizualną, rozwiązanie techniczne może być dowolne. Pragnę przypomnieć, że Wikipedię tworzymy nie dla siebie tylko dla Czytelników, więc aby podnieść wiarygodność należałoby takie wyniki wyświetlać w taki sposób aby były one dostępne dla każdego (co nie jest takie proste zważając, że gro czytelników nie wie nawet o istnieniu stron dyskusji). No chyba że nie chcemy wyświetlać, że mamy słabe artykuły, ale to jest osobne zagadnienie.

...

Faktycznej oceny jakości nie da się zautomatyzować.

Co nie oznacza, że nie możemy zaimplementować czegoś automatycznego co byłoby pomocne. Jeśli się da (a się na pewno *jakoś* da) i jeżeli będzie pomocne (a na pewno *jakoś* będzie pomocne) to ja jestem za ułatwieniem sobie życia.

...

próbowałem zainteresować "społeczność" oceną ręczną, podobną do tej z en.wiki - http://pl.wikipedia.org/wiki/Wikipedysta:Leafnode/Ocena_jako%C5%9Bci To, i ocena istotności pomogłaby projektom skoordynować pracę - informując, które istotne artykuły są słabo opracowane. Ale odzew był mizerny, żeby nie mówić "żaden".

Masz szczęście że cię nie skrytykowali przynajmniej :-) Z tego co widzę to Twój pomysł nie różni się aż tak bardzo od mojego (cytuję): "Czwórka - Jest to najwyższa ocena, jaką może uzyskać artykuł, nieprzechodząc przez formalne procedury oceny." Podobnie u mnie Krótki i Średni może zostać przyznany bez "formalnych" procedur.

...

Krytykanctwem nazywanie innej oceny Twojego pomysłu niż pozytywna

jest co najmniej nie na miejscu.

"Inna ocena" jest jak najbardziej wskazana, ale nie lubię kiedy ludzie odnoszą się do czegoś bez próby zrozumienia a już na pewno bez przeczytania podanych argumentów. Nigdzie nie twierdziłem że status Dobrego i Medalowego mają być przyznawane botem, a takie zarzuty pojawiły się jako pierwsze. A tego już niestety nie mogę nazwać konstruktywną krytyką.

...

Kryteria ilościowe nigdy nie są dobre (więcej nie zawsze jest lepiej,

więc generalizacja tu nie pomoże).

No ale fajnie byłoby mieć jakąś kategorię/listę artykułów których długość/ilość grafik/źródeł wzrosła na tyle, żeby się można zainteresować przyznaniem statusu Dobrego, prawda? W chwili obecnej trzeba to robić ręcznie co przy 500k artykułach nie jest takie wcale znowu proste.

...

Używanie interwiki jako wyznaczników czegokolwiek nigdy nie lubiłem -

To jest tylko jedna z mierzalnych "zmiennych" - zaproponujmy coś innego jeśli się lepiej nadaje. To była koncepcja, więc może ewaluować. Ale niech się pojawiają nowe pomysły a nie tylko krytyka tych istniejących...

...

ale kto będzie siedział i przeglądał wszystkie artykuły bez interwiki, zwłaszcza w kontekście DA/AnM? Przecież to pierwsza rzecz, która jest sprawdzana przy zgłoszeniu kandydatury...

Odbieram to jako sprzeczność rozumowania tutaj - najpierw piszesz że interwiki to nie wyznacznik a potem że się to jednak sprawdza. Więc zaprząc do tego bota i uprościć życie ludziom, a szczególnie nowicjuszom.

Pozdrawiam

Zureks

Leafnode

1:04 a.m.

Stan Zurek wrote:

...

...

Wygenerowanie statystyk może pomóc w kilku kwestiach, może być pewną

wskazówką, ale w żadnym wypadku nie może być oceną jakości.

Do rozróżnienia czy coś jeszcze jest zalążkiem czy nie wystarczy automat (moim zdaniem)

A IMO - nie. 100 słów to zalążek a 105 już nie?

...

natomiast byłoby fajne narzędzie/pomoc/co tam jeszcze do niemal automatycznego zgłaszania że coś urosło na tyle żeby się podjąć oceny jakości ręcznie.

Może. Jeśli faktycznie ktoś by to robił, to czemu nie. Ale wiem, że zorganizowane, koordynowane edytowanie średnio na pl.wiki wychodzi.

...

Jeszcze raz powtarzam, że to ma być *pomoc* a nie całkowite *zastąpienie* elementu ludzkiego. Nie o to chodzi.

No i OK.

...

...

Statystyki dla każdego artykułu można wygenerować, ale wrzucanie tego

wszystkiego do stron dyskusji byłoby zabójstwem dla wiki - 550k zmian.

Tego nie trzeba robić w jednym rzucie i natychmiast.

To akurat nic nie zmienia. Tak czy tak to jest zrobienie setek tysięcy edycji i dodanie przynajmniej 100MB danych do dumpa wiki.

...

Jak już jakiś bot łazi po artykułach (interwiki i takie tam) to można wtedy zrobić przy okazji automatyczną ocenę.

To nie zmienia, że każdy artykuł będzie zmieniony.

...

Co więcej, ja bym to widział w taki sposób, że informację skondensować maksymalnie (np same 3-pikselowe paski kolorów, tak że cała "tabelka" zmieściła by się w jednym lub dwóch wierszach np. na dole każdego artykułu.

Kolejna informacja, kompletnie zbędna normalnemu użytkownikowi, powiększająca artykuł. Do tego nie rozumiem za bardzo - przecież jak już ktoś wejdzie na artykuł, to widzi wszystko, statystyk nie potrzebuje.

...

Wówczas przed każdym zapisaniem niech jakiś AutoBot poprzelicza wskaźniki w wrzuci odpowiedni szablon (obecnie tylko około 200 znaków wywołania, ale można oczywiście dużo bardziej skompresować).

...i do każdej jednej edycji artykułu dochodzi kolejna. Utopia. Wikimedia nas zabije.

...

...
Lepiej np. skorzystać z toolservera, wrzucić wszystko do SQLa i generować na bieżąco

Ano można. Ja zaproponowałem tylko jakąś tam koncepcję wizualną, rozwiązanie techniczne może być dowolne. Pragnę przypomnieć, że Wikipedię tworzymy nie dla siebie tylko dla Czytelników, więc aby podnieść wiarygodność należałoby takie wyniki wyświetlać w taki sposób aby były one dostępne dla każdego (co nie jest takie proste zważając, że gro czytelników nie wie nawet o istnieniu stron dyskusji). No chyba że nie chcemy wyświetlać, że mamy słabe artykuły, ale to jest osobne zagadnienie.

Już się gubię. To teraz te "niezmiernie ważne informacje" mają być dla czytelników, nie dla edytorów? Co czytelnikowi z ilości słów w artykule? W jaki sposób to podwyższa wiarygodność? Chyba coś tu jest nie tak.

A jeśli już to "musi" być tak rozpowszechnione, to można przecież dodać poprzez skórkę linki z artykułu do toolservera - nie powiększając kosmicznie dumpa.

...

...

Faktycznej oceny jakości nie da się zautomatyzować.

Co nie oznacza, że nie możemy zaimplementować czegoś automatycznego co byłoby pomocne.

Owszem, tu się nie spieram.

...

...
próbowałem zainteresować "społeczność" oceną ręczną, podobną do tej z en.wiki - http://pl.wikipedia.org/wiki/Wikipedysta:Leafnode/Ocena_jako%C5%9Bci To, i ocena istotności pomogłaby projektom skoordynować pracę - informując, które istotne artykuły są słabo opracowane. Ale odzew był mizerny, żeby nie mówić "żaden".

Masz szczęście że cię nie skrytykowali przynajmniej :-) Z tego co widzę to Twój pomysł nie różni się aż tak bardzo od mojego (cytuję): "Czwórka - Jest to najwyższa ocena, jaką może uzyskać artykuł, nieprzechodząc przez formalne procedury oceny." Podobnie u mnie Krótki i Średni może zostać przyznany bez "formalnych" procedur.

Różnica jest taka, że brak "formalnych procedur" nie oznacza przyznawania tego statusu za ilość słów.

...

...

Krytykanctwem nazywanie innej oceny Twojego pomysłu niż pozytywna

jest co najmniej nie na miejscu.

"Inna ocena" jest jak najbardziej wskazana, ale nie lubię kiedy ludzie odnoszą się do czegoś bez próby zrozumienia a już na pewno bez przeczytania podanych argumentów. Nigdzie nie twierdziłem że status Dobrego i Medalowego mają być przyznawane botem, a takie zarzuty pojawiły się jako pierwsze. A tego już niestety nie mogę nazwać konstruktywną krytyką.

Wiesz, tu przede wszystkim tytuł wątku nastawia negatywnie człowieka ;) Wszyscy "krytykanci" odnosili się właśnie do idei, jakoby analiza automatyczna miała być jakimkolwiek wyznacznikiem jakości artykułu. I ja się pod tym też podpisuję.

...

...

Kryteria ilościowe nigdy nie są dobre (więcej nie zawsze jest lepiej,

więc generalizacja tu nie pomoże).

No ale fajnie byłoby mieć jakąś kategorię/listę artykułów których długość/ilość grafik/źródeł wzrosła na tyle, żeby się można zainteresować przyznaniem statusu Dobrego, prawda? W chwili obecnej trzeba to robić ręcznie co przy 500k artykułach nie jest takie wcale znowu proste.

Już napisałem wyżej o tym. Jako narzędzie statystyczne, proszę bardzo. Do tego nie trzeba niczyjego pozwolenia, ani nawet pomocy.

...

...

Używanie interwiki jako wyznaczników czegokolwiek nigdy nie lubiłem -

To jest tylko jedna z mierzalnych "zmiennych" - zaproponujmy coś innego jeśli się lepiej nadaje. To była koncepcja, więc może ewaluować. Ale niech się pojawiają nowe pomysły a nie tylko krytyka tych istniejących...

"Zmienne" są opisane w kryteriach na DA/AnM. Natomiast do robienia statystyk - jak najbardziej, info można zamieścić, ale jako sucha liczba.

...

...
ale kto będzie siedział i przeglądał wszystkie artykuły bez interwiki, zwłaszcza w kontekście DA/AnM? Przecież to pierwsza rzecz, która jest sprawdzana przy zgłoszeniu kandydatury...

Odbieram to jako sprzeczność rozumowania tutaj - najpierw piszesz że interwiki to nie wyznacznik a potem że się to jednak sprawdza. Więc zaprząc do tego bota i uprościć życie ludziom, a szczególnie nowicjuszom.

Gdzie tu sprzeczność? Sprawdza się, ale to nie jest warunek - ani konieczny, ani wystarczający.

/leafnode

Maciej Łebkowski

4:30 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

2008/9/7 Leafnode wiki@leon.w-wa.pl:

...

...
...

Wygenerowanie statystyk może pomóc w kilku kwestiach, może być pewną

wskazówką, ale w żadnym wypadku nie może być oceną jakości.

Do rozróżnienia czy coś jeszcze jest zalążkiem czy nie wystarczy automat (moim zdaniem)

A IMO - nie. 100 słów to zalążek a 105 już nie?

Racja, brzmi dość śmiesznie.

Przyszło mi do głowy, że bot nie musi ustalać konkretnych granic. Może wystarczy za niektóre rzeczy dodawać punkty, a za niektóre odejmować. Trochę tak jak w filtrach antyspamowych. W takiej sytuacji wyniki bota nie dzieliłyby artykułów na krótkie, dobre i na medal, ale na te, które otrzymały mniej, średnio i więcej punktów. No i oczywiście byłyby to tylko wyniki pomocnicze, na których wikipedyści mogliby się opierać.

Również jestem zdania, że nie jest to rozwiązanie bezbłędne i kompleksowe, ale, nawet z pewną dozą wyników fałszywych, może stać się pomocne w odnajdywaniu kandydatów do DA/AnM, lub - kto wie - może różnych innych typów artykułów, które dałoby się wyłowić na podstawie danych statystycznych/heurystycznych :)

-- Maciej Łebkowski, http://lebkowski.info/kontakt.php

Karol Głąb

7:13 p.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

W dniu 8 września 2008 10:30 użytkownik Maciej Łebkowski m.lebkowski@gmail.com napisał:

...

2008/9/7 Leafnode wiki@leon.w-wa.pl:

...
...
...

Wygenerowanie statystyk może pomóc w kilku kwestiach, może być pewną

wskazówką, ale w żadnym wypadku nie może być oceną jakości.

Do rozróżnienia czy coś jeszcze jest zalążkiem czy nie wystarczy automat (moim zdaniem)

A IMO - nie. 100 słów to zalążek a 105 już nie?

Racja, brzmi dość śmiesznie.

Przyszło mi do głowy, że bot nie musi ustalać konkretnych granic. Może wystarczy za niektóre rzeczy dodawać punkty, a za niektóre odejmować. Trochę tak jak w filtrach antyspamowych. W takiej sytuacji wyniki bota nie dzieliłyby artykułów na krótkie, dobre i na medal, ale na te, które otrzymały mniej, średnio i więcej punktów. No i oczywiście byłyby to tylko wyniki pomocnicze, na których wikipedyści mogliby się opierać.

Również jestem zdania, że nie jest to rozwiązanie bezbłędne i kompleksowe, ale, nawet z pewną dozą wyników fałszywych, może stać się pomocne w odnajdywaniu kandydatów do DA/AnM, lub - kto wie - może różnych innych typów artykułów, które dałoby się wyłowić na podstawie danych statystycznych/heurystycznych :)

-- Maciej Łebkowski, http://lebkowski.info/kontakt.php

Ja proponowałem określić udział procentowy poszczególnych parametrów artykułu w ogólnej ocenie stopnia rozwoju artykułu, wtedy moglibyśmy ustalić, co wg nas z technicznego punku widzenia powinien mieć artykuł medalowy i w jakiej minimalnej ilości, oraz jaka byłaby reprezentacja procentowa w ogólnej ocenie, a resztę podzielić na równe przedziały:) Ten system też nie jest idealny ale również bardzo sprawnie pomagałby w wyłapywaniu artykułów. Dodatkowo można by botowi przykazać, aby raz w tygodniu losował 20 artykułów spośród tych które w jego obliczeniach wyszły najwyżej, a my te artykuły dajemy do warsztatu w wikiprojektach, które po krótkim czasie zgłaszają je do medalu lub DA, gdzie odbywa się dalsza poprawa i koniecznie rzeczowa, krótka i merytoryczna rozmowa. Przy okazji można by od razu zlikwidować te nieszczęsne głosowania, rewolucjonizując cały proces oceny artykułów.

Mało tego, w nocy wymyśliłem, że ocenę rozwoju artykułu może przeprowadzać skrypt na stronie specjalnej, która byłaby dodatkową zakładką w przestrzeni głównej, analogicznie do stron specjalnych przeniesienia artykułu, usuwania artykułów czy blokady użytkowników. Klikamy wówczas na zakładkę i na naszym monitorze pojawia się tabela z danymi oraz obliczonym stopniem rozwoju. Dodatkowo można umieścić tam maleńki formularz do zgłaszania błędów i braków. Braki zostałyby na stronie pod tabelą, a błędy wędrowałyby na zbiorczą stronę "zgłoś błąd, oraz do wikiprojektów (jak to kiedyś chcieliśmy zrobić). Poprawienie błędu wymagałoby jedynie wypełnienie formularza, na tej samej stronie specjalnej przy artykule, i wiadomość wędrowałaby na "zgłoś błąd" i do wikiprojektów jako załatwiona.

Co Wy na to? Byłaby to cała masa roboty, dla techników ale na pewno to jest możliwe do zrobienia, tylko trzeba trochę czasu i zapału do tego:)

Karol007

Leafnode

9 Sep 9 Sep

4:48 a.m.

Karol Głąb wrote:

...

Ja proponowałem określić udział procentowy poszczególnych parametrów artykułu w ogólnej ocenie stopnia rozwoju artykułu, wtedy moglibyśmy ustalić, co wg nas z technicznego punku widzenia powinien mieć artykuł medalowy i w jakiej minimalnej ilości, oraz jaka byłaby reprezentacja procentowa w ogólnej ocenie, a resztę podzielić na równe przedziały:)

Wiesz, to jest chyba temat na rozprawę doktorską z data mining, sztucznej inteligencji i automatów klasyfikujących. Nie wiem jak byśmy mieli ocenić procentowo co jest ważne w artykułach medalowych. Wszystko jest ważne ;)

...

Ten system też nie jest idealny ale również bardzo sprawnie pomagałby w wyłapywaniu artykułów.

Chyba zwykłe statystyki wystarczą :)

...

Mało tego, w nocy wymyśliłem, że ocenę rozwoju artykułu może przeprowadzać skrypt na stronie specjalnej, która byłaby dodatkową zakładką w przestrzeni głównej, analogicznie do stron specjalnych przeniesienia artykułu, usuwania artykułów czy blokady użytkowników. Klikamy wówczas na zakładkę i na naszym monitorze pojawia się tabela z danymi oraz obliczonym stopniem rozwoju. Dodatkowo można umieścić tam maleńki formularz do zgłaszania błędów i braków. Braki zostałyby na stronie pod tabelą, a błędy wędrowałyby na zbiorczą stronę "zgłoś błąd, oraz do wikiprojektów (jak to kiedyś chcieliśmy zrobić). Poprawienie błędu wymagałoby jedynie wypełnienie formularza, na tej samej stronie specjalnej przy artykule, i wiadomość wędrowałaby na "zgłoś błąd" i do wikiprojektów jako załatwiona.

Ja się tylko zastanawiam - po co to? Przecież statystyka ma sens, jeśli jest to zestawienie, ale liczenie statystyk dla pojedynczego artykułu...? Do tego żeby wiedzieć, że artykuł ma jeden obrazek, trzy interwiki i zero przypisów to ja nie potrzebuję wchodzić na dodatkową zakładkę, widać na tej pierwszej ;) Podobnie jak w przypadku pomysłu ABXa z czymś a'la popups - co to da?

/leafnode

Włodzimierz Skiba

5:05 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

Ok, spójrzcie na Kanon Polskiej Wikipedii. Tak, to wszystko co tam Nutaj w statystykach wpisuje, widać w artykułach. Rozmiar, brak infoboxu, brak abstraktu. Nutaj robi to ręcznie od pół roku dla tysiąca artykułów. Mamy 500 tysięcy artykułów. Mamy 500 użytkowników którzy rzucą wszystko i następne pół roku będą oceniać ręcznie to co daje się ocenić z automatu i skierować do dalszych prac właśnie ręcznych? ABX

Leafnode

5:38 a.m.

Włodzimierz Skiba wrote:

...

Ok, spójrzcie na Kanon Polskiej Wikipedii. Tak, to wszystko co tam Nutaj w statystykach wpisuje, widać w artykułach. Rozmiar, brak infoboxu, brak abstraktu. Nutaj robi to ręcznie od pół roku dla tysiąca artykułów. Mamy 500 tysięcy artykułów. Mamy 500 użytkowników którzy rzucą wszystko i następne pół roku będą oceniać ręcznie to co daje się ocenić z automatu i skierować do dalszych prac właśnie ręcznych? ABX

A czy ktoś mówi, żeby tak nie robić? Kwestia tylko taka, żeby a) statystyki zostawić robotom, a oceny ludziom, b) robić rzeczy na prawdę potrzebne.

/leafnode

Włodzimierz Skiba

5:43 a.m.

New subject: [Wikipl-l] Automatyczna ocena jakości artykułów

No, nazywaniem tego "ocena jakości" też mi się nie podoba. To furtka do szarżowania wynikami w głosowaniach. Statystyka, wskaźniki, pomiar, wstępny opis. Nic więcej. ABX

Leafnode

5:54 a.m.

Włodzimierz Skiba wrote:

...

No, nazywaniem tego "ocena jakości" też mi się nie podoba. To furtka do szarżowania wynikami w głosowaniach. Statystyka, wskaźniki, pomiar, wstępny opis. Nic więcej. ABX

No i w porządku :) Statystyki się przydadzą. Trzeba tylko wszystko rozważnie zrobić, żeby na przykład nie zarżnąć przy okazji serwerów, żeby nie zmarnować mocy przerobowych niepotrzebnie itp.

/leafnode

masti

6:03 a.m.

a co to ma wspólnego z ideą "wiki wiki"? próbom oceniania "mówimy nasze stanowcze nie!"

masti

Włodzimierz Skiba pisze:

...

No, nazywaniem tego "ocena jakości" też mi się nie podoba. To furtka do szarżowania wynikami w głosowaniach. Statystyka, wskaźniki, pomiar, wstępny opis. Nic więcej. ABX _______________________________________________ WikiPL-l mailing list WikiPL-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikipl-l

5925

Age (days ago)

5927

Last active (days ago)

wikipl-l@lists.wikimedia.org

27 comments

11 participants

tags (0)

participants (11)

Karol Głąb
Leafnode
Maciej Łebkowski
masti
McMonster
Michał Buczyński
PMG
Stan Zurek
Tomasz Ganicz
Wojciech Muła
Włodzimierz Skiba