Cytowanie "Tomek \"Polimerek\" Ganicz" <polimerek(a)gmail.com>om>:
ajf(a)ich.us.edu.pl napisał(a):
Polimerek kłamie w żywe oczy!
Pomijam całkowicie ten atak personalny i liczę, że zaraz ktoś mnie tu
przeprosi. Proszę wskazać, w którym konkretnie miejscu skłamałem "w żywe
oczy".
To nie jest atak personalny, tylko stwierdzenie faktu:
1.
"Od wczoraj przyrosło nam już ponad 1000 artykułów tym sposobem..."
# w ciagu dnia 21.07.2006 powstało 556 artykułów, z czego ludzie napisali 323
artykuły
(tylko z tą datą się machnąłem, bo sprawdzałem 27 stycznia)
2.
"
z tego potem mają być tworzone artykuły o kolejnych hrabstwach w USA,
samych takich list ma być 50, bo tyle stanów liczy USA. Razem daje to
coś koło 3000 artykułów.
Pojedynczy taki artykuł wygląda tak:
http://pl.wikipedia.org/wiki/Lafayette
"
To jest bzdura, ponieważ link do Lafayette jest jednym z błędów, na które
poluje. W listach hrabstw nie może być żadnych linków do disambigów, bo operuję
na ujednoznacznionych danych (tylko lista siedzib hrabst sprawia pewne problemy,
bo jest w niej dużo literówek)
Proszę o ustosunkowanie się do tych dwóch faktów, bo chyba dowdód rozminięcia
się z prawdą oczywisty...
Oto fakty:
# w ciagu dnia 21.07.2006 powstało 556 artykułów, z czego ludzie napisali
323
artykuły
Ok - czyli prawda jest taka, że boty generują obecnie na okrągło mniej
więcej połowę artykułów, które powstają w Wikipedii. Ale zdaje się, że
obecnie znajdują się w fazie częściowego uśpienia i testów.
Nie to tsca leci i tylko on. Ja dopiero zbieram dane dla tych 50 list, które są
takim złem. Hrabstwa ruszą, jak będą gotowe piramidy wieku i parę innych
wykresów.
# Podany link
do Lafayette nie ma nic wspólnego z hrabstwami. Jest to jeden
z 6
tysięcy wygenerowanych disambigów
hrabst/okręgów/parafii/gmin/miejscowości
USA i
Portoryko. Disambigi te na pl.wiki są od
18.01.2006
Ależ ma - znalazłem go przez proste kliknięcie na listę hrabstw Alabamy,
które zgłosiłem do SdU - tam są same czerwone linki + parę niebieskich -
wszystkie do tych disambigów, w których prawie wszystkie linki są
czerwone. Mamy więc mieć 50 list odsyłających do 3000 disambigów z
hakiem, w których - w każdym będzie po kilkadziesiąt czerwonych linków ?
nie, bo:
# disambigów jest 6 tysięcy, a nie 3
# linki do disambigów to błąd, nad którym pracuję
# niektóre disambigi mają po >100 pozycji - i to już smao w sobie jest ciekawą
informacją
# Tak
disambigi doliczają się do tych 200 000, ale niektóre zawierają
całkiem
ciekawe dane - np. disambig Washington
(ujednoznacznienie) zawiera 301
pozycji
(to nawet było podane na SG)
Rewelacja - ktoś kto szuka Goerge'a Washingtona i natrafi na tę listę
będzie go musiał znaleźć na liście 300 pozycji.
# Nie bo go w tym disambigu nie ma, bo nie ujednoznaczniamy nazwisk
# dane o wioskach w USA są umieszczane zawsze na końcu disambiga, aby nie
śmiecić
# to hasło się chyba nazywa Jerzy Waszyngton ....
# Nie ma sensu
dyskutować nawet o tym, czy disambigi zawierają sensowną
informację, czy nie, bo inaczej nie byłyby tworzone.
Jak napiszę hasło [[brbrbrb]] z treścią grgrgrgr - to ponieważ je
utworzyłem i ono istnieje, to znaczy że zawiera sensowną treść, bo
inaczej bym go nie utworzył. Czy jak dobrze załapałem logikę tego
rozumowania? Wg. mnie disambigi z definicji nie zawierają żadnej
merytorycznej treści - one odsyłają tylko do innych artykułów.
Myślę, że w przypadku tych automatycznych disambigów tworzonych do
automatycznych artykułów przydałby się jeszcze jakiś automatyczny
czytelnik, którego to automatycznie bardzo zainteresuje. Wydaje mi się,
że większość normalnych czytelników to raczej jakoś szczególnie nie
zainteresuje jednak, bo to takie trochę monotonne jest...
Jednym słowym trafiłeś na dziedzinę, której nie lubisz i na siłę musisz ją
zgnębić. A powstają np. disambigi do imoin z wykazami sławnych ludzi, którzy
mieli to imię :P
No i na koniec
kilka faktów, aby nie było niedomówień:
artykułów o hrabstwach/gminach/bla bla bla w USA jest do wygenerowania 50
tysięcy. Obecnie dochodzę do wniosku, że warte wygenerowania są tylko
artykuły
o hrabstwach (owe 3216) oraz miastach (25375).
Nie będzie to zrobione w
najbliższym czasie, ponieważ bardzo powoli idzie mi obróbka danych. Na
pewno
artykuły o hrabstwach prócz suchych liczb będą
zawierały również piramidy
wieku
dla mieszkańców oraz być może jeszcze jakieś
wykresy (zależeć będzie od
mojej
inwencji i dostępnych technologii). O miastach
mogę powiedzieć tylko tyle,
że
nie powstaną ani w styczniu, ani w lutym.
A ten disambig? Tam są czerwone linki nawet do jakiejś parafii. Na co to
komu, skoro większość tych artykułów ma jednak nie powstać, a szansa, że
utworzy je człowiek jest gdzieś w okolicach wartości jak jeden do miliona.
Jak Ausir powiedział - Parafia to hrabstwo w Luizjanie, a Okręg na Alasce.
Nie - biorąc pod uwagę liczbę sławnych amerykanów (oraz to, że amerykański
system edukacyjny nie tłamsi ludzi z prowincji) bardzo dużo tych wiosek ma
sławnych mieszkańców.
Na wikipedii
na dzień dzisiejszy mamy około 100 000 stubów (na pewno nie
więcej)
tsca.bot nie wygenerował więcej jak 80 000 (na pewno tsca jest w stanie
dokładnie to policzyć).
Pisał na IRCu, że nie - sam się już w tym pogubił. Pytałem kilkukrotnie
różnych osób czy wiedzą ile ich boty generują artykułów. Nigdy nie
dostałem konkretnej odpowiedzi, tylko bardzo ogólne i niepewne szacunki.
Potrafią podać dokładnie ile artykułów powstało w jakimś obszarze - np.
liczba hrabstw w USA - ale jaką to daje sumę ogólną to już nie. Moim
słowom można łatwo zaprzeczyć podając takie - dokładne i rzetelne
wyliczenie ile i jakich artykułów powstało w tym trybie i w jakim czasie
+ porównać to z liczbą artykułów utworzonych w tym czasie przez ludzi.
To nam da rzetelny obraz tego co się dzieje, bo obecnie mam wrażenie, że
sytuacja wymknęła się spod kontroli nawet samym operatorom botów.
Kto jeszcze prócz tsca generuje artykuły ? (no i prócz mnie, ja mogę wszystko na
razie policzyć).
Odnośnie liczby artykułów robionych przez ludzi:
jakoś w grudniu przestałem codziennie puszczać "codzienne sprawdzanie nowych",
do tego momentu oscylowaliśmy wokół 170 artykułów ludzkich na dobę, teraz na
pewno przekroczyliśmy 200 (dokładniejsze dane moge podać za kilka dni). Godnym
odnotowania jest fakt, że od września do grudnia nastąpił wzrost o zaledwie 30
artykułów na dobę, a teraz w ciągu miesiąca jest to chyba koło 50. W naukach
ścisłych to się nazywa koincydencja (ponieważ w czasie wrzesień grudzień nie
botowaliśmy artykułów).
odnośnie
dehumanizacji wikipedii przez boty nikt nie bierze pod uwagę, że
operator bota też jest człowiekiem, siedzi i opracowuje dane ( zwykle
pracuje
nad tym więcej niż jedna osoba). Ja sam nad
zamianami flag (które można
uznać
chyba za sukces) spędziłem tydzień prawie bez
przerwy.
Zmiany artykułów przez boty, które da się zrobić automatycznie to
oczywiście jak najbardziej sensowny i użyteczny sposób ich
wykorzystania. Nie ma to jednak nic wspólnego z automatycznym tworzeniem
stubów, ich list i disambigów do tych stubów.
Nie szukajmy sobie problemów na siłę :)
Jest na to proste lekarstwo. Wyłączyć jak najszybciej tworzenie
kolejnych stubów przez boty.
Wyłączyć jak wyłączyć, może po prostu trzeba zmienić podejście - np. gdy
zaczniemy generować artykuły o asteroidach (nie 120k jak mówiłem na IRCu, tylko
nazwane asteroidy), to będą to kompletne artykuły.
Pozdrawiam
AJF/WarX