Cytowanie "Tomek "Polimerek" Ganicz" polimerek@gmail.com:
ajf@ich.us.edu.pl napisał(a):
Polimerek kłamie w żywe oczy!
Pomijam całkowicie ten atak personalny i liczę, że zaraz ktoś mnie tu przeprosi. Proszę wskazać, w którym konkretnie miejscu skłamałem "w żywe oczy".
To nie jest atak personalny, tylko stwierdzenie faktu: 1. "Od wczoraj przyrosło nam już ponad 1000 artykułów tym sposobem..." # w ciagu dnia 21.07.2006 powstało 556 artykułów, z czego ludzie napisali 323 artykuły
(tylko z tą datą się machnąłem, bo sprawdzałem 27 stycznia)
2. " z tego potem mają być tworzone artykuły o kolejnych hrabstwach w USA, samych takich list ma być 50, bo tyle stanów liczy USA. Razem daje to coś koło 3000 artykułów. Pojedynczy taki artykuł wygląda tak:
http://pl.wikipedia.org/wiki/Lafayette "
To jest bzdura, ponieważ link do Lafayette jest jednym z błędów, na które poluje. W listach hrabstw nie może być żadnych linków do disambigów, bo operuję na ujednoznacznionych danych (tylko lista siedzib hrabst sprawia pewne problemy, bo jest w niej dużo literówek)
Proszę o ustosunkowanie się do tych dwóch faktów, bo chyba dowdód rozminięcia się z prawdą oczywisty...
Oto fakty: # w ciagu dnia 21.07.2006 powstało 556 artykułów, z czego ludzie napisali
323
artykuły
Ok - czyli prawda jest taka, że boty generują obecnie na okrągło mniej więcej połowę artykułów, które powstają w Wikipedii. Ale zdaje się, że obecnie znajdują się w fazie częściowego uśpienia i testów.
Nie to tsca leci i tylko on. Ja dopiero zbieram dane dla tych 50 list, które są takim złem. Hrabstwa ruszą, jak będą gotowe piramidy wieku i parę innych wykresów.
# Podany link do Lafayette nie ma nic wspólnego z hrabstwami. Jest to jeden
z 6
tysięcy wygenerowanych disambigów hrabst/okręgów/parafii/gmin/miejscowości
USA i
Portoryko. Disambigi te na pl.wiki są od 18.01.2006
Ależ ma - znalazłem go przez proste kliknięcie na listę hrabstw Alabamy, które zgłosiłem do SdU - tam są same czerwone linki + parę niebieskich - wszystkie do tych disambigów, w których prawie wszystkie linki są czerwone. Mamy więc mieć 50 list odsyłających do 3000 disambigów z hakiem, w których - w każdym będzie po kilkadziesiąt czerwonych linków ?
nie, bo: # disambigów jest 6 tysięcy, a nie 3 # linki do disambigów to błąd, nad którym pracuję # niektóre disambigi mają po >100 pozycji - i to już smao w sobie jest ciekawą informacją
# Tak disambigi doliczają się do tych 200 000, ale niektóre zawierają
całkiem
ciekawe dane - np. disambig Washington (ujednoznacznienie) zawiera 301
pozycji
(to nawet było podane na SG)
Rewelacja - ktoś kto szuka Goerge'a Washingtona i natrafi na tę listę będzie go musiał znaleźć na liście 300 pozycji.
# Nie bo go w tym disambigu nie ma, bo nie ujednoznaczniamy nazwisk # dane o wioskach w USA są umieszczane zawsze na końcu disambiga, aby nie śmiecić # to hasło się chyba nazywa Jerzy Waszyngton ....
# Nie ma sensu dyskutować nawet o tym, czy disambigi zawierają sensowną informację, czy nie, bo inaczej nie byłyby tworzone.
Jak napiszę hasło [[brbrbrb]] z treścią grgrgrgr - to ponieważ je utworzyłem i ono istnieje, to znaczy że zawiera sensowną treść, bo inaczej bym go nie utworzył. Czy jak dobrze załapałem logikę tego rozumowania? Wg. mnie disambigi z definicji nie zawierają żadnej merytorycznej treści - one odsyłają tylko do innych artykułów. Myślę, że w przypadku tych automatycznych disambigów tworzonych do automatycznych artykułów przydałby się jeszcze jakiś automatyczny czytelnik, którego to automatycznie bardzo zainteresuje. Wydaje mi się, że większość normalnych czytelników to raczej jakoś szczególnie nie zainteresuje jednak, bo to takie trochę monotonne jest...
Jednym słowym trafiłeś na dziedzinę, której nie lubisz i na siłę musisz ją zgnębić. A powstają np. disambigi do imoin z wykazami sławnych ludzi, którzy mieli to imię :P
No i na koniec kilka faktów, aby nie było niedomówień:
artykułów o hrabstwach/gminach/bla bla bla w USA jest do wygenerowania 50 tysięcy. Obecnie dochodzę do wniosku, że warte wygenerowania są tylko
artykuły
o hrabstwach (owe 3216) oraz miastach (25375). Nie będzie to zrobione w najbliższym czasie, ponieważ bardzo powoli idzie mi obróbka danych. Na
pewno
artykuły o hrabstwach prócz suchych liczb będą zawierały również piramidy
wieku
dla mieszkańców oraz być może jeszcze jakieś wykresy (zależeć będzie od
mojej
inwencji i dostępnych technologii). O miastach mogę powiedzieć tylko tyle,
że
nie powstaną ani w styczniu, ani w lutym.
A ten disambig? Tam są czerwone linki nawet do jakiejś parafii. Na co to komu, skoro większość tych artykułów ma jednak nie powstać, a szansa, że utworzy je człowiek jest gdzieś w okolicach wartości jak jeden do miliona.
Jak Ausir powiedział - Parafia to hrabstwo w Luizjanie, a Okręg na Alasce. Nie - biorąc pod uwagę liczbę sławnych amerykanów (oraz to, że amerykański system edukacyjny nie tłamsi ludzi z prowincji) bardzo dużo tych wiosek ma sławnych mieszkańców.
Na wikipedii na dzień dzisiejszy mamy około 100 000 stubów (na pewno nie
więcej)
tsca.bot nie wygenerował więcej jak 80 000 (na pewno tsca jest w stanie dokładnie to policzyć).
Pisał na IRCu, że nie - sam się już w tym pogubił. Pytałem kilkukrotnie różnych osób czy wiedzą ile ich boty generują artykułów. Nigdy nie dostałem konkretnej odpowiedzi, tylko bardzo ogólne i niepewne szacunki. Potrafią podać dokładnie ile artykułów powstało w jakimś obszarze - np. liczba hrabstw w USA - ale jaką to daje sumę ogólną to już nie. Moim słowom można łatwo zaprzeczyć podając takie - dokładne i rzetelne wyliczenie ile i jakich artykułów powstało w tym trybie i w jakim czasie
- porównać to z liczbą artykułów utworzonych w tym czasie przez ludzi.
To nam da rzetelny obraz tego co się dzieje, bo obecnie mam wrażenie, że sytuacja wymknęła się spod kontroli nawet samym operatorom botów.
Kto jeszcze prócz tsca generuje artykuły ? (no i prócz mnie, ja mogę wszystko na razie policzyć).
Odnośnie liczby artykułów robionych przez ludzi: jakoś w grudniu przestałem codziennie puszczać "codzienne sprawdzanie nowych", do tego momentu oscylowaliśmy wokół 170 artykułów ludzkich na dobę, teraz na pewno przekroczyliśmy 200 (dokładniejsze dane moge podać za kilka dni). Godnym odnotowania jest fakt, że od września do grudnia nastąpił wzrost o zaledwie 30 artykułów na dobę, a teraz w ciągu miesiąca jest to chyba koło 50. W naukach ścisłych to się nazywa koincydencja (ponieważ w czasie wrzesień grudzień nie botowaliśmy artykułów).
odnośnie dehumanizacji wikipedii przez boty nikt nie bierze pod uwagę, że operator bota też jest człowiekiem, siedzi i opracowuje dane ( zwykle
pracuje
nad tym więcej niż jedna osoba). Ja sam nad zamianami flag (które można
uznać
chyba za sukces) spędziłem tydzień prawie bez przerwy.
Zmiany artykułów przez boty, które da się zrobić automatycznie to oczywiście jak najbardziej sensowny i użyteczny sposób ich wykorzystania. Nie ma to jednak nic wspólnego z automatycznym tworzeniem stubów, ich list i disambigów do tych stubów.
Nie szukajmy sobie problemów na siłę :)
Jest na to proste lekarstwo. Wyłączyć jak najszybciej tworzenie kolejnych stubów przez boty.
Wyłączyć jak wyłączyć, może po prostu trzeba zmienić podejście - np. gdy zaczniemy generować artykuły o asteroidach (nie 120k jak mówiłem na IRCu, tylko nazwane asteroidy), to będą to kompletne artykuły.
Pozdrawiam AJF/WarX