Co kilka minut dostaje paczki z dyskusja o kategoriach, ale dopiero teraz mam chwile czasu, aby wyrazic swoja opinie, ktora juz zreszta "zamarkowalem" na stronie dyskusyjnej ktoregos z Wikipedystow.
Dyskusja swiadczy o kryzysie w poslugiwaniu sie kategoriami, co mozna bylo przewiedziec - w prawie kazdym projekcie nastepuje taki moment, ze kategorie sa tak liczne, iz zwolna zaczynaja zastepowac hasla. Tym bardziej sprawa staje sie dokuczliwa, im gorszy mechanizm wyszukiwania pelnotekstowego, bo to sklania ludzi do mnozenia kategorii. (Wybaczcie ten z lekka mentorski ton, takie juz mam belferskie nawyki :( )
Na teraz jest kilka krokow do zrobienia: - Przestac myslec w kategoriach JEDNEGO drzewa kategorii; jeszcze nigdy w zadnym projekcie na swiecie nie udalo sie calej wiedzy zamknac w jednym drzewie; Wiki ma te zalete, ze bardzo latwo tworzy sie w niej SIEC, czyli wiele przecinajacych sie hierarchii-drzew. Dla przykladu imiona. Nie trzeba kategorii "Imiona celtyckie meskie", jesli sa kategorie "Plec (Mezczyzni, Kobiety)", "Imiona" i "Celtowie". Zamiast dodawac szczgolowa kategorie, powinno sie strone z imieniem meskim celtyckim kwalifikowac do w/w kategorii, a na stronie zbiorczej imion podac link wyszukujacy Imiona+Mezczyzni+Celtowie, badz Kategoria:Imiona+Kategoria:Mezczyzni+Kategoria:Celtowie, zaleznie od mechanizmu wyszukujacego - Przmyslec sprawe kategorii OD POCZATKU. Dlaczego? Bo "docelowy" zestaw kategorii stnowi pewien model swiata (czy tez model wszystkiego, jak niektorzy zartuja albo ontologia, jak niektorzy dywaguja). Takiego modelu nie da sie zrobic, wiec trzeba przemyslec rozsadne kompromisy. Na przyklad gdzie robic ciecie pomiedzy indeksami (skorowidzami) a kategoriami i w jaki sposob je zrealizowac. Jak gleboko powinna siegac szczegolowosc kategorii w poszczegolnych "czesciach swiata"? Na ogol w typowych klasyfikacjach przyjmuje sie pewna optymalna liczbe obiektow (tu: topikow, artykulow) przypadajacych na najbardziej szczegolowa kategorie. Bardziej szczegolowe kategorie to juz rozdzialy na stronach o danej czesci swiata... - Ale z drugiej strony nie nalezy myslec, ze kategorie to to samo co kalsyfikacja. Przyklad: miejscowosci, w tym miasta (podkategoria) - i wystraczy. - No i zgodnie z wnioskami z przemyslen probowac tworzyc kategorie na nowo, testowac i przebudowywac, az zacznie wychodzic sensowna struktura SIECI
Do tego chce dodac, ze Cunningham, wynalazca Wiki, zainspirowal sie ideami architekta Alexnadra, ktory po latach badan nad strukturami zabudowy przestrzeni stwierdzil, ze "miasto nie jest drzewem, lecz siecia".
Andrzej
to musimy ustalic zasady tworzenia kategorii: 1 metoda: robimy liczne podkategorie i kategorie np. "amerykanskie zespoly metalowe" ktore sa podkategoriami kategorii: "USA", "Zespol muzyczny", "Metal" i wtedy artykul [[Eye Hate God]] przyporzadkowany jest tylko do kategorii szczegolowej "amerykanskie zespoly metalowe" 2 metoda: robimy kategorie i niewielka ilosc podkategorii i wtedy musimy przyporzadkowac [[Eye Hate God]] do kategorii "USA", "Zespol muzyczny", "Metal" .
w kazdym wypadku wynik wyszukiwania powinien byc ten sam - wyszukiwarka po wpisaniu "zespoly metalowe" powinna podac te same wyniki - w pierwszym przypadku zsumowac dane z odpowiednich podkategorii ( "amerykanskie zespoly metalowe", "polskie...", itd.) , a w drugim z dwoch kategorii "Zespol muzyczny", "Metal" wybrac czesc wspolna.
Ktora metoda lepsza? wada 1 metody jest tworzenie wielu kategorii szczegolowych - tworca artykulu moze miec problem do ktorej kategorii zaliczyc dany artykul wada 2 metody jest to, ze trzeba kazdy artykul przyporzadkowac wielu kategoriom - wystarczy, ze zapomnimy o ktorejs, np. [[Eye Hate God]] przyporzadkujemy tylko "USA", "Metal", a zapomnimy o "Zespol muzyczny'", a juz wyszukiwarka go nie znajdzie po wpisaniu "zespoly metalowe"
ja na razie stosuje piwersza metode, gdyby sie okazalo, ze ustalamy jednak druga, zawsze mozna za pomoca bota dodac do artykulow zamiast jednej kategorii "meskie imiona celtyckie" trzy kategorie: "mezczyzna", "imiona", "celtowie" (tylko, ze musze miec pewnosc, ze wyszukiwarka wynajdzie odpowiednie artykuly po wpisaniu "celtyckie imiona meskie"!). gdarin
-----Original Message----- From: wikipl-l-bounces@Wikipedia.org [mailto:wikipl-l-bounces@Wikipedia.org]On Behalf Of Andrzejgo Sent: Saturday, July 17, 2004 12:03 AM To: wikipl-l@wikipedia.org Subject: [Wikipl-l] Jeszcze o kategoriach
Co kilka minut dostaje paczki z dyskusja o kategoriach, ale dopiero teraz mam chwile czasu, aby wyrazic swoja opinie, ktora juz zreszta "zamarkowalem" na stronie dyskusyjnej ktoregos z Wikipedystow.
Dyskusja swiadczy o kryzysie w poslugiwaniu sie kategoriami, co mozna bylo przewiedziec - w prawie kazdym projekcie nastepuje taki moment, ze kategorie sa tak liczne, iz zwolna zaczynaja zastepowac hasla. Tym bardziej sprawa staje sie dokuczliwa, im gorszy mechanizm wyszukiwania pelnotekstowego, bo to sklania ludzi do mnozenia kategorii. (Wybaczcie ten z lekka mentorski ton, takie juz mam belferskie nawyki :( )
Na teraz jest kilka krokow do zrobienia: - Przestac myslec w kategoriach JEDNEGO drzewa kategorii; jeszcze nigdy w zadnym projekcie na swiecie nie udalo sie calej wiedzy zamknac w jednym drzewie; Wiki ma te zalete, ze bardzo latwo tworzy sie w niej SIEC, czyli wiele przecinajacych sie hierarchii-drzew. Dla przykladu imiona. Nie trzeba kategorii "Imiona celtyckie meskie", jesli sa kategorie "Plec (Mezczyzni, Kobiety)", "Imiona" i "Celtowie". Zamiast dodawac szczgolowa kategorie, powinno sie strone z imieniem meskim celtyckim kwalifikowac do w/w kategorii, a na stronie zbiorczej imion podac link wyszukujacy Imiona+Mezczyzni+Celtowie, badz Kategoria:Imiona+Kategoria:Mezczyzni+Kategoria:Celtowie, zaleznie od mechanizmu wyszukujacego - Przmyslec sprawe kategorii OD POCZATKU. Dlaczego? Bo "docelowy" zestaw kategorii stnowi pewien model swiata (czy tez model wszystkiego, jak niektorzy zartuja albo ontologia, jak niektorzy dywaguja). Takiego modelu nie da sie zrobic, wiec trzeba przemyslec rozsadne kompromisy. Na przyklad gdzie robic ciecie pomiedzy indeksami (skorowidzami) a kategoriami i w jaki sposob je zrealizowac. Jak gleboko powinna siegac szczegolowosc kategorii w poszczegolnych "czesciach swiata"? Na ogol w typowych klasyfikacjach przyjmuje sie pewna optymalna liczbe obiektow (tu: topikow, artykulow) przypadajacych na najbardziej szczegolowa kategorie. Bardziej szczegolowe kategorie to juz rozdzialy na stronach o danej czesci swiata... - Ale z drugiej strony nie nalezy myslec, ze kategorie to to samo co kalsyfikacja. Przyklad: miejscowosci, w tym miasta (podkategoria) - i wystraczy. - No i zgodnie z wnioskami z przemyslen probowac tworzyc kategorie na nowo, testowac i przebudowywac, az zacznie wychodzic sensowna struktura SIECI
Do tego chce dodac, ze Cunningham, wynalazca Wiki, zainspirowal sie ideami architekta Alexnadra, ktory po latach badan nad strukturami zabudowy przestrzeni stwierdzil, ze "miasto nie jest drzewem, lecz siecia".
Andrzej
Nie o to dokladnie mi szlo, moze uda mi sie teraz sprecyzowac.
Tzn. wyszukanie celtyckich imion meskich nie powinno byc BEZPOSREDNIO zadaniem wyszukiwarki, lecz naszym, przy kategoryzacji.
1. Tworzymy - powiedzmy - kategorie podstawowe: Celtowie, Imiona, Mezczyzni, Kobiety, Historia, Miasta, Wodzowie.
2. Kategorie pochodne, np. "Historia Celtow" tworzymy jako link do wyszukania:
http://pl.wikipedia.org/wiki/Specjalna:Search?search= =%22Kategoria%3AHistoria+%22Kategoria%3ACeltowie
i umieszczamy go na stronie pt. Historia Celtow albo/i wrecz na stronach wprowadzajacych, np. Historia oraz Celtowie, powiedzmy "patrz rowniez Historia Celtow".
(Sprawdzilem, ze takie wyszukiwanie dobrze pracuje, patrz strona Wikipedysta:Andrzejgo/brudnopis_Andrzejgo na samej gorze.)
Podobnie Wodzowie Celtow, Miasta celtyckie, Meskie imiona celtyckie itd.
W ten sposob bedziemy mieli niewielka liczbe kategorii podstawowych i pewna liczbe kategorii pochodnych, zalozonych przez nas. Uzytkownik niewprawny z pewnoscia trafi wpisujac "Meskie imiona celtyckie", a wprawny zorientuje sie w mechanizmie przecinajacych sie kategorii i bedzie sobie mogl wyszukac dowolna kombinacje kategorii, rowniez taka, ktorej nie przewidzielismy, np. "Kobiety wodzowie celtyccy".
Andrzej
tomi <gdarin@...> writes:
Andrzejgo <andrzejgo@...> writes:
No dobrze, cos takiego jest zrobione, tylko ze kategorie, ktore nazwałem pochodnymi, sa zmieszane z pierwotnymi. Stad wrażenie, ze kategorii jest bardzo duzo oraz balagan tu i owdzie, poglebiany przez istnienie podkategorii.
Dopiero teraz zorientowalem sie ze Wikipedia nie ma linkow odwrotnych, czyli de facto nie jest to Wiki. Byc moze z to powodu polskich literek (nawiasem mowiac przez kilkadziesiat lat wspaniali technologowie nie zdolali sobie z tym poradzic :( ).
Brak linkow odwrotnych rzeczywiscie powoduje koniecznosc glebokiego kategoryzowania, bo strony nie sa nawzajem dla siebie kategoriami. Chociaz nadal jest pole manewru jesli chodzi o realizacje, bo wyszukiwanie pracuje sprawnie. Testuje i glowkuje na razie...
Andrzejgo <andrzejgo@...> writes:
No nie, nie jest tak zrobione, lecz w kilku istotnych miejscach powtórzone (tzn. strony z kategoriami pochodnymi mają odwołania do właściwych kategorii podstawowych. Bez sensu, bo po co wtedy odrębna kategoria pochodna?
Generalnie zapraszam zainteresowanych do dyskusji na stronę: Wikipedysta:Andrzejgo/kategorie_Andrzejgo
Andrzejgo
On Fri, Jul 16, 2004 at 10:02:54PM +0000, Andrzejgo wrote:
Dyskusja swiadczy o kryzysie w poslugiwaniu sie kategoriami, co mozna bylo przewiedziec - w prawie kazdym projekcie nastepuje taki moment, ze kategorie sa tak liczne, iz zwolna zaczynaja zastepowac hasla. Tym bardziej sprawa staje sie dokuczliwa, im gorszy mechanizm wyszukiwania pelnotekstowego, bo to sklania ludzi do mnozenia kategorii. (Wybaczcie ten z lekka mentorski ton, takie juz mam belferskie nawyki :( )
Kategorii jest na razie za malo, nie za duzo. Spora czesc Wikipedii jest niepokategoryzowana, lub pokategoryzowana zbyt ogolnymi kategoriami.
Szacujac nastepujace wspolczynniki: Ilosc artykulow 35 tysiecy Sredni rozmiar "porzadnej" kategorii 50 (wiekszosc sensownych kategorii oscyluje wokol tej liczby) Srednia ilosc kategorii na artykul 1.2 (sporo artykulow powinno byc w wiecej niz jednej)
Otrzymujemy: Optymalna ilosc kategorii 840 (35k * 1.2 / 50)
Do tego jeszcze pewna ilosc kategorii organizacyjnych, ktore nie zawieraja artykulow a jedynie podkategorie, i kategorii robionych "na wyrost", zawierajacych na razie ilosc artykulow w okolicach 10, ale ktorych nie wypada usunac bo maja dobre prognozy rozwoju, i otrzymamy liczbe rzedu 1000-1200.