Bør vel gå på denne lista og ikke på adminlista. John
John at Darkstar skrev:
Den ble litt omfattende... ;)
Etter som jeg har vært involvert i å lage slike krediteringssystemer; de eksisterende systemene som brukes er for en stor del basert på bidragstelling. Det gjør at ren stavesjekk og lignende, og ikke minst vedlikehold av iw-lenker, får en uforholdsmessig stor plass. Et fungerende system må ikke bare ta høyde for bidragstelling, antakelig er dette en faktor som er helt uvesentlig, men det må ta høyde for mengden bidratt innhold. Faktisk så bør det her beregnes utfra mengden bidratt entropi i artikkelen. Dette er et mål for hvor mye informasjon som er skrevet inn i artikkelen av den enkelte bidragsyter.
Antall bidrag er "lett" å beregne for det er en opptelling av antall revisjoner tilhørende den enkelte bidragsyter i artikkelens historikk.
Mengden innhold er ikke så enkel å beregne for da må en hente ut innholdet for alle versjonene og sammenligne dette. Det finnes to forenklinger; den ene er å beregne en absolutt digest (MD5) - dette blir gjort i trust coloring systemet som blant annet Luca de Alfaro lager og brukes der for å påvise versjoner som skal forkastes, det andre er å bruke en relativ digest (Nilsimsa) - dette tillater en direkte vekting av bidragenes størrelse på en litt grov men delvis akseptabel måte som fungerer noe bedre og er mer generell.
Hvert bidrags entropi, og hva det representerer for artikkelens totale entropi er mer korrekt, men da må en inn å utføre nokså tunge beregninger. Ved å summere differansen i entropi for alle bidrag fra en bruker vil det fremkomme et tall som sammenholdt med totalen av alle differanser er mer samsvarende med hvor mye informasjon en bruker har bidratt med til artikkelen. To brukere som begge skriver like mye tekst tilfører ikke nødvendigvis like mye informasjon, og det kan føre til at den ene blir "forfatter" mens den andre blir medforfatter.
Den første metoden er den som brukes men er lite representativ for hvem som er faktisk forfatter av en artikkel. Ved å ta ibruk en av variantene fra den andre løsningen så bedres "godheten" til systemet vesentlig. Det vil likevel dukke opp mange bidragsytere i lista som ikke er reelle forfattere, mange av de er ikke engang å regne som medforfattere. Den tredje varianten er kanskje den som er best, men den alene vil ikke klare å fjerne mye av de sporadiske bidragene. For å klare å fjerne disse må muligens bruke en løsning med Nilsimsa slik at bidrag under en skranke fjernes, eller som ved MD5 at større bidrag som fjernes utgår fra kalkuleringene.
La meg legge til at kun den første løsningen er implementert på en slik måte at den kan brukes i Wikipedia. Det kan synes som om en løsning som bruker både absolutte og relative digests kan bli effektiv nok til at den er gjennomførbar. Entropi tror jeg ar kan bli for tungt til at det er mulig å bruke det i on the fly analyser, men det er mulig å beregne tallene for så å beregne hva dette betyr for den endelige versjonen.
Etter at en har påvist hvem som er forfatteren starter det virkelig store problemet, i hvilken grad er forfatterne pålitelige i Wikipedia. Dette er omtrent den normaliserte summen av skribentenes positive bidrag på Wikipedia. For de brukerne som kan vise til sine egne credentials fra studiesteder, eller etablerte posisjoner, så er ikke dette så viktig, men for den altoverveiende andelen av anonyme skribenter så er dette viktig. Det her blir forsøkt løst av de Alfaro, men modellen de bruker er noe overforenklet (aka den normaliserte summen av skribentenes positive bidrag) mens den reelle modellen er svært infløkt og en må bruke spillteori for å beskrive alle relasjonene.
Hvis det hadde vært mulig å få noen til å hive på tilstrekkelig cash slik at dette kunne implementeres på en skikkelig måte så hadde det vært interessant. Uten støtte tror jeg det er vanskelig å få til dette for det er ikke akkurat et lite prosjekt, selv om det ser enkelt ut ved første øyekast.
Wikino-admin-l mailing list Wikino-admin-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikino-admin-l