[Foundation-l] Dialog med Retriever om tilgang til Atekst

Husky huskyr at gmail.com
Wed Sep 24 08:18:59 UTC 2008


Hmm... unless i missed something i can't remember the lingua franca of
this mailing list to be changed recently in Norwegian :)

-- Hay / Husky

2008/9/24 John at Darkstar <vacuum at jeb.no>:
> Det som ble diskutert. I det store og hele er det nokså likt det som
> allerede er kjent. Er alle enige før det går som en orientering på
> e-postlista? Det ligger også noe på Tinget, men der sier jeg ikke så mye
> om hvem som konkret er involvert og hvordan det her skal være lønnsomt
> for Retriever. En må vel være nokså trangsynt om en ikke ser at de
> driver butikk, og til og med tjener bra på drift av avisarkiv. ;)
>
> John
>
> ---------
>
> Det er dialog med Retriever, et firma som driv med nettscanning og
> arkivtenester, om å åpne for tilgang slik at Wikipedias skribenter kan
> søke og lese gratis i artikkelarkivet Atekst. Det er ikke intensjoner om
> fri tilgang for lesere. Foreløpig er bokmål, nynorsk og samisk mest
> aktuelle, men det snakkes også om svensk. Dette avisarkivet er det
> største søkbare digitalarkivet av denne typen i Norge. De har også en
> betydelig aktivitet i andre nordiske land. Skal vi gå i et samarbeid så
> forutsetter det at løsningene blir generelle slik at andre aktører kan
> "hekte seg på".
>
> WM Norge kommer til å bli samarbeidspart i det her ovenfor Retriever om
> vi klarer å bli enige. Marius og Pål kommer vel til å bli de sentrale
> fra oss i å formulere vilkårene for et samarbeid, muligens med hjelp fra
> WM Foundation. På den tekniske siden blir undertegnede (John) involvert.
>
> Hos Retriever er Anders Eriksen kontakt inntil videre på det
> administrative, Tomas Stenborg og Carl Anton Holmboe på det tekniske.
>
> Initielt kommer det nok ikke til å bli arbeidet med mer enn en
> hovedsammarbeidspart i pilotprosjektet, en del andre er spurt, men disse
> er avventende inntil det kommer resultater fra arbeidet med Atekst.
> Piloten vil bruke en metodikk for pålogging som er velkjent og
> fungerende, men det kan bli aktuelt å se på andre metoder. OpenID er
> nevnt tidligere, men ikke av noen av aktørene i markedet.
>
> Økonomien i det her er tenkt slik at Atekst, eller andre avisarkiver,
> får en trafikk som følge av at Wikipedia får fungerende referanser til
> aviser. Dette gjør det svært viktig for de som selger tilgang til slike
> avisarkiver at referansene er der og er korrekte. Det er det primære
> incitamentet for dem til å gi oss gratis adgang. For oss er det primære
> incitamentet å kvalitetssikre våre artikler ved å angi korrekte
> referanser som vi og våre lesere kan bruke.
>
> La meg presisere at vi er i en _dialog_ om det her og at ikke noe er
> endelig. I tillegg må de enkelte prosjektene selv finne ut om de vil bli
> med på et slikt samarbeid.
>
> Så til det tekniske
>
> Vi må definere hva vi mener med en "aktiv skribent", da en slik vil få
> tilgang til tjenesten. Mitt forslag er at 500 bidrag eller
> autopatruljert på bokmålsutgaven, eventuelt writer for FlaggedRevs, og
> at i tillegg kan brukere som har mer enn 10 bidrag i løpet av siste døgn
> få tilgang. Tilgangen blir stoppa om vedkommende blir blokkert.
>
> Det finnes noen eksisterende API'er for hvordan en bruker gis tilgang
> til Atekst, og ett av de består av en liten tekstfil med pålogginfo som
> pakkes ned med GPG (nøkkelpar med offentlig og privat nøkkel) og sendes
> over som en redirect på en get-request. Dette fungerer som et
> ihendehaverdokument som gir en tidsbegrenset tilgang til å logge seg på.
> Etter at brukeren er pålogget vil vedkommende bli sporet inne på Atekst
> via cookies. Dette er en form for pålogg og brukersporing med kjente
> feil og mangler, men den er tilgjengelig og er vurdert som tilstrekkelig
> av Retriever og deres partnere.
>
> Den formen for tilgangskontroll brukes i dag fra skoler, høyskoler og
> universiteter over store deler av Norge. I utgangspunktet er det eneste
> vi trenger å overføre en ident «wikipedia», men da må vi gjøre all
> filtrering av aktuelle brukere på vår side. Trafikken kan gå kryptert
> eller signert avhengig av hva brukere mener er riktigst, signering har
> vel mest interesse om noen er så paranoide at de tror det overføres
> hemmelig informasjon om dem, men jeg ville vel foretrekke full kryptering.
>
> Piloten er satt opp slik at en logger på tjenesten ved å klikke på en
> knapp på en spesialside. På denne siden blir det angitt hva informasjon
> som avgis, og muligens hva informasjon som er brukt for å sjekke om
> brukeren får tilgang. For tilfellet med Atekst så blir det oversendt
> informasjon om ip-adresse, tidspunkt og brukerid i Atekst - det vil si
> «wikipedia». Deretter arbeider en inne i Atekst for å finne artikler.
> Det vil også være mulig å lese enkeltartikler ved å følge lenker, en
> Digital object identifier eller lignende, som går via en spesialside og
> lister tilbydere av artikler utfra denne. Dette blir på samme måte som
> for ISBN-nummer og hvordan disse brukes på Spesial:Bokkilder, men hvor
> vi i noen «artikkelkilder» har gratis tilgang. I dette tilfellet vil det
> i tillegg til de tidligere angitte verdiene overføres en slik
> artikkelidentifikasjon.
>
> Fase 1 er å kunne logge på anonymt i Atekst, og dette er forsåvidt løst.
> Den eneste usikkerheten er hvordan valg av testvektorer vil påvirke det
> totale antall leste artikler. Vi ønsker at en «Friman» som kun jobber
> med spesielle artikler skal få tilgang, selv om han ikke har skrevet noe
> vesentlig på lang tid, mens en tilfeldig passerende ikke skal kunne
> sette inn et mellomrom på en side og så få tilgang. Tjenesten er
> relativt kostbar og vi må sikre oss at bruken understøtter
> innholdsproduksjon og kvalitetssikring hos oss.
>
> Fase 2 er å kunne lage «lenker» til avisarkiv, men dette er langt
> vanskeligere fordi det ikke finnes noen entydig måte å identifisere
> avisartikler. Bøker identifiseres på ISBN-nummere, og seriepublikasjoner
> på ISSN-nummere, men det finnes ikke noen universell identifikator for
> avisartikler. Historisk ble artikler identifisert i Atekst med
> <publikasjon><dato><løpenummer>, hvor publikasjon var en trebokstavkode
> og resten var tall. Nå er publikasjon gjort nummerisk og resten er et
> løpenummer. Som en spesiell løsning mot Atekst vil dette fungere. Min
> ide er å gjøre hele identifikatoren om til en DOI og la de som eier
> publikasjonen definere hvem de lar sette på løpenummer. Det betyr at
> Atekst definerer løpenummer for de kildene de har, men at det må skje
> noe mapping mellom de formelle produktid'ene og deres interne
> kildeid'er. Men altså, her er det et problem hvis vi skal lage en
> generell løsning - vi ønsker ikke en spesiell løsning kun for Atekst men
> noe alle arkiv kan bruke.
>
> Som et alternativ kan vi lage noe som syntetiserer en lenke utfra
> publikasjon, dato, side og tittel, men dette blir spesifikt for det
> enkelte arkiv og ikke helt pålitelig. I Atekst finnes det et API som vi
> kan bruke. Da vil en klientapplikasjon i nettleseren detektere bruk av
> malen "Kilde artikkel" og lage en spørring ved behov til toolserver
> (tools.wikimedia.de) som så igjen lager en spørring til Atekst. Når
> klientapplikasjonen har en identifikator kan de vanlige mekanismene
> brukes. Den lange omveien er for å skjule brukerens reelle identitet, og
> samtidig gjøre det mulig for Retriever å forholde seg til en enkelt
> ip-adresse. En returnert identifikator kan brukes for oppslag i
> konkurrerende arkiv så lenge de støtter samme type identifikator. Noe
> lignende kan vi gjøre for bøker i for eksempel Bibsys om vi får lov av
> disse.
>
> Det er kjent at om vi setter i drift fase 1 uten samtidig å ha på plass
> fase 2 så vil det oppstå en situasjon hvor det skjer en lekkasje av
> brukeridentifisering fra oss og til Atekst ved at brukernavn på
> Wikipedia kan kobles mot IP-adresse via referer og historikk for
> redigeringer. Det skjer imidlertid allerede med de eksisterende
> løsningene og er antakeligvis ingen showstopper i seg selv. Det blir
> imidlertid sett på løsninger for fase 2 som gir økt sikkerhet mot denne
> informasjonslekasjen, selv om de ikke er fullgode.
>
> Fase 3, som er litt i det blå, og på siden av det som er det primære
> ovenfor Retriever, er å lage en løsning som gjør at artikler ikke
> forsvinner for oss når de blir arkivert. Dette er spesielt viktig for
> artikler på webutgavene. Målet her er å gjøre det vesentlig enklere å
> høste inn metadata, inklusive data som angir nødvendige identifikatorer,
> og forenkle prosessen med påføring av referanser. Håpet er at istedenfor
> en <ref> med den store stygge malen "Kilde www" så kan vi skrive
> {{REF:url}}, {{REF:doi}} eller {{REF:isbn} og automatisk få alle
> metadata om tittel og forfatter og alt annet rask. Skal vi få til dette
> så må flere på banen, ikke bare Retriever, selv om en demo av dette
> allerede funger "sådär".
>
> I det siste er det gjemt et nokså betydelig problem, og det går på bruk
> av referanser til flyktige nettssider. Når vi bruker en referanse til en
> slik nettsside så ønsker vi å lage en arkivkopi. Dette har vi lov til
> for internt bruk, men vi ønsker ikke internt bruk, vi ønsker å vise hva
> vi brukte den til og vi ønsker å vise den til andre. Slik åpen
> arkivering er ikke uten videre tillatt i alle land, og i Norge er slikt
> et problem.
>
> Fremdrift i det her er at fase 1 bør ha en fungerende pilot i løpet av
> fjerde kvartal, og fase 2 kommer deretter. Det er ingen tidsplan for
> fase 3. Tidsplaner i frivillige prosjekt er uansett, vel, frivillige.
>
> John Erling Blad
> no:user:jeblad
>
> _______________________________________________
> foundation-l mailing list
> foundation-l at lists.wikimedia.org
> Unsubscribe: https://lists.wikimedia.org/mailman/listinfo/foundation-l
>


More information about the foundation-l mailing list