[Foundation-l] Dialog med Retriever om tilgang til Atekst

Wed Sep 24 07:54:10 UTC 2008

Det som ble diskutert. I det store og hele er det nokså likt det som
allerede er kjent. Er alle enige før det går som en orientering på
e-postlista? Det ligger også noe på Tinget, men der sier jeg ikke så mye
om hvem som konkret er involvert og hvordan det her skal være lønnsomt
for Retriever. En må vel være nokså trangsynt om en ikke ser at de
driver butikk, og til og med tjener bra på drift av avisarkiv. ;)

John

---------

Det er dialog med Retriever, et firma som driv med nettscanning og
arkivtenester, om å åpne for tilgang slik at Wikipedias skribenter kan
søke og lese gratis i artikkelarkivet Atekst. Det er ikke intensjoner om
fri tilgang for lesere. Foreløpig er bokmål, nynorsk og samisk mest
aktuelle, men det snakkes også om svensk. Dette avisarkivet er det
største søkbare digitalarkivet av denne typen i Norge. De har også en
betydelig aktivitet i andre nordiske land. Skal vi gå i et samarbeid så
forutsetter det at løsningene blir generelle slik at andre aktører kan
"hekte seg på".

WM Norge kommer til å bli samarbeidspart i det her ovenfor Retriever om
vi klarer å bli enige. Marius og Pål kommer vel til å bli de sentrale
fra oss i å formulere vilkårene for et samarbeid, muligens med hjelp fra
WM Foundation. På den tekniske siden blir undertegnede (John) involvert.

Hos Retriever er Anders Eriksen kontakt inntil videre på det
administrative, Tomas Stenborg og Carl Anton Holmboe på det tekniske.

Initielt kommer det nok ikke til å bli arbeidet med mer enn en
hovedsammarbeidspart i pilotprosjektet, en del andre er spurt, men disse
er avventende inntil det kommer resultater fra arbeidet med Atekst.
Piloten vil bruke en metodikk for pålogging som er velkjent og
fungerende, men det kan bli aktuelt å se på andre metoder. OpenID er
nevnt tidligere, men ikke av noen av aktørene i markedet.

Økonomien i det her er tenkt slik at Atekst, eller andre avisarkiver,
får en trafikk som følge av at Wikipedia får fungerende referanser til
aviser. Dette gjør det svært viktig for de som selger tilgang til slike
avisarkiver at referansene er der og er korrekte. Det er det primære
incitamentet for dem til å gi oss gratis adgang. For oss er det primære
incitamentet å kvalitetssikre våre artikler ved å angi korrekte
referanser som vi og våre lesere kan bruke.

La meg presisere at vi er i en _dialog_ om det her og at ikke noe er
endelig. I tillegg må de enkelte prosjektene selv finne ut om de vil bli
med på et slikt samarbeid.

Så til det tekniske

Vi må definere hva vi mener med en "aktiv skribent", da en slik vil få
tilgang til tjenesten. Mitt forslag er at 500 bidrag eller
autopatruljert på bokmålsutgaven, eventuelt writer for FlaggedRevs, og
at i tillegg kan brukere som har mer enn 10 bidrag i løpet av siste døgn
få tilgang. Tilgangen blir stoppa om vedkommende blir blokkert.

Det finnes noen eksisterende API'er for hvordan en bruker gis tilgang
til Atekst, og ett av de består av en liten tekstfil med pålogginfo som
pakkes ned med GPG (nøkkelpar med offentlig og privat nøkkel) og sendes
over som en redirect på en get-request. Dette fungerer som et
ihendehaverdokument som gir en tidsbegrenset tilgang til å logge seg på.
Etter at brukeren er pålogget vil vedkommende bli sporet inne på Atekst
via cookies. Dette er en form for pålogg og brukersporing med kjente
feil og mangler, men den er tilgjengelig og er vurdert som tilstrekkelig
av Retriever og deres partnere.

Den formen for tilgangskontroll brukes i dag fra skoler, høyskoler og
universiteter over store deler av Norge. I utgangspunktet er det eneste
vi trenger å overføre en ident «wikipedia», men da må vi gjøre all
filtrering av aktuelle brukere på vår side. Trafikken kan gå kryptert
eller signert avhengig av hva brukere mener er riktigst, signering har
vel mest interesse om noen er så paranoide at de tror det overføres
hemmelig informasjon om dem, men jeg ville vel foretrekke full kryptering.

Piloten er satt opp slik at en logger på tjenesten ved å klikke på en
knapp på en spesialside. På denne siden blir det angitt hva informasjon
som avgis, og muligens hva informasjon som er brukt for å sjekke om
brukeren får tilgang. For tilfellet med Atekst så blir det oversendt
informasjon om ip-adresse, tidspunkt og brukerid i Atekst - det vil si
«wikipedia». Deretter arbeider en inne i Atekst for å finne artikler.
Det vil også være mulig å lese enkeltartikler ved å følge lenker, en
Digital object identifier eller lignende, som går via en spesialside og
lister tilbydere av artikler utfra denne. Dette blir på samme måte som
for ISBN-nummer og hvordan disse brukes på Spesial:Bokkilder, men hvor
vi i noen «artikkelkilder» har gratis tilgang. I dette tilfellet vil det
i tillegg til de tidligere angitte verdiene overføres en slik
artikkelidentifikasjon.

Fase 1 er å kunne logge på anonymt i Atekst, og dette er forsåvidt løst.
Den eneste usikkerheten er hvordan valg av testvektorer vil påvirke det
totale antall leste artikler. Vi ønsker at en «Friman» som kun jobber
med spesielle artikler skal få tilgang, selv om han ikke har skrevet noe
vesentlig på lang tid, mens en tilfeldig passerende ikke skal kunne
sette inn et mellomrom på en side og så få tilgang. Tjenesten er
relativt kostbar og vi må sikre oss at bruken understøtter
innholdsproduksjon og kvalitetssikring hos oss.

Fase 2 er å kunne lage «lenker» til avisarkiv, men dette er langt
vanskeligere fordi det ikke finnes noen entydig måte å identifisere
avisartikler. Bøker identifiseres på ISBN-nummere, og seriepublikasjoner
på ISSN-nummere, men det finnes ikke noen universell identifikator for
avisartikler. Historisk ble artikler identifisert i Atekst med
<publikasjon><dato><løpenummer>, hvor publikasjon var en trebokstavkode
og resten var tall. Nå er publikasjon gjort nummerisk og resten er et
løpenummer. Som en spesiell løsning mot Atekst vil dette fungere. Min
ide er å gjøre hele identifikatoren om til en DOI og la de som eier
publikasjonen definere hvem de lar sette på løpenummer. Det betyr at
Atekst definerer løpenummer for de kildene de har, men at det må skje
noe mapping mellom de formelle produktid'ene og deres interne
kildeid'er. Men altså, her er det et problem hvis vi skal lage en
generell løsning - vi ønsker ikke en spesiell løsning kun for Atekst men
noe alle arkiv kan bruke.

Som et alternativ kan vi lage noe som syntetiserer en lenke utfra
publikasjon, dato, side og tittel, men dette blir spesifikt for det
enkelte arkiv og ikke helt pålitelig. I Atekst finnes det et API som vi
kan bruke. Da vil en klientapplikasjon i nettleseren detektere bruk av
malen "Kilde artikkel" og lage en spørring ved behov til toolserver
(tools.wikimedia.de) som så igjen lager en spørring til Atekst. Når
klientapplikasjonen har en identifikator kan de vanlige mekanismene
brukes. Den lange omveien er for å skjule brukerens reelle identitet, og
samtidig gjøre det mulig for Retriever å forholde seg til en enkelt
ip-adresse. En returnert identifikator kan brukes for oppslag i
konkurrerende arkiv så lenge de støtter samme type identifikator. Noe
lignende kan vi gjøre for bøker i for eksempel Bibsys om vi får lov av
disse.

Det er kjent at om vi setter i drift fase 1 uten samtidig å ha på plass
fase 2 så vil det oppstå en situasjon hvor det skjer en lekkasje av
brukeridentifisering fra oss og til Atekst ved at brukernavn på
Wikipedia kan kobles mot IP-adresse via referer og historikk for
redigeringer. Det skjer imidlertid allerede med de eksisterende
løsningene og er antakeligvis ingen showstopper i seg selv. Det blir
imidlertid sett på løsninger for fase 2 som gir økt sikkerhet mot denne
informasjonslekasjen, selv om de ikke er fullgode.

Fase 3, som er litt i det blå, og på siden av det som er det primære
ovenfor Retriever, er å lage en løsning som gjør at artikler ikke
forsvinner for oss når de blir arkivert. Dette er spesielt viktig for
artikler på webutgavene. Målet her er å gjøre det vesentlig enklere å
høste inn metadata, inklusive data som angir nødvendige identifikatorer,
og forenkle prosessen med påføring av referanser. Håpet er at istedenfor
en <ref> med den store stygge malen "Kilde www" så kan vi skrive
{{REF:url}}, {{REF:doi}} eller {{REF:isbn} og automatisk få alle
metadata om tittel og forfatter og alt annet rask. Skal vi få til dette
så må flere på banen, ikke bare Retriever, selv om en demo av dette
allerede funger "sådär".

I det siste er det gjemt et nokså betydelig problem, og det går på bruk
av referanser til flyktige nettssider. Når vi bruker en referanse til en
slik nettsside så ønsker vi å lage en arkivkopi. Dette har vi lov til
for internt bruk, men vi ønsker ikke internt bruk, vi ønsker å vise hva
vi brukte den til og vi ønsker å vise den til andre. Slik åpen
arkivering er ikke uten videre tillatt i alle land, og i Norge er slikt
et problem.

Fremdrift i det her er at fase 1 bør ha en fungerende pilot i løpet av
fjerde kvartal, og fase 2 kommer deretter. Det er ingen tidsplan for
fase 3. Tidsplaner i frivillige prosjekt er uansett, vel, frivillige.

John Erling Blad
no:user:jeblad