Det som ble diskutert. I det store og hele er det nokså likt det som allerede er kjent. Er alle enige før det går som en orientering på e-postlista? Det ligger også noe på Tinget, men der sier jeg ikke så mye om hvem som konkret er involvert og hvordan det her skal være lønnsomt for Retriever. En må vel være nokså trangsynt om en ikke ser at de driver butikk, og til og med tjener bra på drift av avisarkiv. ;)
John
---------
Det er dialog med Retriever, et firma som driv med nettscanning og arkivtenester, om å åpne for tilgang slik at Wikipedias skribenter kan søke og lese gratis i artikkelarkivet Atekst. Det er ikke intensjoner om fri tilgang for lesere. Foreløpig er bokmål, nynorsk og samisk mest aktuelle, men det snakkes også om svensk. Dette avisarkivet er det største søkbare digitalarkivet av denne typen i Norge. De har også en betydelig aktivitet i andre nordiske land. Skal vi gå i et samarbeid så forutsetter det at løsningene blir generelle slik at andre aktører kan "hekte seg på".
WM Norge kommer til å bli samarbeidspart i det her ovenfor Retriever om vi klarer å bli enige. Marius og Pål kommer vel til å bli de sentrale fra oss i å formulere vilkårene for et samarbeid, muligens med hjelp fra WM Foundation. På den tekniske siden blir undertegnede (John) involvert.
Hos Retriever er Anders Eriksen kontakt inntil videre på det administrative, Tomas Stenborg og Carl Anton Holmboe på det tekniske.
Initielt kommer det nok ikke til å bli arbeidet med mer enn en hovedsammarbeidspart i pilotprosjektet, en del andre er spurt, men disse er avventende inntil det kommer resultater fra arbeidet med Atekst. Piloten vil bruke en metodikk for pålogging som er velkjent og fungerende, men det kan bli aktuelt å se på andre metoder. OpenID er nevnt tidligere, men ikke av noen av aktørene i markedet.
Økonomien i det her er tenkt slik at Atekst, eller andre avisarkiver, får en trafikk som følge av at Wikipedia får fungerende referanser til aviser. Dette gjør det svært viktig for de som selger tilgang til slike avisarkiver at referansene er der og er korrekte. Det er det primære incitamentet for dem til å gi oss gratis adgang. For oss er det primære incitamentet å kvalitetssikre våre artikler ved å angi korrekte referanser som vi og våre lesere kan bruke.
La meg presisere at vi er i en _dialog_ om det her og at ikke noe er endelig. I tillegg må de enkelte prosjektene selv finne ut om de vil bli med på et slikt samarbeid.
Så til det tekniske
Vi må definere hva vi mener med en "aktiv skribent", da en slik vil få tilgang til tjenesten. Mitt forslag er at 500 bidrag eller autopatruljert på bokmålsutgaven, eventuelt writer for FlaggedRevs, og at i tillegg kan brukere som har mer enn 10 bidrag i løpet av siste døgn få tilgang. Tilgangen blir stoppa om vedkommende blir blokkert.
Det finnes noen eksisterende API'er for hvordan en bruker gis tilgang til Atekst, og ett av de består av en liten tekstfil med pålogginfo som pakkes ned med GPG (nøkkelpar med offentlig og privat nøkkel) og sendes over som en redirect på en get-request. Dette fungerer som et ihendehaverdokument som gir en tidsbegrenset tilgang til å logge seg på. Etter at brukeren er pålogget vil vedkommende bli sporet inne på Atekst via cookies. Dette er en form for pålogg og brukersporing med kjente feil og mangler, men den er tilgjengelig og er vurdert som tilstrekkelig av Retriever og deres partnere.
Den formen for tilgangskontroll brukes i dag fra skoler, høyskoler og universiteter over store deler av Norge. I utgangspunktet er det eneste vi trenger å overføre en ident «wikipedia», men da må vi gjøre all filtrering av aktuelle brukere på vår side. Trafikken kan gå kryptert eller signert avhengig av hva brukere mener er riktigst, signering har vel mest interesse om noen er så paranoide at de tror det overføres hemmelig informasjon om dem, men jeg ville vel foretrekke full kryptering.
Piloten er satt opp slik at en logger på tjenesten ved å klikke på en knapp på en spesialside. På denne siden blir det angitt hva informasjon som avgis, og muligens hva informasjon som er brukt for å sjekke om brukeren får tilgang. For tilfellet med Atekst så blir det oversendt informasjon om ip-adresse, tidspunkt og brukerid i Atekst - det vil si «wikipedia». Deretter arbeider en inne i Atekst for å finne artikler. Det vil også være mulig å lese enkeltartikler ved å følge lenker, en Digital object identifier eller lignende, som går via en spesialside og lister tilbydere av artikler utfra denne. Dette blir på samme måte som for ISBN-nummer og hvordan disse brukes på Spesial:Bokkilder, men hvor vi i noen «artikkelkilder» har gratis tilgang. I dette tilfellet vil det i tillegg til de tidligere angitte verdiene overføres en slik artikkelidentifikasjon.
Fase 1 er å kunne logge på anonymt i Atekst, og dette er forsåvidt løst. Den eneste usikkerheten er hvordan valg av testvektorer vil påvirke det totale antall leste artikler. Vi ønsker at en «Friman» som kun jobber med spesielle artikler skal få tilgang, selv om han ikke har skrevet noe vesentlig på lang tid, mens en tilfeldig passerende ikke skal kunne sette inn et mellomrom på en side og så få tilgang. Tjenesten er relativt kostbar og vi må sikre oss at bruken understøtter innholdsproduksjon og kvalitetssikring hos oss.
Fase 2 er å kunne lage «lenker» til avisarkiv, men dette er langt vanskeligere fordi det ikke finnes noen entydig måte å identifisere avisartikler. Bøker identifiseres på ISBN-nummere, og seriepublikasjoner på ISSN-nummere, men det finnes ikke noen universell identifikator for avisartikler. Historisk ble artikler identifisert i Atekst med <publikasjon><dato><løpenummer>, hvor publikasjon var en trebokstavkode og resten var tall. Nå er publikasjon gjort nummerisk og resten er et løpenummer. Som en spesiell løsning mot Atekst vil dette fungere. Min ide er å gjøre hele identifikatoren om til en DOI og la de som eier publikasjonen definere hvem de lar sette på løpenummer. Det betyr at Atekst definerer løpenummer for de kildene de har, men at det må skje noe mapping mellom de formelle produktid'ene og deres interne kildeid'er. Men altså, her er det et problem hvis vi skal lage en generell løsning - vi ønsker ikke en spesiell løsning kun for Atekst men noe alle arkiv kan bruke.
Som et alternativ kan vi lage noe som syntetiserer en lenke utfra publikasjon, dato, side og tittel, men dette blir spesifikt for det enkelte arkiv og ikke helt pålitelig. I Atekst finnes det et API som vi kan bruke. Da vil en klientapplikasjon i nettleseren detektere bruk av malen "Kilde artikkel" og lage en spørring ved behov til toolserver (tools.wikimedia.de) som så igjen lager en spørring til Atekst. Når klientapplikasjonen har en identifikator kan de vanlige mekanismene brukes. Den lange omveien er for å skjule brukerens reelle identitet, og samtidig gjøre det mulig for Retriever å forholde seg til en enkelt ip-adresse. En returnert identifikator kan brukes for oppslag i konkurrerende arkiv så lenge de støtter samme type identifikator. Noe lignende kan vi gjøre for bøker i for eksempel Bibsys om vi får lov av disse.
Det er kjent at om vi setter i drift fase 1 uten samtidig å ha på plass fase 2 så vil det oppstå en situasjon hvor det skjer en lekkasje av brukeridentifisering fra oss og til Atekst ved at brukernavn på Wikipedia kan kobles mot IP-adresse via referer og historikk for redigeringer. Det skjer imidlertid allerede med de eksisterende løsningene og er antakeligvis ingen showstopper i seg selv. Det blir imidlertid sett på løsninger for fase 2 som gir økt sikkerhet mot denne informasjonslekasjen, selv om de ikke er fullgode.
Fase 3, som er litt i det blå, og på siden av det som er det primære ovenfor Retriever, er å lage en løsning som gjør at artikler ikke forsvinner for oss når de blir arkivert. Dette er spesielt viktig for artikler på webutgavene. Målet her er å gjøre det vesentlig enklere å høste inn metadata, inklusive data som angir nødvendige identifikatorer, og forenkle prosessen med påføring av referanser. Håpet er at istedenfor en <ref> med den store stygge malen "Kilde www" så kan vi skrive {{REF:url}}, {{REF:doi}} eller {{REF:isbn} og automatisk få alle metadata om tittel og forfatter og alt annet rask. Skal vi få til dette så må flere på banen, ikke bare Retriever, selv om en demo av dette allerede funger "sådär".
I det siste er det gjemt et nokså betydelig problem, og det går på bruk av referanser til flyktige nettssider. Når vi bruker en referanse til en slik nettsside så ønsker vi å lage en arkivkopi. Dette har vi lov til for internt bruk, men vi ønsker ikke internt bruk, vi ønsker å vise hva vi brukte den til og vi ønsker å vise den til andre. Slik åpen arkivering er ikke uten videre tillatt i alle land, og i Norge er slikt et problem.
Fremdrift i det her er at fase 1 bør ha en fungerende pilot i løpet av fjerde kvartal, og fase 2 kommer deretter. Det er ingen tidsplan for fase 3. Tidsplaner i frivillige prosjekt er uansett, vel, frivillige.
John Erling Blad no:user:jeblad
Hmm... unless i missed something i can't remember the lingua franca of this mailing list to be changed recently in Norwegian :)
-- Hay / Husky
2008/9/24 John at Darkstar vacuum@jeb.no:
Det som ble diskutert. I det store og hele er det nokså likt det som allerede er kjent. Er alle enige før det går som en orientering på e-postlista? Det ligger også noe på Tinget, men der sier jeg ikke så mye om hvem som konkret er involvert og hvordan det her skal være lønnsomt for Retriever. En må vel være nokså trangsynt om en ikke ser at de driver butikk, og til og med tjener bra på drift av avisarkiv. ;)
John
Det er dialog med Retriever, et firma som driv med nettscanning og arkivtenester, om å åpne for tilgang slik at Wikipedias skribenter kan søke og lese gratis i artikkelarkivet Atekst. Det er ikke intensjoner om fri tilgang for lesere. Foreløpig er bokmål, nynorsk og samisk mest aktuelle, men det snakkes også om svensk. Dette avisarkivet er det største søkbare digitalarkivet av denne typen i Norge. De har også en betydelig aktivitet i andre nordiske land. Skal vi gå i et samarbeid så forutsetter det at løsningene blir generelle slik at andre aktører kan "hekte seg på".
WM Norge kommer til å bli samarbeidspart i det her ovenfor Retriever om vi klarer å bli enige. Marius og Pål kommer vel til å bli de sentrale fra oss i å formulere vilkårene for et samarbeid, muligens med hjelp fra WM Foundation. På den tekniske siden blir undertegnede (John) involvert.
Hos Retriever er Anders Eriksen kontakt inntil videre på det administrative, Tomas Stenborg og Carl Anton Holmboe på det tekniske.
Initielt kommer det nok ikke til å bli arbeidet med mer enn en hovedsammarbeidspart i pilotprosjektet, en del andre er spurt, men disse er avventende inntil det kommer resultater fra arbeidet med Atekst. Piloten vil bruke en metodikk for pålogging som er velkjent og fungerende, men det kan bli aktuelt å se på andre metoder. OpenID er nevnt tidligere, men ikke av noen av aktørene i markedet.
Økonomien i det her er tenkt slik at Atekst, eller andre avisarkiver, får en trafikk som følge av at Wikipedia får fungerende referanser til aviser. Dette gjør det svært viktig for de som selger tilgang til slike avisarkiver at referansene er der og er korrekte. Det er det primære incitamentet for dem til å gi oss gratis adgang. For oss er det primære incitamentet å kvalitetssikre våre artikler ved å angi korrekte referanser som vi og våre lesere kan bruke.
La meg presisere at vi er i en _dialog_ om det her og at ikke noe er endelig. I tillegg må de enkelte prosjektene selv finne ut om de vil bli med på et slikt samarbeid.
Så til det tekniske
Vi må definere hva vi mener med en "aktiv skribent", da en slik vil få tilgang til tjenesten. Mitt forslag er at 500 bidrag eller autopatruljert på bokmålsutgaven, eventuelt writer for FlaggedRevs, og at i tillegg kan brukere som har mer enn 10 bidrag i løpet av siste døgn få tilgang. Tilgangen blir stoppa om vedkommende blir blokkert.
Det finnes noen eksisterende API'er for hvordan en bruker gis tilgang til Atekst, og ett av de består av en liten tekstfil med pålogginfo som pakkes ned med GPG (nøkkelpar med offentlig og privat nøkkel) og sendes over som en redirect på en get-request. Dette fungerer som et ihendehaverdokument som gir en tidsbegrenset tilgang til å logge seg på. Etter at brukeren er pålogget vil vedkommende bli sporet inne på Atekst via cookies. Dette er en form for pålogg og brukersporing med kjente feil og mangler, men den er tilgjengelig og er vurdert som tilstrekkelig av Retriever og deres partnere.
Den formen for tilgangskontroll brukes i dag fra skoler, høyskoler og universiteter over store deler av Norge. I utgangspunktet er det eneste vi trenger å overføre en ident «wikipedia», men da må vi gjøre all filtrering av aktuelle brukere på vår side. Trafikken kan gå kryptert eller signert avhengig av hva brukere mener er riktigst, signering har vel mest interesse om noen er så paranoide at de tror det overføres hemmelig informasjon om dem, men jeg ville vel foretrekke full kryptering.
Piloten er satt opp slik at en logger på tjenesten ved å klikke på en knapp på en spesialside. På denne siden blir det angitt hva informasjon som avgis, og muligens hva informasjon som er brukt for å sjekke om brukeren får tilgang. For tilfellet med Atekst så blir det oversendt informasjon om ip-adresse, tidspunkt og brukerid i Atekst - det vil si «wikipedia». Deretter arbeider en inne i Atekst for å finne artikler. Det vil også være mulig å lese enkeltartikler ved å følge lenker, en Digital object identifier eller lignende, som går via en spesialside og lister tilbydere av artikler utfra denne. Dette blir på samme måte som for ISBN-nummer og hvordan disse brukes på Spesial:Bokkilder, men hvor vi i noen «artikkelkilder» har gratis tilgang. I dette tilfellet vil det i tillegg til de tidligere angitte verdiene overføres en slik artikkelidentifikasjon.
Fase 1 er å kunne logge på anonymt i Atekst, og dette er forsåvidt løst. Den eneste usikkerheten er hvordan valg av testvektorer vil påvirke det totale antall leste artikler. Vi ønsker at en «Friman» som kun jobber med spesielle artikler skal få tilgang, selv om han ikke har skrevet noe vesentlig på lang tid, mens en tilfeldig passerende ikke skal kunne sette inn et mellomrom på en side og så få tilgang. Tjenesten er relativt kostbar og vi må sikre oss at bruken understøtter innholdsproduksjon og kvalitetssikring hos oss.
Fase 2 er å kunne lage «lenker» til avisarkiv, men dette er langt vanskeligere fordi det ikke finnes noen entydig måte å identifisere avisartikler. Bøker identifiseres på ISBN-nummere, og seriepublikasjoner på ISSN-nummere, men det finnes ikke noen universell identifikator for avisartikler. Historisk ble artikler identifisert i Atekst med <publikasjon><dato><løpenummer>, hvor publikasjon var en trebokstavkode og resten var tall. Nå er publikasjon gjort nummerisk og resten er et løpenummer. Som en spesiell løsning mot Atekst vil dette fungere. Min ide er å gjøre hele identifikatoren om til en DOI og la de som eier publikasjonen definere hvem de lar sette på løpenummer. Det betyr at Atekst definerer løpenummer for de kildene de har, men at det må skje noe mapping mellom de formelle produktid'ene og deres interne kildeid'er. Men altså, her er det et problem hvis vi skal lage en generell løsning - vi ønsker ikke en spesiell løsning kun for Atekst men noe alle arkiv kan bruke.
Som et alternativ kan vi lage noe som syntetiserer en lenke utfra publikasjon, dato, side og tittel, men dette blir spesifikt for det enkelte arkiv og ikke helt pålitelig. I Atekst finnes det et API som vi kan bruke. Da vil en klientapplikasjon i nettleseren detektere bruk av malen "Kilde artikkel" og lage en spørring ved behov til toolserver (tools.wikimedia.de) som så igjen lager en spørring til Atekst. Når klientapplikasjonen har en identifikator kan de vanlige mekanismene brukes. Den lange omveien er for å skjule brukerens reelle identitet, og samtidig gjøre det mulig for Retriever å forholde seg til en enkelt ip-adresse. En returnert identifikator kan brukes for oppslag i konkurrerende arkiv så lenge de støtter samme type identifikator. Noe lignende kan vi gjøre for bøker i for eksempel Bibsys om vi får lov av disse.
Det er kjent at om vi setter i drift fase 1 uten samtidig å ha på plass fase 2 så vil det oppstå en situasjon hvor det skjer en lekkasje av brukeridentifisering fra oss og til Atekst ved at brukernavn på Wikipedia kan kobles mot IP-adresse via referer og historikk for redigeringer. Det skjer imidlertid allerede med de eksisterende løsningene og er antakeligvis ingen showstopper i seg selv. Det blir imidlertid sett på løsninger for fase 2 som gir økt sikkerhet mot denne informasjonslekasjen, selv om de ikke er fullgode.
Fase 3, som er litt i det blå, og på siden av det som er det primære ovenfor Retriever, er å lage en løsning som gjør at artikler ikke forsvinner for oss når de blir arkivert. Dette er spesielt viktig for artikler på webutgavene. Målet her er å gjøre det vesentlig enklere å høste inn metadata, inklusive data som angir nødvendige identifikatorer, og forenkle prosessen med påføring av referanser. Håpet er at istedenfor en <ref> med den store stygge malen "Kilde www" så kan vi skrive {{REF:url}}, {{REF:doi}} eller {{REF:isbn} og automatisk få alle metadata om tittel og forfatter og alt annet rask. Skal vi få til dette så må flere på banen, ikke bare Retriever, selv om en demo av dette allerede funger "sådär".
I det siste er det gjemt et nokså betydelig problem, og det går på bruk av referanser til flyktige nettssider. Når vi bruker en referanse til en slik nettsside så ønsker vi å lage en arkivkopi. Dette har vi lov til for internt bruk, men vi ønsker ikke internt bruk, vi ønsker å vise hva vi brukte den til og vi ønsker å vise den til andre. Slik åpen arkivering er ikke uten videre tillatt i alle land, og i Norge er slikt et problem.
Fremdrift i det her er at fase 1 bør ha en fungerende pilot i løpet av fjerde kvartal, og fase 2 kommer deretter. Det er ingen tidsplan for fase 3. Tidsplaner i frivillige prosjekt er uansett, vel, frivillige.
John Erling Blad no:user:jeblad
foundation-l mailing list foundation-l@lists.wikimedia.org Unsubscribe: https://lists.wikimedia.org/mailman/listinfo/foundation-l
2008/9/24 Husky huskyr@gmail.com:
Hmm... unless i missed something i can't remember the lingua franca of this mailing list to be changed recently in Norwegian :)
This is an international list, so you can post in any language you like.
English is likely to be commonly understood by the most readers of the list, however, so a translation or at least short note of explanation is likely to be useful.
- d.
wikimedia-l@lists.wikimedia.org