[WikiFR-l] [Wikimediafr-l] Re : Wikisource : la question piège ?

Yann Forget yann at forget-me.net
Mer 28 Mar 15:01:09 UTC 2007


Bonjour,

Sébastien Thébault wrote:
> Je ne rêve pas : c'est de l'indicatif et pas du conditionnel qui est utilisé

Exactement. Comme la BNF ne précisait si une correction était faite ou
pas, on avait fait une évaluation à partir du budget :

"un budget de 3,6 M € est nécessaire pour passer à l'OCR les textes déjà
numérisés, j'en conclu qu'ils ne feront pas beaucoup de relecture...
car 3,6 M € = 1200 hommes/mois maximum (salaire annuel brut de 36.000
€), soit pour 70.000 oeuvres numérisées : 58 oeuvres / homme / mois"

c'est-à-dire qu'en moyenne une personne numérise environ deux livres par
jour. Il faudrait *au moins* 10 fois plus de temps pour faire les
corrections.

http://fr.wikisource.org/wiki/Wikisource:Scriptorium/archives_4#Bibliothèque_Numérique_Francophone
http://www.bnf.fr/pages/dernmin/pdf/bnue.pdf

> Le 28 mars 07 à 16:28, Pierre Beaudouin a écrit :
> 
>> donc WS utilise comme input les textes numérisés par Gallica et
>> apporte sa valeur ajoutée : la correction après OCR et la
>> transformation en mode texte des fichiers images, qui peut être
>> réalisée grâce à l'important travaille des bénévoles.

Pas seulement, on utilise aussi des textes numérisés par des
participants ou d'autres groupes (comme ebooksgratuits.com, les
Classiques des sciences sociales, etc.), sinon c'est bien ça.

Cordialement,

Yann

>> Le 28/03/07, *Yann Forget* <yann at forget-me.net
>> <mailto:yann at forget-me.net>> a écrit :
>>
>>     Sébastien Thébault wrote:
>>     >> Mais la différence principale est que les textes de Wikisource
>>     sont
>>     >> vérifiés et corrigés (en tous cas, c'est l'objectif), et la
>>     qualité de
>>     >> la publication est notée (sources, conformité à l'original,
>>     >> typographie,
>>     >> etc.). La qualité des textes de Gutenberg est très aléatoire (une
>>     >> bonne
>>     >> partie des textes en français n'ont pas d'accents, ne respectent
>>     >> pas la
>>     >> typographie, etc.). Seule une petite partie de Gallica est
>>     >> disponible en
>>     >> mode texte, et il n'y a pas de correction après OCR.
>>     >>
>>     >> Cordialement,
>>     >>
>>     >> Yann
>>     >
>>     > À noter qu'Europeana propose/proposera la version texte (mais il
>>     y a
>>     > encore du déchet à l'OCR)
>>
>>     Europeana ne fera pas de corrections après l'OCR (il faudrait un
>>     budget
>>     10 fois plus important).
>>
>>     Yann



Plus d'informations sur la liste de diffusion WikiFR-l