donc WS utilise comme input les textes numérisés par Gallica et apporte
sa valeur ajoutée : la correction après OCR et la transformation en
mode texte des fichiers images, qui peut être réalisée grâce à
l'important travaille des bénévoles.
Sébastien Thébault wrote:
>> Mais la différence principale est que les textes de Wikisource sont
>> vérifiés et corrigés (en tous cas, c'est l'objectif), et la qualité de
>> la publication est notée (sources, conformité à l'original,
>> typographie,
>> etc.). La qualité des textes de Gutenberg est très aléatoire (une
>> bonne
>> partie des textes en français n'ont pas d'accents, ne respectent
>> pas la
>> typographie, etc.). Seule une petite partie de Gallica est
>> disponible en
>> mode texte, et il n'y a pas de correction après OCR.
>>
>> Cordialement,
>>
>> Yann
>
> À noter qu'Europeana propose/proposera la version texte (mais il y a
> encore du déchet à l'OCR)
Europeana ne fera pas de corrections après l'OCR (il faudrait un budget
10 fois plus important).
Yann