Dnia 02-07-2010 o 23:56:24 picus-viridis napisał:
Poza tym wywiadowana bibliotekarka mówiąc "kanon
literatury w wielu
placówkach się dubluje" lekko mija się z rzeczywistością, bo w PBI mamy
niezczytane OCR-y. a w "Polonie" skany pojedynczych stron. Ba przykład
"Cyrano de Bergerac" - zob.
http://www.pbi.edu.pl/book_reader.php?p=54766&s=1 - zeskanowali i
zOCRowali identyfikatory arkuszy drukarskich (czy jak to się nazywa, ta
metka na początku zszywki).
Picus viridis
Tu [
http://fbc.pionier.net.pl/owoc/duplicates-matrix-report ] jest garść
statystyk na ten temat. Osobiście nie mam nic przeciwko duplikatom, gdyż w
książkach w poszczególnych bibliotekach cyfrowych często brakuje po kilka
stron, a niezależnie skanowana publikacja daje szansę na złożenie danej
książki w całość.
O jakości OCR-ów w PBI lepiej się nie wypowiadać… Niestety, wyraźnie widać
brak ręcznej weryfikacji albo – w najlepszym wypadku – bardzo pobieżne
przeglądnięcie otrzymanego poprzez OCR tekstu.
PS Jakiś kącik biblioteczny nam się zrobił :)
--
[[Wikipedysta:EMeczKa]]