Dnia 02-07-2010 o 23:56:24 picus-viridis napisał:
Poza tym wywiadowana bibliotekarka mówiąc "kanon literatury w wielu placówkach się dubluje" lekko mija się z rzeczywistością, bo w PBI mamy niezczytane OCR-y. a w "Polonie" skany pojedynczych stron. Ba przykład "Cyrano de Bergerac" - zob. http://www.pbi.edu.pl/book_reader.php?p=54766&s=1 - zeskanowali i zOCRowali identyfikatory arkuszy drukarskich (czy jak to się nazywa, ta metka na początku zszywki).
Picus viridis
Tu [ http://fbc.pionier.net.pl/owoc/duplicates-matrix-report ] jest garść statystyk na ten temat. Osobiście nie mam nic przeciwko duplikatom, gdyż w książkach w poszczególnych bibliotekach cyfrowych często brakuje po kilka stron, a niezależnie skanowana publikacja daje szansę na złożenie danej książki w całość.
O jakości OCR-ów w PBI lepiej się nie wypowiadać… Niestety, wyraźnie widać brak ręcznej weryfikacji albo – w najlepszym wypadku – bardzo pobieżne przeglądnięcie otrzymanego poprzez OCR tekstu.
PS Jakiś kącik biblioteczny nam się zrobił :)