On Sat, 19 Feb 2005 20:14:56 +0100 (CET) Lars Aronsson lars@aronsson.se wrote:
David Daester schrieb:
Hergestellt heisst hier wohl vermutlich: Engescannt,
OCR, und ein
"bischen" Formatiert. Obwohl das "bischen" sehr schnell
viel wird.
Aufwand für die Digitaliserung war sicher vorhanden,
aber dürfte
man den Text daraus selber Abschreiben? (Nene, nicht
Copy+Paste)
Bei der ADB (Allgemeine Deutsche Biographie) und der BSB (Bayerische Staatsbibliothek) gab es noch kein Aufwand für OCR. Genau das ist das Problem. Ich möchte gern einen OCR-Text erzeugen, aber dann brauche ich die hoch aufgelöste Bilder die BSB eingescannt hat. An diese kann ich aber nicht zugreiffen. BSB veröffentlicht nur Bilder in niedriger Auflösung, die für OCR unbrauchbar sind. Und selbst stellt BSB kein OCR-Text dar. Nur gucken, nicht suchen!
Die Lösung ist vermutlich das ganze Werk noch einmal einzuscannen...
Sehe ich nicht so. BSB hoeflich anschreiben und um rasche Realisierung einer Suchmoeglichkeit analog ZBLG mit schmutzigem OCR bitten. Bei Ablehnung: BSB anschreiben und um ausnahmsweisen Zugriff auf die TIFFs bitten. Bei Ablehnung: die Ablehnung dem Direktor der BSB, dem Ministerium oder dem Bayerischen Landtag (Art. 17 GG) zur Ueberpruefung vorlegen. Bei Ablehnung: das VG Muenchen einschalten (kann Jahre dauern, ist aber nicht sonderlich teuer, wenn man keinen Rechtsanwalt nimmt), die Baende neu einscannen oder auf bessere OCR-Software warten, die auch mit der niedrigeren Aufloesung zurechtkommt.
Klaus Graf