Numéerisation de masse et traitement des grands corpus de textes utilisant des méthodes des humanitées numéeriques / Massendigitalisierung und die Bearbeitung großer Textkorpora mit Methoden der 'Digital Humanities', 12-13 March 2015, Stuttgart, Germany
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
1. OCR – Herausforderungen und
Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker
2. OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien
in elektronischen Text
durchsuchbar & editierbar
• ≠ Handschriftenerkennung (HTR),
Spracherkennung (ASR)
3. Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das
Optophone zur Umwandlung von Text in Tonsignale
• 1974: Ray Kurzweil produziert die Kurzweil Reading
Machine mit dem Ziel Blinden das Lesen zu
ermöglichen
• 1980er: Erste kommerzielle OCR Anwendungen
entstehen, darunter OmniPage, Abbyy und
Tesseract (HP)
4. Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von
Graustufen/Farbbildern in
Schwarz-Weiß
• Segmentierung = Aufteilung der Seite
in Grafikelemente, Text, Spalten etc.
• Texterkennung = Erkennung von Zeichen
und Wörtern
• Enkodierung = Formatierung des Text
(sowie Layoutinformationen) für die
Ausgabe
11. Segementierung von Zeilen
• Schwierigkeiten:
– Linien sind nicht
gerade
– Linien werden
miteinander
verbunden
– Spalten
Abbildungen: Primaresearch, University of Salford / NCSR Demokritos
17. Ein paar gängige OCR Formate
• ALTO
• FineReader XML
• hOCR
• TEI
I
XML
18. ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betreut,
nun ein Standard der Library of Congress
• http://www.loc.gov/standards/alto/
• https://github.com/altoxml
19.
20. FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler nicht einfach zu
handhaben Tools zur Transformation in andere
Formate spärlich
• http://www.abbyy-
developers.eu/en:tech:features:xml
21.
22. hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRopus
• Spezifikation
• https://github.com/tmbdev/hocr-tools
23.
24. TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur
Schwierigkeit vollständige Informationen
aus der OCR in TEI zu überführen
• http://www.tei-c.org/index.xml
25.
26. Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah
.)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje
jprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljen
bifet Cbeiiupcen berbonbru befe
Abbildung: Koninklijke Bibliotheek
27. Wie geeignet ist das Original?
• Papier
• Schäden
• Schriftbild
• Layout
32. Wie gut ist der Scan?
• Auflösung
– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe
• Bildoptimierung
37. OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten:
Historisches Wörterbuch erforderlich
• „Langes s“ Problem
• Wie lassen sich historische Varianten
von OCR Fehlern unterscheiden?
(http://ocr.cis.uni-muenchen.de/)
theylteil eyeitht
,
38. OCR Projekte
• IMPACT – Improving Access to Text
http://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von Software, Datensets,
Empfehlungen
39. OCR Projekte
• Impact Center of Competence
http://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entwicklung von Standards, Services
40. OCR Projekte
• eMOP – Early Modern OCR Project
http://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source tools, EEBO & ECCO
41. Konferenzen
• ICDAR = International Conference on
Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien
• http://2015.icdar.org/
42. Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!
44. Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in
den 1980er Jahren, seit 2006 mit Funding von
Google neu aufgelegt
• Unterstützung von Fraktur!
• https://code.google.com/p/tesseract-ocr/
45. Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit
2007, seit Version 0.6 Re-design basierend
auf aktueller Forschung zu neuronalen Netzen
(„recurrent neural networks“, RNN)
• https://github.com/tmbdev/ocropy
46. Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern
Recognition“ und „Evaluation“
• Viele nützliche Tools, Referenzdatensets
• http://primaresearch.org/tools
47. Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –
umfangreichstes und komfortabelstes Tool
für die OCR Evaluation – und Open Source
• https://sites.google.com/site/textdigitisation/
• https://github.com/impactcentre/ocrevalUAtion
48. Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words
50. Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• Reading Order der Absätze
51. Ground Truth
• Ground Truth =
„…the ideal result that
the ultimate method
(the method whose
discovery will signal that
the problem is solved) is
expected to produce.“
53. Qualität der OCR
• Ein paar typische Fehler:
rn m
u n
b h
1 l
• Siehe dazu auch:
http://usesofscale.com/gritty-details/basic-ocr-
correction/