OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

OCR – Herausforderungen und
Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker

OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien
in elektronischen Text
 durchsuchbar & editierbar
• ≠ Handschriftenerkennung (HTR),
Spracherkennung (ASR)

Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das
Optophone zur Umwandlung von Text in Tonsignale
• 1974: Ray Kurzweil produziert die Kurzweil Reading
Machine mit dem Ziel Blinden das Lesen zu
ermöglichen
• 1980er: Erste kommerzielle OCR Anwendungen
entstehen, darunter OmniPage, Abbyy und
Tesseract (HP)

Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von
Graustufen/Farbbildern in
Schwarz-Weiß
• Segmentierung = Aufteilung der Seite
in Grafikelemente, Text, Spalten etc.
• Texterkennung = Erkennung von Zeichen
und Wörtern
• Enkodierung = Formatierung des Text
(sowie Layoutinformationen) für die
Ausgabe

Binarisierung
Abbildungen: Bayerische Staatsbibliothek

Adaptive Binarisierung
• Text bleibt erhalten,
Rauschen wird entfernt
Abbildungen: ABBYY

Segmentierung
Abbildungen: Primaresearch, University of Salford

Segmentierung
• Mehrstufiges Verfahren
1) Erkennung von Layout
(Spalten, Grafiken, Tabellen etc.)
2) Erkennung von Textregionen
3) Erkennung von Zeilen
4) Erkennung von Wörtern
5) Erkennung von Glyphen
(Buchstaben, Satzzeichen etc.)

Layout Erkennung
• Schwierigkeiten:
– Überschriften und
Initialen
– Grafiken und
Illustrationen
– Tabellen
– Bilder mit komplexen
Umrissen (Polygone)
Abbildung: Primaresearch, University of Salford

Layout Erkennung
• Sonderfall Zeitungen:
– Mehrspaltig
– Artikel
– Grafiken
– Werbung
• Europeana
Newspapers
Abbildung: Staatsbibliothek zu Berlin

Segementierung von Zeilen
– Linien sind nicht
gerade
– Linien werden
miteinander
verbunden
– Spalten
Abbildungen: Primaresearch, University of Salford / NCSR Demokritos

Segmentierung von Wörtern
– Zusammengesetzte
Wörter
– Zeilenumbrüche
– „Catch words“
Abbildung: NCSR Demokritos

Segmentierung von Glyphen
– Fraktur, Fraktur, Fraktur
(es gibt über 3,000
verschiedene
Varianten)
– Sonderzeichen,
Satzzeichen
– Ligaturen
Abbildung: NCSR Demokritos

Segmentierung von Glyphen
Abbildungen: NCSR Demokritos

Texterkennung
Raster classifier Contour classifier
Feature differentiating classifierStructure classifier
Abbildungen: ABBYY

Enkodierung
Abbildung: Wikipedia

Ein paar gängige OCR Formate
• ALTO
• FineReader XML
• hOCR
• TEI
I
XML

ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betreut,
nun ein Standard der Library of Congress
• http://www.loc.gov/standards/alto/
• https://github.com/altoxml

FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler nicht einfach zu
handhaben  Tools zur Transformation in andere
Formate spärlich
• http://www.abbyy-
developers.eu/en:tech:features:xml

hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRopus
• Spezifikation
• https://github.com/tmbdev/hocr-tools

TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur
 Schwierigkeit vollständige Informationen
aus der OCR in TEI zu überführen
• http://www.tei-c.org/index.xml

Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah
.)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje
jprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljen
bifet Cbeiiupcen berbonbru befe
Abbildung: Koninklijke Bibliotheek

Wie geeignet ist das Original?
• Papier
• Schäden
• Schriftbild
• Layout

Gewelltes Papier

Risse
Abbildungen: British Library

Handschriftliche Anmerkungen

Komplexes Layout

Wie gut ist der Scan?
• Auflösung
– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe
• Bildoptimierung

Es geht auch noch schneller…

Massendigitalisierung…
• http://theartofgooglebooks.tumblr.com/

Durchscheinen von Text

OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten:
 Historisches Wörterbuch erforderlich
• „Langes s“ Problem
• Wie lassen sich historische Varianten
von OCR Fehlern unterscheiden?
(http://ocr.cis.uni-muenchen.de/)
theylteil eyeitht
   ,

OCR Projekte
• IMPACT – Improving Access to Text
http://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von Software, Datensets,
Empfehlungen

OCR Projekte
• Impact Center of Competence
http://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entwicklung von Standards, Services

OCR Projekte
• eMOP – Early Modern OCR Project
http://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source tools, EEBO & ECCO

Konferenzen
• ICDAR = International Conference on
Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien
• http://2015.icdar.org/

Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!

Werkzeuge
• ABBYY FineReader
• Die kommerzielle Off-the-shelf Omnifont OCR
• http://ocrsdk.com/
• http://finereader.abbyy.com/

Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in
den 1980er Jahren, seit 2006 mit Funding von
Google neu aufgelegt
• Unterstützung von Fraktur!
• https://code.google.com/p/tesseract-ocr/

Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit
2007, seit Version 0.6 Re-design basierend
auf aktueller Forschung zu neuronalen Netzen
(„recurrent neural networks“, RNN)
• https://github.com/tmbdev/ocropy

Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern
Recognition“ und „Evaluation“
• Viele nützliche Tools, Referenzdatensets
• http://primaresearch.org/tools

Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –
umfangreichstes und komfortabelstes Tool
für die OCR Evaluation – und Open Source
• https://sites.google.com/site/textdigitisation/
• https://github.com/impactcentre/ocrevalUAtion

Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words

Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• Reading Order der Absätze

Ground Truth
• Ground Truth =
„…the ideal result that
the ultimate method
(the method whose
discovery will signal that
the problem is solved) is
expected to produce.“

Aletheia
• http://primaresearch.org/tools/Aletheia

Qualität der OCR
• Ein paar typische Fehler:
rn  m
u  n
b  h
1  l
• Siehe dazu auch:
http://usesofscale.com/gritty-details/basic-ocr-
correction/

Layout Evaluierung
Image
Caption
Page
Paragraph
Paragraph
Header

Layout Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image

Layout Evaluierung
Partial MissMiss
Merge
Ground Truth
Ergebnis der
Layoutanalyse
Paragraph
Caption
Misclassi-
fication
Split

Was kann man tun?
• Bsp. Trading Consequences
• http://homepages.inf.ed.ac.uk/balex/publicatio
ns/slides-DATeCH.pdf

Vielen Dank für
die Aufmerksamkeit!
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

Semelhante a OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition (20)

Mais de cneudecker

Mais de cneudecker (20)

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition