O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
OCR – Herausforderungen und
Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens Neudecker
Staatsbibliothek zu Ber...
OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien
in...
Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das
Optophone zur Umwandlung von Text in Tonsignale
• 1...
Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von
Graustufen/Farbbildern in
Schwarz-Weiß
• Segmentierung ...
Binarisierung
Abbildungen: Bayerische Staatsbibliothek
Adaptive Binarisierung
• Text bleibt erhalten,
Rauschen wird entfernt
Abbildungen: ABBYY
Segmentierung
Abbildungen: Primaresearch, University of Salford
Segmentierung
• Mehrstufiges Verfahren
1) Erkennung von Layout
(Spalten, Grafiken, Tabellen etc.)
2) Erkennung von Textreg...
Layout Erkennung
• Schwierigkeiten:
– Überschriften und
Initialen
– Grafiken und
Illustrationen
– Tabellen
– Bilder mit ko...
Layout Erkennung
• Sonderfall Zeitungen:
– Mehrspaltig
– Artikel
– Grafiken
– Werbung
• Europeana
Newspapers
Abbildung: St...
Segementierung von Zeilen
• Schwierigkeiten:
– Linien sind nicht
gerade
– Linien werden
miteinander
verbunden
– Spalten
Ab...
Segmentierung von Wörtern
• Schwierigkeiten:
– Zusammengesetzte
Wörter
– Zeilenumbrüche
– „Catch words“
Abbildung: NCSR De...
Segmentierung von Glyphen
• Schwierigkeiten:
– Fraktur, Fraktur, Fraktur
(es gibt über 3,000
verschiedene
Varianten)
– Son...
Segmentierung von Glyphen
Abbildungen: NCSR Demokritos
Texterkennung
Raster classifier Contour classifier
Feature differentiating classifierStructure classifier
Abbildungen: ABB...
Enkodierung
Abbildung: Wikipedia
Ein paar gängige OCR Formate
• ALTO
• FineReader XML
• hOCR
• TEI
I
XML
ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betre...
FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler n...
hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRo...
TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur
 Schwierigkeit vollst...
Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah
.)etgi'uotbciraeta...
Wie geeignet ist das Original?
• Papier
• Schäden
• Schriftbild
• Layout
Gewelltes Papier
Abbildungen: Bayerische Staatsbibliothek
Risse
Abbildungen: British Library
Handschriftliche Anmerkungen
Abbildungen: Bayerische Staatsbibliothek
Komplexes Layout
Abbildungen: Bayerische Staatsbibliothek
Wie gut ist der Scan?
• Auflösung
– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufe...
Scan Roboter
Es geht auch noch schneller…
Massendigitalisierung…
• http://theartofgooglebooks.tumblr.com/
Durchscheinen von Text
Abbildungen: Bayerische Staatsbibliothek
OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten:
 Historisches Wörterbu...
OCR Projekte
• IMPACT – Improving Access to Text
http://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von ...
OCR Projekte
• Impact Center of Competence
http://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entw...
OCR Projekte
• eMOP – Early Modern OCR Project
http://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source...
Konferenzen
• ICDAR = International Conference on
Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien...
Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!
Werkzeuge
• ABBYY FineReader
• Die kommerzielle Off-the-shelf Omnifont OCR
• http://ocrsdk.com/
• http://finereader.abbyy....
Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in
den 1980er Jahren, seit 2006 mit Funding von
Google ...
Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit
2007, seit Version 0.6 Re-design basierend
auf akt...
Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern
Recognition“ und „Evaluat...
Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –
umfangreichstes und komfortabelstes Tool
für die OCR...
Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words
Qualität der OCR
Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• R...
Ground Truth
• Ground Truth =
„…the ideal result that
the ultimate method
(the method whose
discovery will signal that
the...
Aletheia
• http://primaresearch.org/tools/Aletheia
Qualität der OCR
• Ein paar typische Fehler:
rn  m
u  n
b  h
1  l
• Siehe dazu auch:
http://usesofscale.com/gritty-det...
Layout Evaluierung
Image
Caption
Page
Paragraph
Paragraph
Header
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Partial MissMiss
Merge
Ground Truth
Ergebnis der
Layoutanalyse
Paragraph
Caption
Misclassi-
fication
Sp...
Was kann man tun?
• Bsp. Trading Consequences
• http://homepages.inf.ed.ac.uk/balex/publicatio
ns/slides-DATeCH.pdf
Vielen Dank für
die Aufmerksamkeit!
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
Próximos SlideShares
Carregando em…5
×

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

2.128 visualizações

Publicada em

Numéerisation de masse et traitement des grands corpus de textes utilisant des méthodes des humanitées numéeriques / Massendigitalisierung und die Bearbeitung großer Textkorpora mit Methoden der 'Digital Humanities', 12-13 March 2015, Stuttgart, Germany

Publicada em: Tecnologia
  • Überprüfen Sie die Quelle ⇒ www.WritersHilfe.com ⇐ . Diese Seite hat mir geholfen, eine Diplomarbeit zu schreiben.
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THE BOOK INTO AVAILABLE FORMAT (New Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THE can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THE is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBOOK .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, CookBOOK, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, EBOOK, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THE Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THE the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THE Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THE BOOK INTO AVAILABLE FORMAT (New Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THE can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THE is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBOOK .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, CookBOOK, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, EBOOK, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THE Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THE the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THE Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THE BOOK INTO AVAILABLE FORMAT (New Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THE can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THE is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBOOK .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, CookBOOK, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, EBOOK, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THE Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THE the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THE Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THE BOOK INTO AVAILABLE FORMAT (New Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THE can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THE is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBOOK .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, CookBOOK, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, EBOOK, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THE Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THE the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THE Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Seja a primeira pessoa a gostar disto

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

  1. 1. OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition Clemens Neudecker Staatsbibliothek zu Berlin – Preußischer Kulturbesitz @cneudecker
  2. 2. OCR • OCR = Optical Character Recognition zu Deutsch: Texterkennung/Zeichenerkennung • Ziel: Umwandlung von Bilddateien in elektronischen Text  durchsuchbar & editierbar • ≠ Handschriftenerkennung (HTR), Spracherkennung (ASR)
  3. 3. Kurze Geschichte der OCR • 1913: Edmund Fournier d'Albe entwickelt das Optophone zur Umwandlung von Text in Tonsignale • 1974: Ray Kurzweil produziert die Kurzweil Reading Machine mit dem Ziel Blinden das Lesen zu ermöglichen • 1980er: Erste kommerzielle OCR Anwendungen entstehen, darunter OmniPage, Abbyy und Tesseract (HP)
  4. 4. Verarbeitungsschritte bei der OCR • Binarisierung = Umwandlung von Graustufen/Farbbildern in Schwarz-Weiß • Segmentierung = Aufteilung der Seite in Grafikelemente, Text, Spalten etc. • Texterkennung = Erkennung von Zeichen und Wörtern • Enkodierung = Formatierung des Text (sowie Layoutinformationen) für die Ausgabe
  5. 5. Binarisierung Abbildungen: Bayerische Staatsbibliothek
  6. 6. Adaptive Binarisierung • Text bleibt erhalten, Rauschen wird entfernt Abbildungen: ABBYY
  7. 7. Segmentierung Abbildungen: Primaresearch, University of Salford
  8. 8. Segmentierung • Mehrstufiges Verfahren 1) Erkennung von Layout (Spalten, Grafiken, Tabellen etc.) 2) Erkennung von Textregionen 3) Erkennung von Zeilen 4) Erkennung von Wörtern 5) Erkennung von Glyphen (Buchstaben, Satzzeichen etc.)
  9. 9. Layout Erkennung • Schwierigkeiten: – Überschriften und Initialen – Grafiken und Illustrationen – Tabellen – Bilder mit komplexen Umrissen (Polygone) Abbildung: Primaresearch, University of Salford
  10. 10. Layout Erkennung • Sonderfall Zeitungen: – Mehrspaltig – Artikel – Grafiken – Werbung • Europeana Newspapers Abbildung: Staatsbibliothek zu Berlin
  11. 11. Segementierung von Zeilen • Schwierigkeiten: – Linien sind nicht gerade – Linien werden miteinander verbunden – Spalten Abbildungen: Primaresearch, University of Salford / NCSR Demokritos
  12. 12. Segmentierung von Wörtern • Schwierigkeiten: – Zusammengesetzte Wörter – Zeilenumbrüche – „Catch words“ Abbildung: NCSR Demokritos
  13. 13. Segmentierung von Glyphen • Schwierigkeiten: – Fraktur, Fraktur, Fraktur (es gibt über 3,000 verschiedene Varianten) – Sonderzeichen, Satzzeichen – Ligaturen Abbildung: NCSR Demokritos
  14. 14. Segmentierung von Glyphen Abbildungen: NCSR Demokritos
  15. 15. Texterkennung Raster classifier Contour classifier Feature differentiating classifierStructure classifier Abbildungen: ABBYY
  16. 16. Enkodierung Abbildung: Wikipedia
  17. 17. Ein paar gängige OCR Formate • ALTO • FineReader XML • hOCR • TEI I XML
  18. 18. ALTO • Analyzed Layout and Text Object • Ursprünglich entwickelt im EU-Projekt metaE • Viele Jahre durch CCS/Hamburg betreut, nun ein Standard der Library of Congress • http://www.loc.gov/standards/alto/ • https://github.com/altoxml
  19. 19. FineReader XML • XML-Ausgabeformat von ABBYY Produkten • Hohe Granularität der Auszeichnung • Für Geisteswissenschaftler nicht einfach zu handhaben  Tools zur Transformation in andere Formate spärlich • http://www.abbyy- developers.eu/en:tech:features:xml
  20. 20. hOCR • HTML/XHTML Kodierung von OCR Ergebnissen • Entwickelt von Thomas Breuel (DFKI) • Standardformat von Tesseract, OCRopus • Spezifikation • https://github.com/tmbdev/hocr-tools
  21. 21. TEI • Text Encoding Initiative • Entwickelt für digitale Editionen • Fokus auf inhaltliche Struktur  Schwierigkeit vollständige Informationen aus der OCR in TEI zu überführen • http://www.tei-c.org/index.xml
  22. 22. Eine vertraute Szene? VVt Venetien den 1.Junij, Anno 1618. DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te / sbnbe bele btr felbrr geiufttceert baer bnber eeniglje jprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljen bifet Cbeiiupcen berbonbru befe Abbildung: Koninklijke Bibliotheek
  23. 23. Wie geeignet ist das Original? • Papier • Schäden • Schriftbild • Layout
  24. 24. Gewelltes Papier Abbildungen: Bayerische Staatsbibliothek
  25. 25. Risse Abbildungen: British Library
  26. 26. Handschriftliche Anmerkungen Abbildungen: Bayerische Staatsbibliothek
  27. 27. Komplexes Layout Abbildungen: Bayerische Staatsbibliothek
  28. 28. Wie gut ist der Scan? • Auflösung – 300 ppi vs. 600 ppi? • Bildformat/Komprimierung • Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe • Bildoptimierung
  29. 29. Scan Roboter
  30. 30. Es geht auch noch schneller…
  31. 31. Massendigitalisierung… • http://theartofgooglebooks.tumblr.com/
  32. 32. Durchscheinen von Text Abbildungen: Bayerische Staatsbibliothek
  33. 33. OCR & historische Dokumente • Besonderheiten historischer Rechtschreibung • Historische Varianten:  Historisches Wörterbuch erforderlich • „Langes s“ Problem • Wie lassen sich historische Varianten von OCR Fehlern unterscheiden? (http://ocr.cis.uni-muenchen.de/) theylteil eyeitht    ,
  34. 34. OCR Projekte • IMPACT – Improving Access to Text http://www.impact-project.eu/ • EU Projekt 2008 – 2012 • Entwicklung von Software, Datensets, Empfehlungen
  35. 35. OCR Projekte • Impact Center of Competence http://www.digitisation.eu/ • Internationales „Kompetenzzentrum“ für OCR • Entwicklung von Standards, Services
  36. 36. OCR Projekte • eMOP – Early Modern OCR Project http://emop.tamu.edu/ • Mellon Foundation gefördertes Projekt • Open source tools, EEBO & ECCO
  37. 37. Konferenzen • ICDAR = International Conference on Document Analysis and Recognition • 23 – 26 August 2015, Tunis, Tunesien • http://2015.icdar.org/
  38. 38. Konferenzen • DAS = Document Analysis Systems • 11 – 14 April 2016, Santorini, Griechenland • Website: coming soon!
  39. 39. Werkzeuge • ABBYY FineReader • Die kommerzielle Off-the-shelf Omnifont OCR • http://ocrsdk.com/ • http://finereader.abbyy.com/
  40. 40. Werkzeuge • Tesseract • Ursprünglich entwickelt von Ray Smith (HP) in den 1980er Jahren, seit 2006 mit Funding von Google neu aufgelegt • Unterstützung von Fraktur! • https://code.google.com/p/tesseract-ocr/
  41. 41. Werkzeuge • OCRopus / ocropy • Entwickelt von Thomas Breuel (DFKI) seit 2007, seit Version 0.6 Re-design basierend auf aktueller Forschung zu neuronalen Netzen („recurrent neural networks“, RNN) • https://github.com/tmbdev/ocropy
  42. 42. Werkzeuge • PRImA Labs (University of Salford, Manchester) • Forschungsgruppe mit Fokus „Pattern Recognition“ und „Evaluation“ • Viele nützliche Tools, Referenzdatensets • http://primaresearch.org/tools
  43. 43. Werkzeuge • ocrevalUAtion • Entwickelt von der Universität Alicante – umfangreichstes und komfortabelstes Tool für die OCR Evaluation – und Open Source • https://sites.google.com/site/textdigitisation/ • https://github.com/impactcentre/ocrevalUAtion
  44. 44. Qualität der OCR • Suspicious character rate • Character-Error-Rate • Word-Error-Rate • Levenshtein Distanz • Bag of words
  45. 45. Qualität der OCR
  46. 46. Qualität der Layouterkennung • Analyse des Layouts • Erkennung von Spalten • Korrektes Labelling von Strukturelementen • Reading Order der Absätze
  47. 47. Ground Truth • Ground Truth = „…the ideal result that the ultimate method (the method whose discovery will signal that the problem is solved) is expected to produce.“
  48. 48. Aletheia • http://primaresearch.org/tools/Aletheia
  49. 49. Qualität der OCR • Ein paar typische Fehler: rn  m u  n b  h 1  l • Siehe dazu auch: http://usesofscale.com/gritty-details/basic-ocr- correction/
  50. 50. Layout Evaluierung Image Caption Page Paragraph Paragraph Header Abbildung: Primaresearch, University of Salford
  51. 51. Layout Evaluierung Paragraph Header Paragraph Image Image Image Abbildung: Primaresearch, University of Salford
  52. 52. Layout Evaluierung Partial MissMiss Merge Ground Truth Ergebnis der Layoutanalyse Paragraph Caption Misclassi- fication Split Abbildung: Primaresearch, University of Salford
  53. 53. Was kann man tun? • Bsp. Trading Consequences • http://homepages.inf.ed.ac.uk/balex/publicatio ns/slides-DATeCH.pdf
  54. 54. Vielen Dank für die Aufmerksamkeit! Clemens Neudecker Staatsbibliothek zu Berlin – Preußischer Kulturbesitz @cneudecker

×