SlideShare uma empresa Scribd logo
1 de 58
OCR – Herausforderungen und
Werkzeuge auf dem Weg vom
Bild zur Digitalen Edition
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker
OCR
• OCR = Optical Character Recognition
zu Deutsch: Texterkennung/Zeichenerkennung
• Ziel: Umwandlung von Bilddateien
in elektronischen Text
 durchsuchbar & editierbar
• ≠ Handschriftenerkennung (HTR),
Spracherkennung (ASR)
Kurze Geschichte der OCR
• 1913: Edmund Fournier d'Albe entwickelt das
Optophone zur Umwandlung von Text in Tonsignale
• 1974: Ray Kurzweil produziert die Kurzweil Reading
Machine mit dem Ziel Blinden das Lesen zu
ermöglichen
• 1980er: Erste kommerzielle OCR Anwendungen
entstehen, darunter OmniPage, Abbyy und
Tesseract (HP)
Verarbeitungsschritte bei der OCR
• Binarisierung = Umwandlung von
Graustufen/Farbbildern in
Schwarz-Weiß
• Segmentierung = Aufteilung der Seite
in Grafikelemente, Text, Spalten etc.
• Texterkennung = Erkennung von Zeichen
und Wörtern
• Enkodierung = Formatierung des Text
(sowie Layoutinformationen) für die
Ausgabe
Binarisierung
Abbildungen: Bayerische Staatsbibliothek
Adaptive Binarisierung
• Text bleibt erhalten,
Rauschen wird entfernt
Abbildungen: ABBYY
Segmentierung
Abbildungen: Primaresearch, University of Salford
Segmentierung
• Mehrstufiges Verfahren
1) Erkennung von Layout
(Spalten, Grafiken, Tabellen etc.)
2) Erkennung von Textregionen
3) Erkennung von Zeilen
4) Erkennung von Wörtern
5) Erkennung von Glyphen
(Buchstaben, Satzzeichen etc.)
Layout Erkennung
• Schwierigkeiten:
– Überschriften und
Initialen
– Grafiken und
Illustrationen
– Tabellen
– Bilder mit komplexen
Umrissen (Polygone)
Abbildung: Primaresearch, University of Salford
Layout Erkennung
• Sonderfall Zeitungen:
– Mehrspaltig
– Artikel
– Grafiken
– Werbung
• Europeana
Newspapers
Abbildung: Staatsbibliothek zu Berlin
Segementierung von Zeilen
• Schwierigkeiten:
– Linien sind nicht
gerade
– Linien werden
miteinander
verbunden
– Spalten
Abbildungen: Primaresearch, University of Salford / NCSR Demokritos
Segmentierung von Wörtern
• Schwierigkeiten:
– Zusammengesetzte
Wörter
– Zeilenumbrüche
– „Catch words“
Abbildung: NCSR Demokritos
Segmentierung von Glyphen
• Schwierigkeiten:
– Fraktur, Fraktur, Fraktur
(es gibt über 3,000
verschiedene
Varianten)
– Sonderzeichen,
Satzzeichen
– Ligaturen
Abbildung: NCSR Demokritos
Segmentierung von Glyphen
Abbildungen: NCSR Demokritos
Texterkennung
Raster classifier Contour classifier
Feature differentiating classifierStructure classifier
Abbildungen: ABBYY
Enkodierung
Abbildung: Wikipedia
Ein paar gängige OCR Formate
• ALTO
• FineReader XML
• hOCR
• TEI
I
XML
ALTO
• Analyzed Layout and Text Object
• Ursprünglich entwickelt im EU-Projekt metaE
• Viele Jahre durch CCS/Hamburg betreut,
nun ein Standard der Library of Congress
• http://www.loc.gov/standards/alto/
• https://github.com/altoxml
FineReader XML
• XML-Ausgabeformat von ABBYY Produkten
• Hohe Granularität der Auszeichnung
• Für Geisteswissenschaftler nicht einfach zu
handhaben  Tools zur Transformation in andere
Formate spärlich
• http://www.abbyy-
developers.eu/en:tech:features:xml
hOCR
• HTML/XHTML Kodierung von OCR Ergebnissen
• Entwickelt von Thomas Breuel (DFKI)
• Standardformat von Tesseract, OCRopus
• Spezifikation
• https://github.com/tmbdev/hocr-tools
TEI
• Text Encoding Initiative
• Entwickelt für digitale Editionen
• Fokus auf inhaltliche Struktur
 Schwierigkeit vollständige Informationen
aus der OCR in TEI zu überführen
• http://www.tei-c.org/index.xml
Eine vertraute Szene?
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah
.)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje
jprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljen
bifet Cbeiiupcen berbonbru befe
Abbildung: Koninklijke Bibliotheek
Wie geeignet ist das Original?
• Papier
• Schäden
• Schriftbild
• Layout
Gewelltes Papier
Abbildungen: Bayerische Staatsbibliothek
Risse
Abbildungen: British Library
Handschriftliche Anmerkungen
Abbildungen: Bayerische Staatsbibliothek
Komplexes Layout
Abbildungen: Bayerische Staatsbibliothek
Wie gut ist der Scan?
• Auflösung
– 300 ppi vs. 600 ppi?
• Bildformat/Komprimierung
• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe
• Bildoptimierung
Scan Roboter
Es geht auch noch schneller…
Massendigitalisierung…
• http://theartofgooglebooks.tumblr.com/
Durchscheinen von Text
Abbildungen: Bayerische Staatsbibliothek
OCR & historische Dokumente
• Besonderheiten historischer Rechtschreibung
• Historische Varianten:
 Historisches Wörterbuch erforderlich
• „Langes s“ Problem
• Wie lassen sich historische Varianten
von OCR Fehlern unterscheiden?
(http://ocr.cis.uni-muenchen.de/)
theylteil eyeitht
   ,
OCR Projekte
• IMPACT – Improving Access to Text
http://www.impact-project.eu/
• EU Projekt 2008 – 2012
• Entwicklung von Software, Datensets,
Empfehlungen
OCR Projekte
• Impact Center of Competence
http://www.digitisation.eu/
• Internationales „Kompetenzzentrum“ für OCR
• Entwicklung von Standards, Services
OCR Projekte
• eMOP – Early Modern OCR Project
http://emop.tamu.edu/
• Mellon Foundation gefördertes Projekt
• Open source tools, EEBO & ECCO
Konferenzen
• ICDAR = International Conference on
Document Analysis and Recognition
• 23 – 26 August 2015, Tunis, Tunesien
• http://2015.icdar.org/
Konferenzen
• DAS = Document Analysis Systems
• 11 – 14 April 2016, Santorini, Griechenland
• Website: coming soon!
Werkzeuge
• ABBYY FineReader
• Die kommerzielle Off-the-shelf Omnifont OCR
• http://ocrsdk.com/
• http://finereader.abbyy.com/
Werkzeuge
• Tesseract
• Ursprünglich entwickelt von Ray Smith (HP) in
den 1980er Jahren, seit 2006 mit Funding von
Google neu aufgelegt
• Unterstützung von Fraktur!
• https://code.google.com/p/tesseract-ocr/
Werkzeuge
• OCRopus / ocropy
• Entwickelt von Thomas Breuel (DFKI) seit
2007, seit Version 0.6 Re-design basierend
auf aktueller Forschung zu neuronalen Netzen
(„recurrent neural networks“, RNN)
• https://github.com/tmbdev/ocropy
Werkzeuge
• PRImA Labs (University of Salford, Manchester)
• Forschungsgruppe mit Fokus „Pattern
Recognition“ und „Evaluation“
• Viele nützliche Tools, Referenzdatensets
• http://primaresearch.org/tools
Werkzeuge
• ocrevalUAtion
• Entwickelt von der Universität Alicante –
umfangreichstes und komfortabelstes Tool
für die OCR Evaluation – und Open Source
• https://sites.google.com/site/textdigitisation/
• https://github.com/impactcentre/ocrevalUAtion
Qualität der OCR
• Suspicious character rate
• Character-Error-Rate
• Word-Error-Rate
• Levenshtein Distanz
• Bag of words
Qualität der OCR
Qualität der Layouterkennung
• Analyse des Layouts
• Erkennung von Spalten
• Korrektes Labelling von Strukturelementen
• Reading Order der Absätze
Ground Truth
• Ground Truth =
„…the ideal result that
the ultimate method
(the method whose
discovery will signal that
the problem is solved) is
expected to produce.“
Aletheia
• http://primaresearch.org/tools/Aletheia
Qualität der OCR
• Ein paar typische Fehler:
rn  m
u  n
b  h
1  l
• Siehe dazu auch:
http://usesofscale.com/gritty-details/basic-ocr-
correction/
Layout Evaluierung
Image
Caption
Page
Paragraph
Paragraph
Header
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image
Abbildung: Primaresearch, University of Salford
Layout Evaluierung
Partial MissMiss
Merge
Ground Truth
Ergebnis der
Layoutanalyse
Paragraph
Caption
Misclassi-
fication
Split
Abbildung: Primaresearch, University of Salford
Was kann man tun?
• Bsp. Trading Consequences
• http://homepages.inf.ed.ac.uk/balex/publicatio
ns/slides-DATeCH.pdf
Vielen Dank für
die Aufmerksamkeit!
Clemens Neudecker
Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
@cneudecker

Mais conteúdo relacionado

Destaque

LTPD_Brochure_FINAL
LTPD_Brochure_FINALLTPD_Brochure_FINAL
LTPD_Brochure_FINALDavid Kirk
 
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Xarxa Punt TIC
 
A history of air pollution events
A history of air pollution eventsA history of air pollution events
A history of air pollution eventssugeladi
 
Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015Júnior Rocha
 
Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)hishamserry
 
Mis Primeros pasos en la orientacion
Mis Primeros pasos en la orientacionMis Primeros pasos en la orientacion
Mis Primeros pasos en la orientacionJavi Monachil
 
Launching Ruby on Rails projects: A checklist
Launching Ruby on Rails projects: A checklistLaunching Ruby on Rails projects: A checklist
Launching Ruby on Rails projects: A checklistRobby Russell
 
REVISTA PATACONA
REVISTA PATACONAREVISTA PATACONA
REVISTA PATACONAWilly Pj
 
MTM & Lean Application Case Studies
MTM & Lean Application Case StudiesMTM & Lean Application Case Studies
MTM & Lean Application Case StudiesTmtm Tmtm
 
Test de kolb material del docente
Test de kolb material del docenteTest de kolb material del docente
Test de kolb material del docentejjcobmkars
 
Learning style ppt
Learning style pptLearning style ppt
Learning style pptBrentVan3
 
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...Hans-Dieter Zimmermann
 
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...We4IT Group
 

Destaque (18)

Cv
CvCv
Cv
 
LTPD_Brochure_FINAL
LTPD_Brochure_FINALLTPD_Brochure_FINAL
LTPD_Brochure_FINAL
 
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
Canviant el paradigma: joves aprenent i emprenent, punts TIC i nova ocupabili...
 
A history of air pollution events
A history of air pollution eventsA history of air pollution events
A history of air pollution events
 
Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015Deploy & Continunous Integration - TDC Floripa 2015
Deploy & Continunous Integration - TDC Floripa 2015
 
Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)Company Profile - IPSCo (IT)
Company Profile - IPSCo (IT)
 
Mis Primeros pasos en la orientacion
Mis Primeros pasos en la orientacionMis Primeros pasos en la orientacion
Mis Primeros pasos en la orientacion
 
Launching Ruby on Rails projects: A checklist
Launching Ruby on Rails projects: A checklistLaunching Ruby on Rails projects: A checklist
Launching Ruby on Rails projects: A checklist
 
REVISTA PATACONA
REVISTA PATACONAREVISTA PATACONA
REVISTA PATACONA
 
MTM & Lean Application Case Studies
MTM & Lean Application Case StudiesMTM & Lean Application Case Studies
MTM & Lean Application Case Studies
 
Dirección de cultos
Dirección de cultosDirección de cultos
Dirección de cultos
 
Test de kolb material del docente
Test de kolb material del docenteTest de kolb material del docente
Test de kolb material del docente
 
Actividad 1 Caso MCDonalds
Actividad 1 Caso MCDonaldsActividad 1 Caso MCDonalds
Actividad 1 Caso MCDonalds
 
Calendario Escolar 2017
Calendario Escolar 2017Calendario Escolar 2017
Calendario Escolar 2017
 
Learning style ppt
Learning style pptLearning style ppt
Learning style ppt
 
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
'Open Access Publishing – Eine differenzierte Betrachtung aus der Perspektive...
 
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
Effizienz im Fokus: Clients, Server Systeme überwachen, analysieren und optim...
 
Treichel kultur transkulturalität_basismodelle
Treichel kultur transkulturalität_basismodelleTreichel kultur transkulturalität_basismodelle
Treichel kultur transkulturalität_basismodelle
 

Semelhante a OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Sourceyellowcow
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenMarkus Erle
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienGeorg Rehm
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildaupanitzm
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15Matthias Arnold
 
Makerspaces - Workshop an der Hochschule Luzern
Makerspaces - Workshop an der Hochschule LuzernMakerspaces - Workshop an der Hochschule Luzern
Makerspaces - Workshop an der Hochschule LuzernRudolf Mumenthaler
 

Semelhante a OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition (20)

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wollten
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 
Makerspaces - Workshop an der Hochschule Luzern
Makerspaces - Workshop an der Hochschule LuzernMakerspaces - Workshop an der Hochschule Luzern
Makerspaces - Workshop an der Hochschule Luzern
 

Mais de cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspaperscneudecker
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918cneudecker
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathoncneudecker
 
How to read a million books?
How to read a million books?How to read a million books?
How to read a million books?cneudecker
 

Mais de cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
 
How to read a million books?
How to read a million books?How to read a million books?
How to read a million books?
 

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition