SlideShare uma empresa Scribd logo
1 de 64
Baixar para ler offline
Transkribus
Eine Forschungsplattform für die
automatisierte Digitalisierung, Erkennung
und Suche in historischen Dokumenten
Günter Mühlberger
Universität Innsbruck,
Digitisation and Digital Preservation Group
Agenda
• Einleitung
• Technologie
• Resultate
• Transkribus – Expert client
• Transkribus – Plattform
• Sharing is caring oder die Zukunft von Transkribus
Einleitung
READ - Transkribus
• Fakten und Zahlen
• Horizon 2020 Projekt der Europäischen Kommission
• 8,2 mill. EUR Förderung
• Projektdauer: 1.1.2016 – 30.6.2019
• 14 Partner, koordiniert von der Universität Innsbruck
• Schwerpunkte
• Research: 60% - Pattern Recognition, Machine Learning, Computer Vision,…
• Netzwerkbildung: 20% - Wissenschaftliche Wettbewerbe, Workshops, Support,…
• Service: 20% - Aufbau einer Serviceplattform
• Serviceplattform: Transkribus
• Digitalisierung, Transkription, Erkennung von und Suche in historischen Dokumenten
ermöglichen
• Forschungsinfrastruktur
GEISTESWISSEN-
SCHAFTLER
ARCHIVE
BIBLIOTHEKEN
COMPUTER
WISSENSCHAFTLER
&
TECHNOLOGIE
LIEFERANTEN
ÖFFENTLICHKEIT
FREIWILLIGE
TRANS-
KRIBUS
Digitalisierte
Dokumente
SPEICHERUNGFachwissen
EXPERTEN
INTERFACE
TRAINING
ERKENNUNG
SUCHE
Verbesserte
Services
WEB
INTERFACE
Digitalisieren
Suchen
Beitragen
Daten
Wettbewerbe
Technologie
Erkannte
Dokumente
Resultate
Technologie
Texterkennung
und kluge Veranstaltung/des Käyserl.General Feld=Marschall Lieutnants
innere seyn mögte und ob die eingereichte. Druck.
‫הע‬ ‫להם‬ ‫אכפת‬ ‫מה‬ ‫וכי‬ ‫נורי‬ ‫בן‬ ‫יוחנן‬
Source: Gundram Leifert (CITlab)
Fortschritte im READ Projekt – seit 2016
Dataset SPRNN (=2016) HTR+ (e2017) HTR+(e2018)
StAZH 14,48*
Bozen
Ratsprotokolle
(24,39)
• All figures as CER – Character Error Rate
• No dictionaries
Source: CITLab team
Fortschritt 2017 (nicht implementiert)
Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018)
StAZH 14,48* 4,45
Bozen
Ratsprotokolle
(24,39) 6,70
• All figures as CER – Character Error Rate
• Source: CITLab team
Fortschritt Ende 2018 (implementiert)
Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018)
StAZH
19th C.
14,48* 4,45 2,97
Bozen
17th C.
(24,39) 6,70 4,89
• All figures as CER – Character Error Rate
• Source: CITLab team
Zeilenerkennung
Zeilenerkennung
• Zu Beginn des Projekts “die” Herausforderung
• Komplexes Layout
• Viele verschiedene Texttypen
• Tabellen
• Schmutz, Ränder, Durchscheinen, Streichungen, Zeichnungen, Separatoren, Buchschmuck,…
• Erfolgsgeschichte
• Neue Methoden: Machine Learning
• Representatives und gut ausgewähltes Datensetz (2000 Seiten von verschiedenen Archiven
und Zeitepochen)
• Offshore Firma zur Erstellung des “Ground Truth” (100.000+ Zeilen manuell eingezeichnet)
• Wissenschaftlicher Wettbewerb: ICDAR 2017
• Forschungsdaten sind auf ZENODO verfügbar: cBAD
• Beste Lösung kommt von der Uni Rostock, Citlab Team
Resultate
Konzilsprotokolle
• Universität Greifswald, Beschlüsse
• Spätes 18. Jahrhundert, deutsche Kurrentschrift
• Ein Schreiber
• Trainingset: 35.743 Wörter = 182 Seiten
• Character Error Rate (CER) am Testset = 3,1% (ohne Wörterbuch)
• Word Error Rate (CER) am Testset = 13,1% (ohne Wörterbuch)
Für diese Seite: CER = 2,2% / WER = 10,3% (mit Wörterbuch)
Mittelalterliche Schriften
• Kooperation mit Dominique Stuetzmann und CNRS (Institut de
recherche et d'histoire des textes) Paris
• HIMANIS Projekt
• Viele verschiedene Schreiber
• Französisch und Latein
• Trainingset: 550.381 Wörter oder 1197 Seiten
• CER am Testset = 6,4%
• WER am Testset = 22,1%
Für diese Seite: CER = 6,02 / WER = 19,6 (ohne Wörterbuch)
Gedruckter Text - Zeitungen
• Wiener Diarium – in Kooperation mit Österreichischer Akademie der
Wissenschaften
• Zeitung aus dem 18. Jhd.
• Bitonale Scans
• Trainingset: 179.997 Wörter oder 345 Seiten
• CER am Testset = 0,81
• WER am Testset = 3,02
 Vergleichbare Ergebnisse mit NZZ Modell – für ca. 160 Jahre (1780 – 1940 1
Titelseite pro Jahr – insg. 167 Titelseiten) – CER am Testset: 0,47% – impresso
Projekt
Für diese Seite: CER = 0,6 / WER = 3,0% (ohne Wörterbuch)
Layout Analyse und automatisierte Texterkennung für historische
Dokumente zeigen exzellente Resultate für gedruckte Schriften und gute
bis sehr gute Ergebnisse für handschriftliche Dokumente.
Keyword Spotting
Keyword Spotting (KWS)
• Hintergrund
• Neuronale Netze liefern mehr als nur den reinen Text
• Sogenannte Konfidenztabellen
• Keyword Spotting
• Eine effiziente Methode um diese Konfidenztabellen für die Suche nutzbar zu
machen
• Der Benutzer kann selbst entscheiden wie tief er gehen möchte
• Geht es darum rasch “etwas” zu finden – oder ein bestimmtes Wort – z.B.
einen Familiennamen – sicher in einem Dokument zu entdecken
Quelle: Gundram Leifert
Beispiel: Konzilsprotokolle
Konfidenzwerte:
0,5 = braune Linie
0,2 = blaue Linie
Mitterlehner - Moiveshekner
Transkribus – Expert client
Transkribus - Plattform
Transkribus User Konferenzen – 2017 + 2018
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
2015 2016 2017 2018
Registrierte Benutzer in Transkribus
Woche vom 4. April bis 11. April 2019
• Images Uploaded by users: 98166
• New Users : 344
• Active Users / Unique Logins : 890
• Created Documents: 866
• Exported Documents: 230
• Layout Analysis Jobs: 1745
• HTR Jobs : 943
Trainingsdaten
• Jänner 2019
• 228 HTR Modelle von Transkribus Benutzern trainiert worden
• Trainingsdaten insg. in Transkribus (Februar 2019)
• Seiten: 204.359
• Wörter: 21.200.035
• Ungefähr 120 Personenjahre an Arbeit
• Monetärer Wert: ca. 2-3 Mill. EUR
Sharing is caring oder die Zukunft von Transkribus
Transkribus Zukunft
• Projekt endet mit 30. Juni 2019
• Allerdings ist die Nachfrage schon heute so groß, dass der Weiterbetrieb
der Plattform bis Ende 2020 und darüber hinaus gesichert ist
• EU Projekt NewsEye (2018-2021)
• DFG Projekt Greifswald (2019-2020)
• Projekt mit Nationalarchiv Finland (2019)
• Projekt mit Nationalarchiv Niederlande (2019-2020)
• Leuchtturmprojekt Tirol (2019-2020)
• Projekt mit Trinity College Dublin (2019-2021)
• Projekt mit Staatsarchiv Zürich (2019-2020)
• Und weitere in Vorbereitung…
Software…
…will come and go, data will remain!
Warum nicht ein Geschäftsmodell entwickeln, in dem die
Forschungsdaten – hier also das Wissen um historische Schriften und
Dokumente – im Mittelpunkt stehen? Und das auf dem Gedanken der
Zusammenarbeit und des Teilens beruht?
European Cooperative Society (SCE)
• Kooperative - Genossenschaft
• Ermöglicht die Zusammenarbeit unabhängiger Institutionen um ein
gemeinsames Ziel zu erreichen
• Verteilte Eigentümerschaft und das Teilen von Daten stehen im Mittelpunkt
• Wichtige Eigenschaften einer SCE
• Offen für neue Mitglieder, geringe Hürde: 1000 EUR Anteil als Minimum
• Demokratische Konstitution: Verwaltungsrat - Generalversammlung
• Direkter Vorteil für Mitglieder als Ziel – kein Shareholder Value
• Kunden werden Eigentümer, Eigentümer werden Kunden
• Subskriptionsgebühren und servicebasierte Gebühren
Derzeitiger Stand
• Statuten
• Weitgehend fertig gestellt
• Verwaltungsrat wird in den nächsten Wochen geformt
• Gründungsakt soll vor dem Sommer stattfinden
• Gründungsmitglieder
• Universität Innsbruck, Universität Greifswald, Technische Universität Valencia,
National Archiv Finland, British Library, Universitätsbibliothek Belgrade,
Diözesan Archiv Passau, Universität Rostock, ZAMG Wien, Geneanet
Frankreich, etc..
• Jede Institution, die mit Transkribus arbeiten möchte, ist herzlich
eingeladen mitzumachen!
Vielen Dank für die Aufmerksamkeit
Weitere Informationen
https://read.transkribus.eu/
https://transkribus.eu/
https://read.transkribus.eu/coop/
This project has received funding from the European Union’s
Horizon 2020 research and innovation programme under
grant agreement No 674943.
http://scantent.eu/

Mais conteúdo relacionado

Mais procurados

2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
 
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...Dr. Achim Bonte
 
Find it- vortrag springer summit in berlin 23.08.2012
 Find it- vortrag springer summit in berlin 23.08.2012 Find it- vortrag springer summit in berlin 23.08.2012
Find it- vortrag springer summit in berlin 23.08.2012Michael Golsch
 
Digitalisierung an der SLUB. Strategie und Ergebnisse
Digitalisierung an der SLUB. Strategie und ErgebnisseDigitalisierung an der SLUB. Strategie und Ergebnisse
Digitalisierung an der SLUB. Strategie und ErgebnisseDr. Achim Bonte
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH
 
Eine für alles? Hochschulbibliotheken der nächsten Generation
Eine für alles? Hochschulbibliotheken der nächsten GenerationEine für alles? Hochschulbibliotheken der nächsten Generation
Eine für alles? Hochschulbibliotheken der nächsten GenerationDr. Achim Bonte
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Felix Lohmeier
 
Die SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und PerspektivenDie SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und PerspektivenDr. Achim Bonte
 
Zukunft gestalten. Bauen und ausstatten für künftige Wissensräume
Zukunft gestalten. Bauen und ausstatten für künftige WissensräumeZukunft gestalten. Bauen und ausstatten für künftige Wissensräume
Zukunft gestalten. Bauen und ausstatten für künftige WissensräumeDr. Achim Bonte
 
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...Max Kaiser
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleTill Kinstler
 
Die SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und PerspektivenDie SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und PerspektivenDr. Achim Bonte
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Max Kaiser
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chinfoclio.ch
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVTill Kinstler
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektTill Kinstler
 
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dr. Achim Bonte
 

Mais procurados (20)

2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
 
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...
Der wissenschaftliche Dienst in der Digitalen Bibliothek. Was kommt nach dem ...
 
Find it- vortrag springer summit in berlin 23.08.2012
 Find it- vortrag springer summit in berlin 23.08.2012 Find it- vortrag springer summit in berlin 23.08.2012
Find it- vortrag springer summit in berlin 23.08.2012
 
Digitalisierung an der SLUB. Strategie und Ergebnisse
Digitalisierung an der SLUB. Strategie und ErgebnisseDigitalisierung an der SLUB. Strategie und Ergebnisse
Digitalisierung an der SLUB. Strategie und Ergebnisse
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald
 
20060223 Hist06 Lza Und Dfg
20060223 Hist06 Lza Und Dfg20060223 Hist06 Lza Und Dfg
20060223 Hist06 Lza Und Dfg
 
Eine für alles? Hochschulbibliotheken der nächsten Generation
Eine für alles? Hochschulbibliotheken der nächsten GenerationEine für alles? Hochschulbibliotheken der nächsten Generation
Eine für alles? Hochschulbibliotheken der nächsten Generation
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
RFID: Umstieg auf das Dänische Datenmodell und neue Selbstverbucher an TU und...
RFID: Umstieg auf das Dänische Datenmodell und neue Selbstverbucher an TU und...RFID: Umstieg auf das Dänische Datenmodell und neue Selbstverbucher an TU und...
RFID: Umstieg auf das Dänische Datenmodell und neue Selbstverbucher an TU und...
 
Die SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und PerspektivenDie SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und Perspektiven
 
Zukunft gestalten. Bauen und ausstatten für künftige Wissensräume
Zukunft gestalten. Bauen und ausstatten für künftige WissensräumeZukunft gestalten. Bauen und ausstatten für künftige Wissensräume
Zukunft gestalten. Bauen und ausstatten für künftige Wissensräume
 
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...
600.000 Bücher im Netz: Zur Kooperation der Österreichischen Nationalbiblioth...
 
Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
Das DFG-Pilotprojekt Virtuelles deutsches UrkundennetzwerkDas DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
 
Die SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und PerspektivenDie SLUB 2010. Leistungsstand und Perspektiven
Die SLUB 2010. Leistungsstand und Perspektiven
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source Projekt
 
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
 

Semelhante a Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung, Erkennung und Suche in historischen Dokumenten

Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesFrauke Ziedorn
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Thilo Stadelmann
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...Becker Hans-Georg
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Matthias Arnold
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Trends und Herausforderungen für Bibliotheken – von der Theorie zur Praxis
Trends und Herausforderungen für Bibliotheken – von der Theorie zur PraxisTrends und Herausforderungen für Bibliotheken – von der Theorie zur Praxis
Trends und Herausforderungen für Bibliotheken – von der Theorie zur PraxisRudolf Mumenthaler
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library EditionRudolf Mumenthaler
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
TextGrid 2.0 @ Bibliothekartag 2012
TextGrid 2.0 @ Bibliothekartag 2012TextGrid 2.0 @ Bibliothekartag 2012
TextGrid 2.0 @ Bibliothekartag 2012Felix Lohmeier
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
 

Semelhante a Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung, Erkennung und Suche in historischen Dokumenten (20)

ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Trends und Herausforderungen für Bibliotheken – von der Theorie zur Praxis
Trends und Herausforderungen für Bibliotheken – von der Theorie zur PraxisTrends und Herausforderungen für Bibliotheken – von der Theorie zur Praxis
Trends und Herausforderungen für Bibliotheken – von der Theorie zur Praxis
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library Edition
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
TextGrid 2.0 @ Bibliothekartag 2012
TextGrid 2.0 @ Bibliothekartag 2012TextGrid 2.0 @ Bibliothekartag 2012
TextGrid 2.0 @ Bibliothekartag 2012
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 

Mais de ETH-Bibliothek

17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...ETH-Bibliothek
 
10 YearsDOI Desk at ETH Zurich
10 YearsDOI Desk at ETH Zurich10 YearsDOI Desk at ETH Zurich
10 YearsDOI Desk at ETH ZurichETH-Bibliothek
 
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainOriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainETH-Bibliothek
 
Tracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDsTracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDsETH-Bibliothek
 
Persistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCSPersistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCSETH-Bibliothek
 
Building Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDsBuilding Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDsETH-Bibliothek
 
DataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying KnowledgeDataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying KnowledgeETH-Bibliothek
 
Bilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und TricksBilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und TricksETH-Bibliothek
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenETH-Bibliothek
 
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...ETH-Bibliothek
 
Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?ETH-Bibliothek
 
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....ETH-Bibliothek
 
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen GlobusCitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen GlobusETH-Bibliothek
 
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-BibliothekFORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-BibliothekETH-Bibliothek
 
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...ETH-Bibliothek
 
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek „Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek ETH-Bibliothek
 
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...ETH-Bibliothek
 
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...ETH-Bibliothek
 
The ETH Zurich DOI Desk
The ETH Zurich DOI Desk The ETH Zurich DOI Desk
The ETH Zurich DOI Desk ETH-Bibliothek
 

Mais de ETH-Bibliothek (20)

17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
 
ETH Zurich's DOI Desk
ETH Zurich's DOI DeskETH Zurich's DOI Desk
ETH Zurich's DOI Desk
 
10 YearsDOI Desk at ETH Zurich
10 YearsDOI Desk at ETH Zurich10 YearsDOI Desk at ETH Zurich
10 YearsDOI Desk at ETH Zurich
 
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainOriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
 
Tracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDsTracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDs
 
Persistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCSPersistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCS
 
Building Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDsBuilding Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDs
 
DataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying KnowledgeDataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying Knowledge
 
Bilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und TricksBilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und Tricks
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
 
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
 
Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?
 
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
 
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen GlobusCitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
 
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-BibliothekFORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
 
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
 
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek „Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
 
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...
Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanrei...
 
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...
Die Research Collection der ETH Zürich - Ein Repositorium für Publikationen u...
 
The ETH Zurich DOI Desk
The ETH Zurich DOI Desk The ETH Zurich DOI Desk
The ETH Zurich DOI Desk
 

Último (6)

Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.
 
Religion_Unterrichtsstunde zum Kölner Dom.pdf
Religion_Unterrichtsstunde zum Kölner Dom.pdfReligion_Unterrichtsstunde zum Kölner Dom.pdf
Religion_Unterrichtsstunde zum Kölner Dom.pdf
 
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUE
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUEChemie (B.Sc.) und Water Science (B.Sc.) uni DUE
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUE
 
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg EssenBetriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
 
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-EssenWirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
 
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_EssenAngewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
 

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung, Erkennung und Suche in historischen Dokumenten

  • 1. Transkribus Eine Forschungsplattform für die automatisierte Digitalisierung, Erkennung und Suche in historischen Dokumenten Günter Mühlberger Universität Innsbruck, Digitisation and Digital Preservation Group
  • 2. Agenda • Einleitung • Technologie • Resultate • Transkribus – Expert client • Transkribus – Plattform • Sharing is caring oder die Zukunft von Transkribus
  • 4.
  • 5. READ - Transkribus • Fakten und Zahlen • Horizon 2020 Projekt der Europäischen Kommission • 8,2 mill. EUR Förderung • Projektdauer: 1.1.2016 – 30.6.2019 • 14 Partner, koordiniert von der Universität Innsbruck • Schwerpunkte • Research: 60% - Pattern Recognition, Machine Learning, Computer Vision,… • Netzwerkbildung: 20% - Wissenschaftliche Wettbewerbe, Workshops, Support,… • Service: 20% - Aufbau einer Serviceplattform • Serviceplattform: Transkribus • Digitalisierung, Transkription, Erkennung von und Suche in historischen Dokumenten ermöglichen • Forschungsinfrastruktur
  • 9.
  • 10. und kluge Veranstaltung/des Käyserl.General Feld=Marschall Lieutnants innere seyn mögte und ob die eingereichte. Druck. ‫הע‬ ‫להם‬ ‫אכפת‬ ‫מה‬ ‫וכי‬ ‫נורי‬ ‫בן‬ ‫יוחנן‬
  • 12. Fortschritte im READ Projekt – seit 2016 Dataset SPRNN (=2016) HTR+ (e2017) HTR+(e2018) StAZH 14,48* Bozen Ratsprotokolle (24,39) • All figures as CER – Character Error Rate • No dictionaries Source: CITLab team
  • 13. Fortschritt 2017 (nicht implementiert) Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018) StAZH 14,48* 4,45 Bozen Ratsprotokolle (24,39) 6,70 • All figures as CER – Character Error Rate • Source: CITLab team
  • 14. Fortschritt Ende 2018 (implementiert) Dataset SPRNN 2016 HTR+ (e2017) HTR+(e2018) StAZH 19th C. 14,48* 4,45 2,97 Bozen 17th C. (24,39) 6,70 4,89 • All figures as CER – Character Error Rate • Source: CITLab team
  • 16. Zeilenerkennung • Zu Beginn des Projekts “die” Herausforderung • Komplexes Layout • Viele verschiedene Texttypen • Tabellen • Schmutz, Ränder, Durchscheinen, Streichungen, Zeichnungen, Separatoren, Buchschmuck,… • Erfolgsgeschichte • Neue Methoden: Machine Learning • Representatives und gut ausgewähltes Datensetz (2000 Seiten von verschiedenen Archiven und Zeitepochen) • Offshore Firma zur Erstellung des “Ground Truth” (100.000+ Zeilen manuell eingezeichnet) • Wissenschaftlicher Wettbewerb: ICDAR 2017 • Forschungsdaten sind auf ZENODO verfügbar: cBAD • Beste Lösung kommt von der Uni Rostock, Citlab Team
  • 17.
  • 18.
  • 19.
  • 21. Konzilsprotokolle • Universität Greifswald, Beschlüsse • Spätes 18. Jahrhundert, deutsche Kurrentschrift • Ein Schreiber • Trainingset: 35.743 Wörter = 182 Seiten • Character Error Rate (CER) am Testset = 3,1% (ohne Wörterbuch) • Word Error Rate (CER) am Testset = 13,1% (ohne Wörterbuch)
  • 22.
  • 23. Für diese Seite: CER = 2,2% / WER = 10,3% (mit Wörterbuch)
  • 24. Mittelalterliche Schriften • Kooperation mit Dominique Stuetzmann und CNRS (Institut de recherche et d'histoire des textes) Paris • HIMANIS Projekt • Viele verschiedene Schreiber • Französisch und Latein • Trainingset: 550.381 Wörter oder 1197 Seiten • CER am Testset = 6,4% • WER am Testset = 22,1%
  • 25.
  • 26.
  • 27.
  • 28. Für diese Seite: CER = 6,02 / WER = 19,6 (ohne Wörterbuch)
  • 29. Gedruckter Text - Zeitungen • Wiener Diarium – in Kooperation mit Österreichischer Akademie der Wissenschaften • Zeitung aus dem 18. Jhd. • Bitonale Scans • Trainingset: 179.997 Wörter oder 345 Seiten • CER am Testset = 0,81 • WER am Testset = 3,02  Vergleichbare Ergebnisse mit NZZ Modell – für ca. 160 Jahre (1780 – 1940 1 Titelseite pro Jahr – insg. 167 Titelseiten) – CER am Testset: 0,47% – impresso Projekt
  • 30.
  • 31.
  • 32. Für diese Seite: CER = 0,6 / WER = 3,0% (ohne Wörterbuch)
  • 33. Layout Analyse und automatisierte Texterkennung für historische Dokumente zeigen exzellente Resultate für gedruckte Schriften und gute bis sehr gute Ergebnisse für handschriftliche Dokumente.
  • 35. Keyword Spotting (KWS) • Hintergrund • Neuronale Netze liefern mehr als nur den reinen Text • Sogenannte Konfidenztabellen • Keyword Spotting • Eine effiziente Methode um diese Konfidenztabellen für die Suche nutzbar zu machen • Der Benutzer kann selbst entscheiden wie tief er gehen möchte • Geht es darum rasch “etwas” zu finden – oder ein bestimmtes Wort – z.B. einen Familiennamen – sicher in einem Dokument zu entdecken
  • 36. Quelle: Gundram Leifert Beispiel: Konzilsprotokolle Konfidenzwerte: 0,5 = braune Linie 0,2 = blaue Linie
  • 37.
  • 38.
  • 40.
  • 41.
  • 42.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 52. Transkribus User Konferenzen – 2017 + 2018
  • 53. 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 2015 2016 2017 2018 Registrierte Benutzer in Transkribus
  • 54. Woche vom 4. April bis 11. April 2019 • Images Uploaded by users: 98166 • New Users : 344 • Active Users / Unique Logins : 890 • Created Documents: 866 • Exported Documents: 230 • Layout Analysis Jobs: 1745 • HTR Jobs : 943
  • 55. Trainingsdaten • Jänner 2019 • 228 HTR Modelle von Transkribus Benutzern trainiert worden • Trainingsdaten insg. in Transkribus (Februar 2019) • Seiten: 204.359 • Wörter: 21.200.035 • Ungefähr 120 Personenjahre an Arbeit • Monetärer Wert: ca. 2-3 Mill. EUR
  • 56. Sharing is caring oder die Zukunft von Transkribus
  • 57. Transkribus Zukunft • Projekt endet mit 30. Juni 2019 • Allerdings ist die Nachfrage schon heute so groß, dass der Weiterbetrieb der Plattform bis Ende 2020 und darüber hinaus gesichert ist • EU Projekt NewsEye (2018-2021) • DFG Projekt Greifswald (2019-2020) • Projekt mit Nationalarchiv Finland (2019) • Projekt mit Nationalarchiv Niederlande (2019-2020) • Leuchtturmprojekt Tirol (2019-2020) • Projekt mit Trinity College Dublin (2019-2021) • Projekt mit Staatsarchiv Zürich (2019-2020) • Und weitere in Vorbereitung…
  • 58.
  • 59. Software… …will come and go, data will remain!
  • 60. Warum nicht ein Geschäftsmodell entwickeln, in dem die Forschungsdaten – hier also das Wissen um historische Schriften und Dokumente – im Mittelpunkt stehen? Und das auf dem Gedanken der Zusammenarbeit und des Teilens beruht?
  • 61. European Cooperative Society (SCE) • Kooperative - Genossenschaft • Ermöglicht die Zusammenarbeit unabhängiger Institutionen um ein gemeinsames Ziel zu erreichen • Verteilte Eigentümerschaft und das Teilen von Daten stehen im Mittelpunkt • Wichtige Eigenschaften einer SCE • Offen für neue Mitglieder, geringe Hürde: 1000 EUR Anteil als Minimum • Demokratische Konstitution: Verwaltungsrat - Generalversammlung • Direkter Vorteil für Mitglieder als Ziel – kein Shareholder Value • Kunden werden Eigentümer, Eigentümer werden Kunden • Subskriptionsgebühren und servicebasierte Gebühren
  • 62. Derzeitiger Stand • Statuten • Weitgehend fertig gestellt • Verwaltungsrat wird in den nächsten Wochen geformt • Gründungsakt soll vor dem Sommer stattfinden • Gründungsmitglieder • Universität Innsbruck, Universität Greifswald, Technische Universität Valencia, National Archiv Finland, British Library, Universitätsbibliothek Belgrade, Diözesan Archiv Passau, Universität Rostock, ZAMG Wien, Geneanet Frankreich, etc.. • Jede Institution, die mit Transkribus arbeiten möchte, ist herzlich eingeladen mitzumachen!
  • 63. Vielen Dank für die Aufmerksamkeit Weitere Informationen https://read.transkribus.eu/ https://transkribus.eu/ https://read.transkribus.eu/coop/ This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 674943.