SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
Europeana Newspapers -
Evaluierung und Qualitätskontrolle
Information Day SBB
Berlin, 28 Februar 2014
Clemens Neudecker, KB, Twitter: @cneudecker
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 2
Übersicht
• Qualitätskontrolle in Digitalisierungsprojekten
• Besondere Herausforderungen bei der Digitalisierung von Zeitungen
• Digitalisierungsworkflows und Qualitätskontrolle
• Das PAGE Evaluierungsframework
• Ground truth
• Tools
• Layoutanalyse
• Lesefluss
• Textgenauigkeit
• Was tun mit den Ergebnissen?
• Zusammenfassung und Ausblick
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 3
Qualitätskontrolle in Digitalisierungsprojekten
• Planung
• Machbarkeit
• Prioritäten
• Kosten, Zeitaufwand, manuelle Schritte
• Services, Dateiformate
• Umsetzung
• Aufsetzen des Workflows
• Aufspüren von “Bottlenecks”
• Optimierung der Prozessschritte
• Kontrolle
• Qualität der OCR
Performance Analyse:
Gründliche Analyse aller
Prozessschritte –
was trägt wie zur Qualität bei?
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Herausforderungen für Zeitungen
• Anzahl Zeichen pro Seite sehr hoch
• Mehrere Spalten
• Unterschiedlichste Typen von Regionen
• Lesefluss
• Komplexe Layouts
• Abbildungen
• Tabellen
• Werbung
• Schlechte Papierqualität
• Oft von Mikrofilm gescannt
• …
4
Quelle: NLF
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Digitalisierungsworkflows und Qualitätskontrolle
5
① Scannen
② (Bild-)vorverarbeitung
Doppelseiten aufsplitten
Rand entfernen/Ausschneiden
Geraderücken
Entfernen von Artefakten (Noise)
Binarisierung
③ Layoutanalyse
Segmentierung in Regionen,
Zeilen, Wörter und Zeichen
Klassifizierung von Regionen
Analyse der logischen Struktur
④ Zeichenerkennung (OCR)
⑤ Nachverarbeitung
•Einzelne
Prozessschritte vs.
gesamter Workflow
•Direkt vs. indirekt
•Basierend auf realen
Nutzungsszenarien
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Das PAGE Evaluierungsframework
6
Evaluation
Tools
Image
Repository
Evaluation
Results
Compatibility through
one common format
(PAGE)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Ground Truth
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Tools zur Erstellung von Ground Truth
8
• Aletheia
• Seitenrand, Satzspiegel
• Regionen (inkl. Typ)
• Zeilen, Wörter und Glyphen
• Unicode text
• Lesefluss, Layer etc.
• FineReader Engine
Exporter (Preproduction)
• GT Validator
• GT Converter/Normaliser
http://www.primaresearch.org/tools
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Layoutanalyse
9
Miss / Part.
Miss
Split
Misclass-
ification
Merge
False
Detection
Fehlerkategorien Ground truth OCR
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Lesefluss
10
Ground
truth
OCR
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Textgenauigkeit
11
• Vergleich von Ground Truth und durch OCR erkanntem Text unter Berücksichtigung des
Textencoding (ASCII, Unicode)
• Normalisierung
• Zeichengenauigkeit
• Distance measure: Minimale Anzahl von Edits (insertions, deletions, substitutions)
• Für alle Klassen von Zeichen (lower case, upper case, whitespace characters,
numbers, symbols)
• Wortgenauigkeit
• Korrekt erkannte Wörter vs. Gesamtanzahl Wörter
• Bag of words (index, ranking)
• Stop words und non-stop words (“und”, “in”, etc.)
• Rejected and suspicious characters/words
• Substitutionsfehler (höher gewichtet)
• OCR confidence ≠ accuracy
“OCR is cool”  “OOR is cod”
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Was tun mit den Ergebnissen?
12
• Kriterien
• Min. Anforderungen erfüllt?
• Anzahl und Klassen von Fehlern
• Szenarien
• Anwendung / Kontext
• Gewichtung von Fehlern
Miss
Misclass.
Merge
Split
False
detect.
Merge
Rate
M1
M2
M3
Split
Rate
S1 S2
...
Error
Rate
• Gesamtergebnis / Aggregation
• gewichtete Einzelergebnisse
• Typ und Umfang der falschen
Regionen
• Erlaubte vs. nicht-erlaubte Fehler
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 13
Zusammenfassung und Ausblick
• Gute und gründliche Evaluierung kostet Zeit und Geld…
• Festlegen der Qualitätsanforderungen (in Abhängigkeit von Nutzungsszenarien)
• Erstellen von Ground Truth (hoher manueller Aufwand)
• Durchführen der Evaluierung
• Interpretation der Ergebnisse
• …aber nur auf diesem Weg lassen sich wirklich verlässliche
Aussagen zur Qualität der Layout- und Textgenauigkeit treffen!
• Das IMPACT Centre of Competence
kann Ihnen dabei helfen: www.digitisation.eu
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 14
Weiterführende Informationen
PRImA
www.primaresearch.org
Europeana Newspapers
www.europeana-newspapers.eu
Danke für die Aufmerksamkeit!
Noch Fragen?
clemens.neudecker@kb.nl

Mais conteúdo relacionado

Destaque

Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámEuropeana Newspapers
 
Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...Europeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013Europeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Utilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper CollectionsUtilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper CollectionsEuropeana Newspapers
 
Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013Europeana Newspapers
 

Destaque (11)

Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
 
Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...
 
EunewsLDN_Christa_Müller
EunewsLDN_Christa_MüllerEunewsLDN_Christa_Müller
EunewsLDN_Christa_Müller
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013
 
ENP Belgrade WS OLR @ CCS
ENP Belgrade WS OLR @ CCSENP Belgrade WS OLR @ CCS
ENP Belgrade WS OLR @ CCS
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newspapers Project
Europeana Newspapers ProjectEuropeana Newspapers Project
Europeana Newspapers Project
 
Utilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper CollectionsUtilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper Collections
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013
 

Semelhante a Europeana Newspapers German Infoday Quality Assessment

Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognitioncneudecker
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancencneudecker
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heuteUserZoom Deutschland
 
C4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance LeadingC4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance LeadingAndreas Schulte
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
SharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftSharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftDavid Schneider
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGVMware Tanzu
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienGeorg Rehm
 
Wearables, Smartphones & Co. im Unternehmenseinsatz
Wearables, Smartphones & Co. im UnternehmenseinsatzWearables, Smartphones & Co. im Unternehmenseinsatz
Wearables, Smartphones & Co. im UnternehmenseinsatzChristian Sauter
 
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...Lena Königsberger
 
DI Stephanie Langer (PL·O·T)
DI Stephanie Langer (PL·O·T)DI Stephanie Langer (PL·O·T)
DI Stephanie Langer (PL·O·T)Agenda Europe 2035
 
AG Softwaretechnik
AG SoftwaretechnikAG Softwaretechnik
AG SoftwaretechnikRoland M
 
Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Praxistage
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Thilo Stadelmann
 
Webanalyse-Methoden zur Optimierung von Onlinehilfe
Webanalyse-Methoden zur Optimierung von OnlinehilfeWebanalyse-Methoden zur Optimierung von Onlinehilfe
Webanalyse-Methoden zur Optimierung von OnlinehilfeAxel Regnet
 

Semelhante a Europeana Newspapers German Infoday Quality Assessment (20)

Enp lft infoday_neudecker
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudecker
 
Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognition
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute
 
C4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance LeadingC4 Lotusday2008 Distance Leading
C4 Lotusday2008 Distance Leading
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
SharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftSharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die Zukunft
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AG
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
Wearables, Smartphones & Co. im Unternehmenseinsatz
Wearables, Smartphones & Co. im UnternehmenseinsatzWearables, Smartphones & Co. im Unternehmenseinsatz
Wearables, Smartphones & Co. im Unternehmenseinsatz
 
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...
Welche Prototyping-Methode passt zu meinen Anforderungen? – World Usability D...
 
DI Stephanie Langer (PL·O·T)
DI Stephanie Langer (PL·O·T)DI Stephanie Langer (PL·O·T)
DI Stephanie Langer (PL·O·T)
 
E Government Weiterbildung
E Government WeiterbildungE Government Weiterbildung
E Government Weiterbildung
 
AG Softwaretechnik
AG SoftwaretechnikAG Softwaretechnik
AG Softwaretechnik
 
Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
 
Webanalyse-Methoden zur Optimierung von Onlinehilfe
Webanalyse-Methoden zur Optimierung von OnlinehilfeWebanalyse-Methoden zur Optimierung von Onlinehilfe
Webanalyse-Methoden zur Optimierung von Onlinehilfe
 

Mais de Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers
 

Mais de Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 
Europeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday Bolioli
 
ENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillemsENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillems
 
ENP_Dutch_Infoday_LWilms
ENP_Dutch_Infoday_LWilmsENP_Dutch_Infoday_LWilms
ENP_Dutch_Infoday_LWilms
 
ENP_Dutch_Infoday_PHuijnen
ENP_Dutch_Infoday_PHuijnen ENP_Dutch_Infoday_PHuijnen
ENP_Dutch_Infoday_PHuijnen
 
ENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizingaENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizinga
 

Europeana Newspapers German Infoday Quality Assessment

  • 1. Europeana Newspapers - Evaluierung und Qualitätskontrolle Information Day SBB Berlin, 28 Februar 2014 Clemens Neudecker, KB, Twitter: @cneudecker
  • 2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2 Übersicht • Qualitätskontrolle in Digitalisierungsprojekten • Besondere Herausforderungen bei der Digitalisierung von Zeitungen • Digitalisierungsworkflows und Qualitätskontrolle • Das PAGE Evaluierungsframework • Ground truth • Tools • Layoutanalyse • Lesefluss • Textgenauigkeit • Was tun mit den Ergebnissen? • Zusammenfassung und Ausblick
  • 3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3 Qualitätskontrolle in Digitalisierungsprojekten • Planung • Machbarkeit • Prioritäten • Kosten, Zeitaufwand, manuelle Schritte • Services, Dateiformate • Umsetzung • Aufsetzen des Workflows • Aufspüren von “Bottlenecks” • Optimierung der Prozessschritte • Kontrolle • Qualität der OCR Performance Analyse: Gründliche Analyse aller Prozessschritte – was trägt wie zur Qualität bei?
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Herausforderungen für Zeitungen • Anzahl Zeichen pro Seite sehr hoch • Mehrere Spalten • Unterschiedlichste Typen von Regionen • Lesefluss • Komplexe Layouts • Abbildungen • Tabellen • Werbung • Schlechte Papierqualität • Oft von Mikrofilm gescannt • … 4 Quelle: NLF
  • 5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Digitalisierungsworkflows und Qualitätskontrolle 5 ① Scannen ② (Bild-)vorverarbeitung Doppelseiten aufsplitten Rand entfernen/Ausschneiden Geraderücken Entfernen von Artefakten (Noise) Binarisierung ③ Layoutanalyse Segmentierung in Regionen, Zeilen, Wörter und Zeichen Klassifizierung von Regionen Analyse der logischen Struktur ④ Zeichenerkennung (OCR) ⑤ Nachverarbeitung •Einzelne Prozessschritte vs. gesamter Workflow •Direkt vs. indirekt •Basierend auf realen Nutzungsszenarien
  • 6. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Das PAGE Evaluierungsframework 6 Evaluation Tools Image Repository Evaluation Results Compatibility through one common format (PAGE)
  • 7. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ground Truth 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Tools zur Erstellung von Ground Truth 8 • Aletheia • Seitenrand, Satzspiegel • Regionen (inkl. Typ) • Zeilen, Wörter und Glyphen • Unicode text • Lesefluss, Layer etc. • FineReader Engine Exporter (Preproduction) • GT Validator • GT Converter/Normaliser http://www.primaresearch.org/tools
  • 9. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Layoutanalyse 9 Miss / Part. Miss Split Misclass- ification Merge False Detection Fehlerkategorien Ground truth OCR
  • 10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Lesefluss 10 Ground truth OCR
  • 11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Textgenauigkeit 11 • Vergleich von Ground Truth und durch OCR erkanntem Text unter Berücksichtigung des Textencoding (ASCII, Unicode) • Normalisierung • Zeichengenauigkeit • Distance measure: Minimale Anzahl von Edits (insertions, deletions, substitutions) • Für alle Klassen von Zeichen (lower case, upper case, whitespace characters, numbers, symbols) • Wortgenauigkeit • Korrekt erkannte Wörter vs. Gesamtanzahl Wörter • Bag of words (index, ranking) • Stop words und non-stop words (“und”, “in”, etc.) • Rejected and suspicious characters/words • Substitutionsfehler (höher gewichtet) • OCR confidence ≠ accuracy “OCR is cool”  “OOR is cod”
  • 12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Was tun mit den Ergebnissen? 12 • Kriterien • Min. Anforderungen erfüllt? • Anzahl und Klassen von Fehlern • Szenarien • Anwendung / Kontext • Gewichtung von Fehlern Miss Misclass. Merge Split False detect. Merge Rate M1 M2 M3 Split Rate S1 S2 ... Error Rate • Gesamtergebnis / Aggregation • gewichtete Einzelergebnisse • Typ und Umfang der falschen Regionen • Erlaubte vs. nicht-erlaubte Fehler
  • 13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13 Zusammenfassung und Ausblick • Gute und gründliche Evaluierung kostet Zeit und Geld… • Festlegen der Qualitätsanforderungen (in Abhängigkeit von Nutzungsszenarien) • Erstellen von Ground Truth (hoher manueller Aufwand) • Durchführen der Evaluierung • Interpretation der Ergebnisse • …aber nur auf diesem Weg lassen sich wirklich verlässliche Aussagen zur Qualität der Layout- und Textgenauigkeit treffen! • Das IMPACT Centre of Competence kann Ihnen dabei helfen: www.digitisation.eu
  • 14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14 Weiterführende Informationen PRImA www.primaresearch.org Europeana Newspapers www.europeana-newspapers.eu
  • 15. Danke für die Aufmerksamkeit! Noch Fragen? clemens.neudecker@kb.nl