SlideShare uma empresa Scribd logo
1 de 50
Baixar para ler offline
Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz  CIS, University of Munich
Fragen, Methoden, Evaluation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Herausforderungen bei der Digitalisierung
Orthografische Variation  ,[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Suche auf historischen Texten   ,[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS K r ä u t e r kra ͤ uter Kreüter kreuter creuther creuter
OCR historischer Texte: gute Qualität S tädte den römischen mumcizmg gleich zu stellen. Allem wenn sich je in  einem Rechtstheile die altrechtlichen teutschen Gewohnheiten, und Gesetze erhalten haben, so ist es gewiß in dieser Lehre, man mag entweder auf die Befugniß, die Stadtgerechtigkeit zu ertheilen , oder auf die innere  Regimentsverfftssung so- BSB IMPACT Workshop 04.03.2010: LMU/CIS
OCR historischer Texte: mittlere Qualität Fürsten zu Gstternwerden/wer wollte vermainen / daßwt IhroKhurftrstl Durchl gnädiglsterHcttVatterinderpictcr rndFrombkcltallmFürstenvorzusetzen!scyn/vnd das halst>  in^cclcQ^ vci pluz^uäzn 5accr6o5 daß tl iN KilchkN GottW  wehr als ein Pries ter . BSB IMPACT Workshop 04.03.2010: LMU/CIS
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],vndExcmpelFürstl-vnd HeroischerTuzenF BSB IMPACT Workshop 04.03.2010: LMU/CIS ^.uglltt.  schreibet/
[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Sprachressourcen zur OCR/IR Verbesserung
[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Sprachressourcen basieren auf Korpora
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Erste Sammlung historischer Korpora
BSB IMPACT Workshop 04.03.2010: LMU/CIS Abdeckung Modernes Lexikon
BSB IMPACT Workshop 04.03.2010: LMU/CIS Anteil Komposita
Korpus basierter Lexikon Aufbau IMPACT ,[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Korpus basierter Lexikon Aufbau IMPACT ,[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
“ Preprocessing” ,[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Normalisierung (UTF-8), Tokenisierung, Frequenzliste ,[object Object],[object Object],[object Object],Varianten Matcher Frq.-Liste der pattern-basierten Varianten Frq.-Liste der „unbekannten“ Varianten
Lexikograph  wählt  ein Wort aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
Pattern Varianten automatisch erzeugt -  Lexikograph bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
Lemma Lesarten automatisch erzeugt –  LexikographIn bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
Lemma Attestate automatisch gesucht-  Lexikograph wählt für die Lesart gültige aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
Resultierende Lexikon Struktur BSB IMPACT Workshop 04.03.2010: LMU/CIS
[object Object],[object Object],[object Object],[object Object],[object Object],Erstellte lexikalische Resourcen BSB IMPACT Workshop 04.03.2010: LMU/CIS
[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Anwendung Lexika 1: Information Retrieval  ,[object Object],[object Object]
Herausforderung für IR auf hist. Texten: Orthografische Variation  ,[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS K r ä u t e r kra ͤ uter Kreüter kreuter creuther creuter
Methoden zur Variantenbehandlung ,[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Automatisches Matching  BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) …
Automatisches Matching  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) …
Automatisches Matching ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil  (= part) teilen  (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile
Automatisches Matching  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte Lemmatizing information … teil  (= part) teilen  (= to share) taille (= waist) fragen (= to ask) Spelling variation theile
Approximate matching procedure ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil  (= part) teilen  (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile
Automatisches Matching ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil  (= part) teilen  (= to share) taille  (= waist) fragen (= to ask) … Spelling variation theile
Automatisches Matching ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen  (= to ask) … Spelling variation frug
Automatisches Matching ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen  (= to ask) … Spelling variation ? frug
Automatisches Matching - Hypothetisches Lexikon ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Manuell validierte Lexika BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil  (= part) teilen  (= to share) taille (= waist) fragen  (= to ask) … Spelling variation theile frug
Manuell validierte Lexika  BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon  Inflected forms … teile ... taille fragte … Lemmatizing information … teil  (= part) teilen  (= to share) taille (= waist) fragen  (= to ask) … Spelling variation theile frug Manual mapping
Manuell validierte Lexika  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Evaluation des hypothetischen Lexikons für ein Suchszenario ,[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Speziell annotiertes IR Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS
Präzision und Recall BSB IMPACT Workshop 04.03.2010: LMU/CIS
Fehlender Recall des hypoth. Lexikons BSB IMPACT Workshop 04.03.2010: LMU/CIS
Anwendung Lexika 2: OCR Erste Experimente zur OCR mit dem IMPACT Abbyy External Dictionary Interface FR9 BSB IMPACT Workshop 04.03.2010: LMU/CIS
Erneut  die Frage: brauchen wir ein historisches Lexikon? ,[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Alignierung zwischen OCR und Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS Mittlere Erkennung Gute Erkennung
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],OCR  Experimente   für Lexikon Settings  BSB IMPACT Workshop 04.03.2010: LMU/CIS
WER > 50% WER ~ 10% BSB IMPACT Workshop 04.03.2010: LMU/CIS Dictionary 16 th  century No. of  word errors Reduction of error rate 18 th  century  No. of  word errors Reduction of error rate 19 th  century  No. of  word errors Reduction of error rate No Lexicon 1306 - 827 - 2074 - Optimal Lexicon 756 42% 395 52% 612 70% Modern Lexicon 1096 16% 501 39% 888 57% W.Historical Lexicon 938 28% 481 42% 856 59% Modern + Virtual H.L. 1011 25% 480 42% 849 59%
Ergebnis: lexikalische Ressourcen für IR/OCR ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Zwischenergebnis  LMU/BSB Studie VD16 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BSB IMPACT Workshop 04.03.2010: LMU/CIS
Ressourcen für Frühneuhochdeutsch Integration der OCR Anbieter  Spezielle Font- und Zeichenmodelle Verbesserung der OCR durch  spezielles VD16 Lexikon Verbesserung der Suche durch  IR Variantenlexikon Linguistische Datenbank für VD16 BSB IMPACT Workshop 04.03.2010: LMU/CIS
BSB IMPACT Workshop 04.03.2010: LMU/CIS Herzlichen Dank.

Mais conteúdo relacionado

Destaque

Widerstandsfähigkeit von Anonymisierungsnetzen
Widerstandsfähigkeit von AnonymisierungsnetzenWiderstandsfähigkeit von Anonymisierungsnetzen
Widerstandsfähigkeit von AnonymisierungsnetzenJens Oberender
 
Intranet 2.0: Neue Formen der Kommunikation im Unternehmen
Intranet 2.0: Neue Formen der Kommunikation im UnternehmenIntranet 2.0: Neue Formen der Kommunikation im Unternehmen
Intranet 2.0: Neue Formen der Kommunikation im UnternehmenCommunardo GmbH
 
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...Communardo GmbH
 
15 Web 2.0 Tools : einfach, praktisch und schnell
15 Web 2.0 Tools : einfach, praktisch und schnell15 Web 2.0 Tools : einfach, praktisch und schnell
15 Web 2.0 Tools : einfach, praktisch und schnellIsabelle Dremeau
 
Computerspiele und Identität
Computerspiele und IdentitätComputerspiele und Identität
Computerspiele und IdentitätJens Holze
 
Kindergarten Journal Measurement
Kindergarten Journal MeasurementKindergarten Journal Measurement
Kindergarten Journal Measurementsusan70
 
ECM Trends 2009-2010
ECM Trends 2009-2010ECM Trends 2009-2010
ECM Trends 2009-2010Guido Schmitz
 
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im ContactcenterEin Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter3cdialog
 
Rechtsverhältnisse und "Dispute Resolution" in Second Life
Rechtsverhältnisse und "Dispute Resolution" in Second LifeRechtsverhältnisse und "Dispute Resolution" in Second Life
Rechtsverhältnisse und "Dispute Resolution" in Second LifeIris Speiser
 
Second Life virtuelle Welten – reale Herausforderungen
Second Life virtuelle Welten – reale HerausforderungenSecond Life virtuelle Welten – reale Herausforderungen
Second Life virtuelle Welten – reale HerausforderungenIris Speiser
 
20150325 Prepare for Impact - CGI Oracle CLOUD event
20150325 Prepare for Impact - CGI Oracle CLOUD event20150325 Prepare for Impact - CGI Oracle CLOUD event
20150325 Prepare for Impact - CGI Oracle CLOUD eventPaulus Veltman
 
UB Bochum - RUB Bibliographie
UB Bochum - RUB BibliographieUB Bochum - RUB Bibliographie
UB Bochum - RUB BibliographieVeronikaJ
 
Stuttgart salon verrückte_stadt_slides02_11-06-03
Stuttgart salon verrückte_stadt_slides02_11-06-03Stuttgart salon verrückte_stadt_slides02_11-06-03
Stuttgart salon verrückte_stadt_slides02_11-06-03Katrin Steglich
 
Kapitel 6: Fundamentale Analyse
Kapitel 6: Fundamentale AnalyseKapitel 6: Fundamentale Analyse
Kapitel 6: Fundamentale Analyseanyoption
 
logi.cals Power Camp 2009
logi.cals Power Camp 2009logi.cals Power Camp 2009
logi.cals Power Camp 2009logi.cals
 
stuttgart|salon: Die ver-rückte Stadt
stuttgart|salon: Die ver-rückte Stadtstuttgart|salon: Die ver-rückte Stadt
stuttgart|salon: Die ver-rückte StadtKatrin Steglich
 

Destaque (20)

Widerstandsfähigkeit von Anonymisierungsnetzen
Widerstandsfähigkeit von AnonymisierungsnetzenWiderstandsfähigkeit von Anonymisierungsnetzen
Widerstandsfähigkeit von Anonymisierungsnetzen
 
Intranet 2.0: Neue Formen der Kommunikation im Unternehmen
Intranet 2.0: Neue Formen der Kommunikation im UnternehmenIntranet 2.0: Neue Formen der Kommunikation im Unternehmen
Intranet 2.0: Neue Formen der Kommunikation im Unternehmen
 
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...
Confluence & JIRA Community Day - PeRM – Professionelles Anforderungs-managem...
 
Forum de
Forum deForum de
Forum de
 
15 Web 2.0 Tools : einfach, praktisch und schnell
15 Web 2.0 Tools : einfach, praktisch und schnell15 Web 2.0 Tools : einfach, praktisch und schnell
15 Web 2.0 Tools : einfach, praktisch und schnell
 
Computerspiele und Identität
Computerspiele und IdentitätComputerspiele und Identität
Computerspiele und Identität
 
Kindergarten Journal Measurement
Kindergarten Journal MeasurementKindergarten Journal Measurement
Kindergarten Journal Measurement
 
Planung von Fischaufstiegen
Planung von FischaufstiegenPlanung von Fischaufstiegen
Planung von Fischaufstiegen
 
ECM Trends 2009-2010
ECM Trends 2009-2010ECM Trends 2009-2010
ECM Trends 2009-2010
 
Apps für Kultureinrichtungen
Apps für KultureinrichtungenApps für Kultureinrichtungen
Apps für Kultureinrichtungen
 
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im ContactcenterEin Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter
Ein Ohr – alle Infos: So kommunizieren Ihre Systeme im Contactcenter
 
Rechtsverhältnisse und "Dispute Resolution" in Second Life
Rechtsverhältnisse und "Dispute Resolution" in Second LifeRechtsverhältnisse und "Dispute Resolution" in Second Life
Rechtsverhältnisse und "Dispute Resolution" in Second Life
 
Parentezco
ParentezcoParentezco
Parentezco
 
Second Life virtuelle Welten – reale Herausforderungen
Second Life virtuelle Welten – reale HerausforderungenSecond Life virtuelle Welten – reale Herausforderungen
Second Life virtuelle Welten – reale Herausforderungen
 
20150325 Prepare for Impact - CGI Oracle CLOUD event
20150325 Prepare for Impact - CGI Oracle CLOUD event20150325 Prepare for Impact - CGI Oracle CLOUD event
20150325 Prepare for Impact - CGI Oracle CLOUD event
 
UB Bochum - RUB Bibliographie
UB Bochum - RUB BibliographieUB Bochum - RUB Bibliographie
UB Bochum - RUB Bibliographie
 
Stuttgart salon verrückte_stadt_slides02_11-06-03
Stuttgart salon verrückte_stadt_slides02_11-06-03Stuttgart salon verrückte_stadt_slides02_11-06-03
Stuttgart salon verrückte_stadt_slides02_11-06-03
 
Kapitel 6: Fundamentale Analyse
Kapitel 6: Fundamentale AnalyseKapitel 6: Fundamentale Analyse
Kapitel 6: Fundamentale Analyse
 
logi.cals Power Camp 2009
logi.cals Power Camp 2009logi.cals Power Camp 2009
logi.cals Power Camp 2009
 
stuttgart|salon: Die ver-rückte Stadt
stuttgart|salon: Die ver-rückte Stadtstuttgart|salon: Die ver-rückte Stadt
stuttgart|salon: Die ver-rückte Stadt
 

Mais de IMPACT Centre of Competence

Mais de IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

Ringlstetter Historische Lexika Impact Workshop MUC

  • 1. Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz CIS, University of Munich
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. OCR historischer Texte: gute Qualität S tädte den römischen mumcizmg gleich zu stellen. Allem wenn sich je in einem Rechtstheile die altrechtlichen teutschen Gewohnheiten, und Gesetze erhalten haben, so ist es gewiß in dieser Lehre, man mag entweder auf die Befugniß, die Stadtgerechtigkeit zu ertheilen , oder auf die innere Regimentsverfftssung so- BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 7. OCR historischer Texte: mittlere Qualität Fürsten zu Gstternwerden/wer wollte vermainen / daßwt IhroKhurftrstl Durchl gnädiglsterHcttVatterinderpictcr rndFrombkcltallmFürstenvorzusetzen!scyn/vnd das halst> in^cclcQ^ vci pluz^uäzn 5accr6o5 daß tl iN KilchkN GottW wehr als ein Pries ter . BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 8.
  • 9.
  • 10.
  • 11.
  • 12. BSB IMPACT Workshop 04.03.2010: LMU/CIS Abdeckung Modernes Lexikon
  • 13. BSB IMPACT Workshop 04.03.2010: LMU/CIS Anteil Komposita
  • 14.
  • 15.
  • 16.
  • 17. Lexikograph wählt ein Wort aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 18. Pattern Varianten automatisch erzeugt - Lexikograph bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 19. Lemma Lesarten automatisch erzeugt – LexikographIn bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 20. Lemma Attestate automatisch gesucht- Lexikograph wählt für die Lesart gültige aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 21. Resultierende Lexikon Struktur BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 22.
  • 23.
  • 24.
  • 25.
  • 26. Automatisches Matching BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) …
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35. Manuell validierte Lexika BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile frug
  • 36. Manuell validierte Lexika BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile frug Manual mapping
  • 37.
  • 38.
  • 39. Speziell annotiertes IR Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 40. Präzision und Recall BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 41. Fehlender Recall des hypoth. Lexikons BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 42. Anwendung Lexika 2: OCR Erste Experimente zur OCR mit dem IMPACT Abbyy External Dictionary Interface FR9 BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 43.
  • 44. Alignierung zwischen OCR und Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS Mittlere Erkennung Gute Erkennung
  • 45.
  • 46. WER > 50% WER ~ 10% BSB IMPACT Workshop 04.03.2010: LMU/CIS Dictionary 16 th century No. of word errors Reduction of error rate 18 th century No. of word errors Reduction of error rate 19 th century No. of word errors Reduction of error rate No Lexicon 1306 - 827 - 2074 - Optimal Lexicon 756 42% 395 52% 612 70% Modern Lexicon 1096 16% 501 39% 888 57% W.Historical Lexicon 938 28% 481 42% 856 59% Modern + Virtual H.L. 1011 25% 480 42% 849 59%
  • 47.
  • 48.
  • 49. Ressourcen für Frühneuhochdeutsch Integration der OCR Anbieter Spezielle Font- und Zeichenmodelle Verbesserung der OCR durch spezielles VD16 Lexikon Verbesserung der Suche durch IR Variantenlexikon Linguistische Datenbank für VD16 BSB IMPACT Workshop 04.03.2010: LMU/CIS
  • 50. BSB IMPACT Workshop 04.03.2010: LMU/CIS Herzlichen Dank.

Notas do Editor

  1. +4999031308