O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

430 visualizações

Publicada em

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

Publicada em: Tecnologia
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Seja a primeira pessoa a gostar disto

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  1. 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  2. 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  3. 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  4. 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  5. 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  6. 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  7. 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  8. 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  9. 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  10. 10. Layoutanalyse • Artikel, Überschriften, Abbildungen, …
  11. 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  12. 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  13. 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  14. 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  15. 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  16. 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  17. 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker

×