O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen

137 visualizações

Publicada em

Zeitschriften als Netzwerke.
Perspektiven digitaler Erforschung und Darstellung
ZfL Workshop, Berlin, 13.07.2017

Publicada em: Internet
  • Entre para ver os comentários

  • Seja a primeira pessoa a gostar disto

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen

  1. 1. Von der (Zeitungs-)Digitalisierung zu historischen Netzwerken: Methoden und Herausforderungen Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz clemens.neudecker@europeana-newspapers.eu Zeitschriften als Netzwerke Perspektiven digitaler Erforschung und Darstellung Berlin, 13.07.2017
  2. 2. Europeana Newspapers • EU-Projekt (2012 - 2015) http://www.europeana-newspapers.eu/ • Ziele: – Entwicklung eines gemeinsamen europäischen Portals für digitalisierte historische Zeitungen: http://www.theeuropeanlibrary.org/tel4/newspapers – Nachweis von > 20 Mio. Seiten digitalisierter historischer Zeitungen in der Europeana – Volltexterkennung (OCR) von > 10 Mio. Seiten digitalisierter historischer Zeitungen
  3. 3. Europeana Newspapers (2014 – 2017)
  4. 4. Titelsuche
  5. 5. Kalendersuche
  6. 6. Volltextsuche
  7. 7. Anzeige
  8. 8. Europeana Newspapers (2018 - ?)
  9. 9. Volltexterkennung (OCR) • Volltexterkennung (Optical Character Recognition, OCR) dient der Umwandlung von Bildern (Scans) in editierbare und durchsuchbare elektronische Texte
  10. 10. Herausforderungen
  11. 11. Evaluation 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language 79.1% 62.2% 55.9% 58.8% 94.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Keyword search Phrase search Access via content structure Print/ebook on demand Content based image retrieval SuccessRate(harmonic,areabased) Evaluation Profile Layout Analysis Performance Per evaluation profile  Ca. 20% Fehlerrate Wortgenauigkeit  Ca. 20% Fehlerrate Layouterkennung
  12. 12. Named Entity Recognition (NER) • Analyse der Benutzung der digitalisierten Zeitungen der National Library of Wales - 9/10 Suchanfragen sind Personen oder Orte (Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, Digital Humanities 2014, Lausanne)
  13. 13. Named Entity Recognition (NER) • Named Entity Recognition (NER) dient der Erkennung und Klassifikation von Entitäten in Texten/Dokumenten • Typische Anwendungsfälle: Person, Ort, Organisation, Ereignis, Zeit
  14. 14. Evaluation Personen Orte Organisationen Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671  Ca. 5% Fehlerrate Genauigkeit  Ca. 35% Fehlerrate Erkennung
  15. 15. Herausforderungen • Qualität der Volltexte/OCR • Sprachabhängig (im Projekt: Deutsch, Französisch, Niederländisch) • Historische Ortsnamen, Schreibvarianten – Przemyśl, Peremyschl, Premissel • Ambiguität – z.B. – „Der Reichskanzler“ (Identifikation – wer/wann?) – „Jordan“ (Klassifikation – Ort? Person?)
  16. 16. Named Entity Disambiguation • Auflösen der Ambiguität über Kontext (nicht immer vorhanden), z.B. – „Der Reichskanzler“ + Zeitung aus 1880 = Bismarck – „Der Reichskanzler“ + Zeitung aus 1905 = von Bülow – „Jordan“ + „Chicago“ = Michael Jordan – „Jordan“ + „Palästina“ = Jordanien
  17. 17. Named Entity Linking • Verlinkung der Entitäten mit Normdaten erlaubt eindeutige und sprachunabhängige Zuordnung: – „Bismarck“ (Otto von)  Wikidata = Q8442 / GND = 11851136X – „Bismarck“ (Schlachtschiff)  Wikidata = Q150857 / GND = ??? – „Jordan“ (Michael)  Wikidata = Q41421 / GND = 119184486 – „Jordan“ (Land)  Wikidata = Q810 / GND = 040287505
  18. 18. Hypothesen sind Netze, nur der wird fangen, der auswirft. Novalis
  19. 19. Weitere relevante Bestände • Digitalisierte Zeitungen – ZEFYS http://zefys.staatsbibliothek-berlin.de/ • Zeitschriftendatenbank – ZDB http://www.zeitschriftendatenbank.de/ • Kalliope Verbundkatalog – KPE http://kalliope-verbund.info/
  20. 20. ZEFYS
  21. 21. Reprinting Networks • Oceanic Exchanges (Digging Into Data)
  22. 22. Zeitschriftendatenbank • Bezugspunkte: – Personen (Autoren und Herausgeber) – Zeitschriften/Zeitungen – (Erscheinungs-)Orte – Körperschaften (Verlage, Vereinigungen) – Gattungen
  23. 23. http://beta.zdb-katalog.de/title.xhtml?idn=011476532
  24. 24. Kalliope • Bezugspunkte: – Personen (Briefwechsel/Korrespondenzen!) – Körperschaften und Kongresse – Sachschlagwörter – Gattungen/Materialarten – Geographika (Entstehungsorte) – Werktitel
  25. 25. http://kalliope-verbund.info/de/graph?q=ead.genre.gnd="4008240-4" and ead_participant_gnd="118763784"
  26. 26. Nächste Schritte • Verknüpfung von Entitäten in Zeitungen, ZDB, Kalliope und weiteren relevanten Beständen bzw. Projekten (z.B. Berliner Intellektuelle, Social Networks and Archival Context) • Innovative & interaktive Visualisierung(en) • Statistische Abfragen & Auswertungen  DFG-Antrag „Interfaces to Data for Historical Social Network Analysis Research“ (SoNAR)
  27. 27. Vielen Dank für die Aufmerksamkeit! Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz clemens.neudecker@europeana-newspapers.eu

×