SlideShare uma empresa Scribd logo
1 de 29
Metadaten für Zeitungen
AG Metadaten 2009-09-02
Carsten Schulze
04/16/14 |Carsten Schulze | S. 2
Inhalt
 Hintergrund
 Struktur von Zeitungen
 Unterschiede zu anderen Publikationsformen
 Welche Metadaten können entstehen?
 Volltexte und die Besonderheiten bei Zeitungen
 TEI vs. ALTO
 state of the art in der SBB
 Projekte und Umsetzungen
 state of the art in der Welt
 Vorbild Historic Australian Newspapers
 Ausblick
 Wie kommen Wir dort hin? (Der wirkliche Sinn von METS)
 Unsere Fragen
04/16/14 |Carsten Schulze | S. 3
Struktur von Zeitungen
 Merkmale:
 Erscheinungsweise „in kurzen periodischen Zeitspannen,
mindestens einmal wöchentlich, öffentlich erscheint“
 Aktualität (zeitnahe Berichterstattung)
 Periodizität (regelmäßiges Erscheinen)
 Publizität (öffentlich für alle Leser zugänglich)
 Universalität (inhaltliche Vielfalt)
04/16/14 |Carsten Schulze | S. 4
Struktur von Zeitungen II
 Typen
regionale überregionale
generisch Berliner Zeitung DIE ZEIT
regionale Ausgaben TAZ „Hamburg“ Neues Deutschland
„Berlin-Ausgabe“
mit Regionalteil /
Lokalteil
Märkische Allgemeine FAZ
04/16/14 |Carsten Schulze | S. 5
Struktur von Zeitungen III
 Inhalt
 Kopf
 "erste" Seite
 Buch (kann durch MD schlecht beschrieben werden)
 Rubrik (z.B. "aus aller Welt")
 Subrubriken (z.B. "Brasilien")
 Fließtext (zumeist Artikel)
 Bilder / Grafiken, Tabellen
 Impressum
04/16/14 |Carsten Schulze | S. 6
Unterschied zu anderen Publikationsformen
 Muss nicht sequentiell gelesen werden
 Mehrere nicht zusammenhänge Texte auf einer Seite
 Texte unter Umständen auf nicht aufeinander folgenden
Seiten verteilt
 Autoreninitialien werden zumeist nicht aufgelöst
 Werbung
04/16/14 |Carsten Schulze | S. 7
Welche Metadaten können entstehen?
04/16/14 |Carsten Schulze | S. 8
Welche Metadaten können entstehen? II
 Weitere Metadaten:
 Subrubriken
 Zusätze zur Artikelüberschrift
 Kategorien von Inhalten:
 News (aus Politik, Kultur, Sport usw. auch Leserbriefe)
 Anzeigen (z.B. Todes- und Geburtsanzeigen etc.)
 Werbung
 Listen, Resultate und Programme (z.B. Aktienstände,
Fernsehprogramm oder Kreuzworträtsel)
 Bilder und Grafiken (auch Cartoons)
 Was sind die „Significant Properties“?
 Was ist (in zweihundert Jahren) wichtig?
 Wie tief soll erschlossen werden?
 Was können wir uns leisten?
04/16/14 |Carsten Schulze | S. 9
04/16/14 |Carsten Schulze | S. 10
Volltexte und die Besonderheiten bei Zeitungen
04/16/14 |Carsten Schulze | S. 11
TEI vs. ALTO
TEI ALTO
Beschreibung Framework bestehend aus
unterschiedlichen Modulen
für bestimmte
Einsatzzwecke.
XML-Schema zur
Beschreibung von Layout
und Inhalt von OCR-
generiertem Text
enthält deskriptive Metadaten im
TEI-Header
Text-Markup bis auf
Zeilenebene
Links auf Images des
enstprechenden Textes
und vieles, vieles mehr...
Technische Metadaten
im des OCR-Prozesses
Fonts und Schriftgrößen
Text-Markup mit
Koordinaten bis auf
Wortebene
das war‘s
04/16/14 |Carsten Schulze | S. 12
TEI vs. ALTO II
04/16/14 |Carsten Schulze | S. 13
TEI vs. ALTO III
04/16/14 |Carsten Schulze | S. 14
TEI vs. ALTO IV
STYLES
Fonts,
Schriftgrößen
ALTO
Layout
Description
(technische
MD)
Page TextBlock I
TextLine I
String
TextLine II
String
String
String
String
String
String
String
String
TextBlock II TextLine I
TextLine II
ComposedBlock
ComposedBlock
04/16/14 |Carsten Schulze | S. 15
TEI vs. ALTO
ALTO
nlaImageSeq-33386-b.xml
METS
MODS
04/16/14 |Carsten Schulze | S. 16
Projekte und Umsetzung I
 Zeitungsinformationssystem ZEFYS
 zwei Digitalisierungsprojekte
1. Zeitungsdigitalisierung durch DoD
2. Digitalisierung durch externe + Volltexterkennung durch BIT Alpha
 dadurch zwei verschiedene Ausgangslagen:
1. METS ohne inhaltliche Strukturierung
2. Inhaltliche Struktur ohne METS
04/16/14 |Carsten Schulze | S. 17
Projekte und Umsetzung II
04/16/14 |Carsten Schulze | S. 18
Projekte und Umsetzung III
04/16/14 |Carsten Schulze | S. 19
Projekte und Umsetzung IV
04/16/14 |Carsten Schulze | S. 20
Projekte und Umsetzung V
04/16/14 |Carsten Schulze | S. 21
Projekte und Umsetzung VI
ABER
ohne METS ist keine
Artikelsegmentierung möglich
04/16/14 |Carsten Schulze | S. 22
Vorbild Historic Australian Newspapers
04/16/14 |Carsten Schulze | S. 23
Vorbild Historic Australian Newspapers II
04/16/14 |Carsten Schulze | S. 24
Vorbild Historic Australian Newspapers III
04/16/14 |Carsten Schulze | S. 25
Wie kommen Wir dort hin?
 Zaubertwort: Repository
 Aufbau von Fez/Fedora durch Frau Lange
 Wir brauchen METS nicht zum Selbstzweck
 METS als SIP und DIP für Repositorien
 KANN zur Darstellung von Digitalisaten verwendet werden (DFG-
Viewer)
 Ist aber eher zum Austausch oder als internes Verwaltungsformat
gedacht!!!
 Ich brauche keinen komplizierten METS-Container mit PREMIS-
Daten, um im Volltext zu recherchieren und ein Image anzuzeigen
 URI, die auf einzelne Zeitungsseiten/Artikel verweisen, sind nur
schwer mit METS zu vereinbaren -> Repository liefert das gleich
mit
 ABER: Wir brauchen METS für die LZA und den Transport zwischen
Systemen
04/16/14 |Carsten Schulze | S. 26
Wie kommen Wir dort hin? II
 Digitalisierungsprojekte laufen JETZT!
 Wir müssen JETZT wissen, welche
 Metadaten wir brauchen
 Metadatenformate wir brauchen
 Wir müssen JETZT wissen, was wir mit unseren Metadaten
machen wollen!
 Wir brauchen JETZT ein Repository!
 Repository, Metadaten und Formate sind eine Einheit, die
zusammen geplant werden müssen
04/16/14 |Carsten Schulze | S. 27
Unsere Fragen
 Welches Repository verwenden wir?
 Wir sollten nur eins verwenden
 Wie müssen unsere METS-Container aufgebaut sein, um
unsere Daten ohne Verlust in das Repository einzuspielen
 Brauchen wir ein METS-SBB-Profil?
 oder halten wir uns an das ZVDD-Profil?
 Profil muss zum Repository kompatibel sein (z.B. Fedora METS)
 METS/ALTO oder TEI?
 Durch laufende Projekte werden schnell Tatsachen geschaffen, die
schwer wieder rückgängig zu machen sind
 Was sind die Significant Properties?
04/16/14 |Carsten Schulze | S. 28
Vielen Dank für Ihre Aufmerksamkeit!
Carsten Schulze
carsten.schulze@sbb.spk-berlin.de

Mais conteúdo relacionado

Destaque

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destaque (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Metadaten und Zeitungen

  • 1. Metadaten für Zeitungen AG Metadaten 2009-09-02 Carsten Schulze
  • 2. 04/16/14 |Carsten Schulze | S. 2 Inhalt  Hintergrund  Struktur von Zeitungen  Unterschiede zu anderen Publikationsformen  Welche Metadaten können entstehen?  Volltexte und die Besonderheiten bei Zeitungen  TEI vs. ALTO  state of the art in der SBB  Projekte und Umsetzungen  state of the art in der Welt  Vorbild Historic Australian Newspapers  Ausblick  Wie kommen Wir dort hin? (Der wirkliche Sinn von METS)  Unsere Fragen
  • 3. 04/16/14 |Carsten Schulze | S. 3 Struktur von Zeitungen  Merkmale:  Erscheinungsweise „in kurzen periodischen Zeitspannen, mindestens einmal wöchentlich, öffentlich erscheint“  Aktualität (zeitnahe Berichterstattung)  Periodizität (regelmäßiges Erscheinen)  Publizität (öffentlich für alle Leser zugänglich)  Universalität (inhaltliche Vielfalt)
  • 4. 04/16/14 |Carsten Schulze | S. 4 Struktur von Zeitungen II  Typen regionale überregionale generisch Berliner Zeitung DIE ZEIT regionale Ausgaben TAZ „Hamburg“ Neues Deutschland „Berlin-Ausgabe“ mit Regionalteil / Lokalteil Märkische Allgemeine FAZ
  • 5. 04/16/14 |Carsten Schulze | S. 5 Struktur von Zeitungen III  Inhalt  Kopf  "erste" Seite  Buch (kann durch MD schlecht beschrieben werden)  Rubrik (z.B. "aus aller Welt")  Subrubriken (z.B. "Brasilien")  Fließtext (zumeist Artikel)  Bilder / Grafiken, Tabellen  Impressum
  • 6. 04/16/14 |Carsten Schulze | S. 6 Unterschied zu anderen Publikationsformen  Muss nicht sequentiell gelesen werden  Mehrere nicht zusammenhänge Texte auf einer Seite  Texte unter Umständen auf nicht aufeinander folgenden Seiten verteilt  Autoreninitialien werden zumeist nicht aufgelöst  Werbung
  • 7. 04/16/14 |Carsten Schulze | S. 7 Welche Metadaten können entstehen?
  • 8. 04/16/14 |Carsten Schulze | S. 8 Welche Metadaten können entstehen? II  Weitere Metadaten:  Subrubriken  Zusätze zur Artikelüberschrift  Kategorien von Inhalten:  News (aus Politik, Kultur, Sport usw. auch Leserbriefe)  Anzeigen (z.B. Todes- und Geburtsanzeigen etc.)  Werbung  Listen, Resultate und Programme (z.B. Aktienstände, Fernsehprogramm oder Kreuzworträtsel)  Bilder und Grafiken (auch Cartoons)  Was sind die „Significant Properties“?  Was ist (in zweihundert Jahren) wichtig?  Wie tief soll erschlossen werden?  Was können wir uns leisten?
  • 10. 04/16/14 |Carsten Schulze | S. 10 Volltexte und die Besonderheiten bei Zeitungen
  • 11. 04/16/14 |Carsten Schulze | S. 11 TEI vs. ALTO TEI ALTO Beschreibung Framework bestehend aus unterschiedlichen Modulen für bestimmte Einsatzzwecke. XML-Schema zur Beschreibung von Layout und Inhalt von OCR- generiertem Text enthält deskriptive Metadaten im TEI-Header Text-Markup bis auf Zeilenebene Links auf Images des enstprechenden Textes und vieles, vieles mehr... Technische Metadaten im des OCR-Prozesses Fonts und Schriftgrößen Text-Markup mit Koordinaten bis auf Wortebene das war‘s
  • 12. 04/16/14 |Carsten Schulze | S. 12 TEI vs. ALTO II
  • 13. 04/16/14 |Carsten Schulze | S. 13 TEI vs. ALTO III
  • 14. 04/16/14 |Carsten Schulze | S. 14 TEI vs. ALTO IV STYLES Fonts, Schriftgrößen ALTO Layout Description (technische MD) Page TextBlock I TextLine I String TextLine II String String String String String String String String TextBlock II TextLine I TextLine II ComposedBlock ComposedBlock
  • 15. 04/16/14 |Carsten Schulze | S. 15 TEI vs. ALTO ALTO nlaImageSeq-33386-b.xml METS MODS
  • 16. 04/16/14 |Carsten Schulze | S. 16 Projekte und Umsetzung I  Zeitungsinformationssystem ZEFYS  zwei Digitalisierungsprojekte 1. Zeitungsdigitalisierung durch DoD 2. Digitalisierung durch externe + Volltexterkennung durch BIT Alpha  dadurch zwei verschiedene Ausgangslagen: 1. METS ohne inhaltliche Strukturierung 2. Inhaltliche Struktur ohne METS
  • 17. 04/16/14 |Carsten Schulze | S. 17 Projekte und Umsetzung II
  • 18. 04/16/14 |Carsten Schulze | S. 18 Projekte und Umsetzung III
  • 19. 04/16/14 |Carsten Schulze | S. 19 Projekte und Umsetzung IV
  • 20. 04/16/14 |Carsten Schulze | S. 20 Projekte und Umsetzung V
  • 21. 04/16/14 |Carsten Schulze | S. 21 Projekte und Umsetzung VI ABER ohne METS ist keine Artikelsegmentierung möglich
  • 22. 04/16/14 |Carsten Schulze | S. 22 Vorbild Historic Australian Newspapers
  • 23. 04/16/14 |Carsten Schulze | S. 23 Vorbild Historic Australian Newspapers II
  • 24. 04/16/14 |Carsten Schulze | S. 24 Vorbild Historic Australian Newspapers III
  • 25. 04/16/14 |Carsten Schulze | S. 25 Wie kommen Wir dort hin?  Zaubertwort: Repository  Aufbau von Fez/Fedora durch Frau Lange  Wir brauchen METS nicht zum Selbstzweck  METS als SIP und DIP für Repositorien  KANN zur Darstellung von Digitalisaten verwendet werden (DFG- Viewer)  Ist aber eher zum Austausch oder als internes Verwaltungsformat gedacht!!!  Ich brauche keinen komplizierten METS-Container mit PREMIS- Daten, um im Volltext zu recherchieren und ein Image anzuzeigen  URI, die auf einzelne Zeitungsseiten/Artikel verweisen, sind nur schwer mit METS zu vereinbaren -> Repository liefert das gleich mit  ABER: Wir brauchen METS für die LZA und den Transport zwischen Systemen
  • 26. 04/16/14 |Carsten Schulze | S. 26 Wie kommen Wir dort hin? II  Digitalisierungsprojekte laufen JETZT!  Wir müssen JETZT wissen, welche  Metadaten wir brauchen  Metadatenformate wir brauchen  Wir müssen JETZT wissen, was wir mit unseren Metadaten machen wollen!  Wir brauchen JETZT ein Repository!  Repository, Metadaten und Formate sind eine Einheit, die zusammen geplant werden müssen
  • 27. 04/16/14 |Carsten Schulze | S. 27 Unsere Fragen  Welches Repository verwenden wir?  Wir sollten nur eins verwenden  Wie müssen unsere METS-Container aufgebaut sein, um unsere Daten ohne Verlust in das Repository einzuspielen  Brauchen wir ein METS-SBB-Profil?  oder halten wir uns an das ZVDD-Profil?  Profil muss zum Repository kompatibel sein (z.B. Fedora METS)  METS/ALTO oder TEI?  Durch laufende Projekte werden schnell Tatsachen geschaffen, die schwer wieder rückgängig zu machen sind  Was sind die Significant Properties?
  • 29. Vielen Dank für Ihre Aufmerksamkeit! Carsten Schulze carsten.schulze@sbb.spk-berlin.de

Notas do Editor

  1. Merkmale bedingen zu erstellende Metadaten
  2. Grobe Kategorien, die aufgesplittet werden können
  3. Einfache Struktur eines TEI-Dokuments Klassifizierung nach Literaturart Bestandteile werden inhaltlich erschlossen Metadaten und Volltext ein einem Dokument Bis auf Zeilenebene
  4. Unsere Ausgangssituation: METS-Container nach ZVDD-Profil
  5. Erlaubt uns die Anzeige im DFG-Viewer Allerdings spärliche Metadaten
  6. The Australian Newspapers Digitisation Program will initially be digitising approximately 3 million pages over 4 years, starting in July 2007
  7. vereint standardisierte Metadaten und volle Retrieval und Anzeigeoptionen Verbundprojekt möglich durch Standardisierung Alle australischen Bibliotheken können beitragen