2. 04/16/14 |Carsten Schulze | S. 2
Inhalt
Hintergrund
Struktur von Zeitungen
Unterschiede zu anderen Publikationsformen
Welche Metadaten können entstehen?
Volltexte und die Besonderheiten bei Zeitungen
TEI vs. ALTO
state of the art in der SBB
Projekte und Umsetzungen
state of the art in der Welt
Vorbild Historic Australian Newspapers
Ausblick
Wie kommen Wir dort hin? (Der wirkliche Sinn von METS)
Unsere Fragen
3. 04/16/14 |Carsten Schulze | S. 3
Struktur von Zeitungen
Merkmale:
Erscheinungsweise „in kurzen periodischen Zeitspannen,
mindestens einmal wöchentlich, öffentlich erscheint“
Aktualität (zeitnahe Berichterstattung)
Periodizität (regelmäßiges Erscheinen)
Publizität (öffentlich für alle Leser zugänglich)
Universalität (inhaltliche Vielfalt)
4. 04/16/14 |Carsten Schulze | S. 4
Struktur von Zeitungen II
Typen
regionale überregionale
generisch Berliner Zeitung DIE ZEIT
regionale Ausgaben TAZ „Hamburg“ Neues Deutschland
„Berlin-Ausgabe“
mit Regionalteil /
Lokalteil
Märkische Allgemeine FAZ
5. 04/16/14 |Carsten Schulze | S. 5
Struktur von Zeitungen III
Inhalt
Kopf
"erste" Seite
Buch (kann durch MD schlecht beschrieben werden)
Rubrik (z.B. "aus aller Welt")
Subrubriken (z.B. "Brasilien")
Fließtext (zumeist Artikel)
Bilder / Grafiken, Tabellen
Impressum
6. 04/16/14 |Carsten Schulze | S. 6
Unterschied zu anderen Publikationsformen
Muss nicht sequentiell gelesen werden
Mehrere nicht zusammenhänge Texte auf einer Seite
Texte unter Umständen auf nicht aufeinander folgenden
Seiten verteilt
Autoreninitialien werden zumeist nicht aufgelöst
Werbung
8. 04/16/14 |Carsten Schulze | S. 8
Welche Metadaten können entstehen? II
Weitere Metadaten:
Subrubriken
Zusätze zur Artikelüberschrift
Kategorien von Inhalten:
News (aus Politik, Kultur, Sport usw. auch Leserbriefe)
Anzeigen (z.B. Todes- und Geburtsanzeigen etc.)
Werbung
Listen, Resultate und Programme (z.B. Aktienstände,
Fernsehprogramm oder Kreuzworträtsel)
Bilder und Grafiken (auch Cartoons)
Was sind die „Significant Properties“?
Was ist (in zweihundert Jahren) wichtig?
Wie tief soll erschlossen werden?
Was können wir uns leisten?
11. 04/16/14 |Carsten Schulze | S. 11
TEI vs. ALTO
TEI ALTO
Beschreibung Framework bestehend aus
unterschiedlichen Modulen
für bestimmte
Einsatzzwecke.
XML-Schema zur
Beschreibung von Layout
und Inhalt von OCR-
generiertem Text
enthält deskriptive Metadaten im
TEI-Header
Text-Markup bis auf
Zeilenebene
Links auf Images des
enstprechenden Textes
und vieles, vieles mehr...
Technische Metadaten
im des OCR-Prozesses
Fonts und Schriftgrößen
Text-Markup mit
Koordinaten bis auf
Wortebene
das war‘s
14. 04/16/14 |Carsten Schulze | S. 14
TEI vs. ALTO IV
STYLES
Fonts,
Schriftgrößen
ALTO
Layout
Description
(technische
MD)
Page TextBlock I
TextLine I
String
TextLine II
String
String
String
String
String
String
String
String
TextBlock II TextLine I
TextLine II
ComposedBlock
ComposedBlock
16. 04/16/14 |Carsten Schulze | S. 16
Projekte und Umsetzung I
Zeitungsinformationssystem ZEFYS
zwei Digitalisierungsprojekte
1. Zeitungsdigitalisierung durch DoD
2. Digitalisierung durch externe + Volltexterkennung durch BIT Alpha
dadurch zwei verschiedene Ausgangslagen:
1. METS ohne inhaltliche Strukturierung
2. Inhaltliche Struktur ohne METS
25. 04/16/14 |Carsten Schulze | S. 25
Wie kommen Wir dort hin?
Zaubertwort: Repository
Aufbau von Fez/Fedora durch Frau Lange
Wir brauchen METS nicht zum Selbstzweck
METS als SIP und DIP für Repositorien
KANN zur Darstellung von Digitalisaten verwendet werden (DFG-
Viewer)
Ist aber eher zum Austausch oder als internes Verwaltungsformat
gedacht!!!
Ich brauche keinen komplizierten METS-Container mit PREMIS-
Daten, um im Volltext zu recherchieren und ein Image anzuzeigen
URI, die auf einzelne Zeitungsseiten/Artikel verweisen, sind nur
schwer mit METS zu vereinbaren -> Repository liefert das gleich
mit
ABER: Wir brauchen METS für die LZA und den Transport zwischen
Systemen
26. 04/16/14 |Carsten Schulze | S. 26
Wie kommen Wir dort hin? II
Digitalisierungsprojekte laufen JETZT!
Wir müssen JETZT wissen, welche
Metadaten wir brauchen
Metadatenformate wir brauchen
Wir müssen JETZT wissen, was wir mit unseren Metadaten
machen wollen!
Wir brauchen JETZT ein Repository!
Repository, Metadaten und Formate sind eine Einheit, die
zusammen geplant werden müssen
27. 04/16/14 |Carsten Schulze | S. 27
Unsere Fragen
Welches Repository verwenden wir?
Wir sollten nur eins verwenden
Wie müssen unsere METS-Container aufgebaut sein, um
unsere Daten ohne Verlust in das Repository einzuspielen
Brauchen wir ein METS-SBB-Profil?
oder halten wir uns an das ZVDD-Profil?
Profil muss zum Repository kompatibel sein (z.B. Fedora METS)
METS/ALTO oder TEI?
Durch laufende Projekte werden schnell Tatsachen geschaffen, die
schwer wieder rückgängig zu machen sind
Was sind die Significant Properties?
29. Vielen Dank für Ihre Aufmerksamkeit!
Carsten Schulze
carsten.schulze@sbb.spk-berlin.de
Notas do Editor
Merkmale bedingen zu erstellende Metadaten
Grobe Kategorien, die aufgesplittet werden können
Einfache Struktur eines TEI-Dokuments
Klassifizierung nach Literaturart
Bestandteile werden inhaltlich erschlossen
Metadaten und Volltext ein einem Dokument
Bis auf Zeilenebene
Unsere Ausgangssituation:
METS-Container nach ZVDD-Profil
Erlaubt uns die Anzeige im DFG-Viewer
Allerdings spärliche Metadaten
The Australian Newspapers Digitisation Program will initially be digitising approximately 3 million pages over 4 years, starting in July 2007
vereint standardisierte Metadaten und volle Retrieval und Anzeigeoptionen
Verbundprojekt möglich durch Standardisierung
Alle australischen Bibliotheken können beitragen