Austrian Books Online - Digitaler Workflow und Access
1. @maxkaiser
Austrian Books Online
Digitaler Workflow und Access
Max Kaiser
Leiter Forschung & Entwicklung
Österreichische Nationalbibliothek
„Nationale Initiativen zur digitalen Information“
Wien, 4. Oktober 2013
39. @maxkaiser
Workflow in ADOCO
Download Datenpaket von Google GRIN via HTTP
Entschlüsseln des Pakets via gnupg
Paket in Verzeichnis entpacken
MD5-Kontrolle aller Dateien (QA)
Ablage in Pairtree-Verzeichnis (NAS Shares)
GRIN-Metadaten mit aktuellem Zeitstempel
aktualisieren
45. @maxkaiser
ÖNB Hadoop-Cluster: Laufender Betrieb
→ Regelmäßige MD5-Prüfsummenkontrolle aller
Dateien
→ Summation sämtlicher Dateigrößen zur
Steuerung der Speicherplanung
→ Abfragen über die METS Metadaten
→ Verteiltes METS-Parsen, Abfragen über HIVE
(HiveQL)
46. @maxkaiser
→Gezielte Experimente mit
Taverna Workflows
→MapReduce in der
Qualitätskontrolle
→Ermittlung von
Kenngrößen in großen
Datenmengen
ONB Hadoop Cluster: Use Cases
Beispiel: JPEG000-Validierung
47. @maxkaiser
→ Bildvergleich zur Analyse von Unterschieden
zweier Versionen eines digitalisierten Buchs
→ z.B. bei Re-Download von Digitalisaten
→ Tool: Matchbox (EU-Projekt SCAPE)
ONB Hadoop Cluster: Bildvergleich
60. @maxkaiser
Verlinkung durch Permalinks
→ Persistente Verlinkung
→ Auflösung über Resolver der ÖNB:
→ Beispiel:
http://data.onb.ac.at/ABO/%2BZ167203406
→ Leitet um auf
http://digital.onb.ac.at/OnbViewer/viewer
.faces?doc=ABO_Z167203406
61. @maxkaiser
ABO Verbund Primo
→ Pro Buch (Barcode)
→ Format der Datenlieferung:
AC02030899 655o L $$mV:AT-OBV;B:AT-
OeNB$$qapplication/html$$uhttp://data.onb
.ac.at/ABO/%2BZ164219105$$xONB-
ABO$$3Volltext
→ Liste als Feed an OBVSG
→ Laden in ca. 30.000er Paketen nach ACC01
→ Über ACC-Pipe PRIMO
69. @maxkaiser
→Volltextsuche in historischen Textquellen
der Österreichischen Nationalbibliothek
→Bücher, Zeitungen, Zeitschriften
→Integration in Quick Search / Primo
→Produktiv seit April 2013
70. @maxkaiser
Volltextindex: aktueller Stand
→ 350.000 Dokumente
→150.000 Bücher
→200.000 Zeitungsausgaben
→ 52 Millionen Seiten
→ 1 Milliarde unterschiedliche Terme
→ Volltextindex 280 GB
95. @maxkaiser
→Mobilversion des Book-Viewers
→Volltext: neue Möglichkeiten für Forschung
→Suche nach Synonymen, Named Entities
(Personen und Orte)
→Linked Data
→Services für „datenzentrierte“ Forschung in
Kultur- und Sozialwissenschaften
→„Digital Humanities“
96. @maxkaiser
→ Tagung:
„Was können und wollen Digital Humanities“
25. Oktober 2013
→ Österreichische Nationalbibliothek
→ http://dhtagungwien.eventbrite.de/