SlideShare uma empresa Scribd logo
1 de 9
Baixar para ler offline
Ideen Goobi Storage API

GOOBI – Steuerungsgremium, 23.9.2011, Berlin
     Christian Mahnke, SUB Göttingen
Bestehende Probleme bzw. Vorgaben

• Probleme mir der Anzahl der Unterordner (FS
  Problem - Dresden)
• Storage Anforderungen skalieren schlecht (SAN
  Kosten - Göttingen)
• Archivsystem (LZA - Alle)
High Level Anforderungen
•   Trennung zwischen Speicherbereichen (z.B. Produktions- und
    Archivbereich)
     – Regelbasierte Zuordnung (z.B Zeit, Präfixe für Master etc.)
•   Tiefere Hierarchien (z.B. um FS Limitierungen zu umgehen)
•   Import- / Exportfunktionalität
     – Bereitstellung im Präsentationssystem
     – Bereitstellung auf FTP Server eines Kunden
•   Kein zusätzlicher (oder geringer) Aufwand für Systemadministratoren
    gewünscht
•   Integritätsprüfungen und Ausfallsicherheit, sowie Nachvollziehbarkeit
    notwendig
•   Projektspezifische Konfigurationen (z.B. für zeitkritische Aufträge)
•   Implementierungen von Anforderungen sollten kombinierbar sein
•   Externe Zugriffsverfahren (z.B. via Samba) sollten berücksichtigt werden
     – Externe Applikationen (über CLI, z.B. Jhove(2)) sollen genutzt werden
        können.
Schichten

                                  Samba /       Statistik/
                     Metadaten                                Im- /
Anwendungsebene                   Dateifrei     Dokume                Suche
                      - editor                               Export
                                   - gabe        ntation




                                           Storage API
Storage Verwaltung
                                 Integritäts-
                     Regeln                      Metadaten        Pair Tree
                                   prüfung




Storage                JCR        Akubra          Merritt       Dateisystem
Anforderungen Anwendungsebene

• Transparenter Umgang mit Objekten
• Nutzung von URIs für interne Referenzierung
• Nutzung von Datenströmen (wo möglich)
• Bereitstellung als temporäre Datei für Legacy
  Code und externe Anwendungen (z.B. Samba)
   – Berücksichtigung von Berechtigungen
• Synchrone vs. asynchrone Bereitstellung für
  Nutzer
Anforderungen Storage Verwaltung
• Unterschiedliche Strategien (kombinierbar und
  projektspezifisch)
   – CDL Pair Tree
   – Caches bei Ausfall des unterliegenden Storages
     (schreiben)
   – Generierung von Prozessmetadaten
      • Versionierung für Metadaten
      • Checksummen, ggf. inklusive Integritätsprüfung,
        Transaktionssicherheit
• Unterschiedliche Aktivierungen
   – Manuelle Zuordnung (z.B. Export)
   – Schrittgesteuert (z.B. Archivierung)
   – Erkennung von ungenutzten Daten basierend auf
     Regeln (wie HSM)
Anforderungen Storage
• Unterschiedliche Abstraktionsebenen (Beispiele)
  – Dateisystem
      • Dateien und Verzeichnisse
   – „Objektspeicher“ – z.B. TextGrid
      • Objekte und Kollektionen (Beinhalten jeweils auch
        komplexe Metadaten)
• Unterschiedliche Semantiken (Beispiele)
  – Z.B. Update einer Datei vs. Update eines
    Objekts (s.o)
  – Implizite Versionierung (z.B. kein Löschen
    möglich)
  – Sichtbarkeit vs. Publizierung
Bestehende Vorarbeiten

• Anforderungsdefinition
• Teilweise prototypische Implementierung im
  Rahmen des MassenDigiMathe Projektes für
  Abbyy Server Kommunikation (siehe
  Präsentation OCR)
Vielen Dank!


       Fragen?
mahnke@sub.uni-goettingen.de



                               9

Mais conteúdo relacionado

Semelhante a Ideen Goobi Storage API

Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Agenda Europe 2035
 
Performance-Analyse von Oracle-Datenbanken mit Panorama
Performance-Analyse von Oracle-Datenbanken mit PanoramaPerformance-Analyse von Oracle-Datenbanken mit Panorama
Performance-Analyse von Oracle-Datenbanken mit PanoramaPeter Ramm
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAPmurat9393
 
20111006 roadshow-io-performance
20111006 roadshow-io-performance20111006 roadshow-io-performance
20111006 roadshow-io-performanceWerner Fischer
 
ColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveBokowsky + Laymann GmbH
 
Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersichtcmahnke
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenETH-Bibliothek
 
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für PanoramaOracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für PanoramaPeter Ramm
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
Der File Abstraction Layer
Der File Abstraction LayerDer File Abstraction Layer
Der File Abstraction LayerSteffen Ritter
 
PostgreSQL: Die Freie Datenbankalternative
PostgreSQL: Die Freie DatenbankalternativePostgreSQL: Die Freie Datenbankalternative
PostgreSQL: Die Freie DatenbankalternativePeter Eisentraut
 
Ruby on Rails in a metro session
Ruby on Rails in a metro sessionRuby on Rails in a metro session
Ruby on Rails in a metro sessionVirttoo org
 
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?adesso AG
 
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...Peter Schrey
 
Oracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
Oracle-DB: Systematische Rasterfahndung nach Performance-AntipatternOracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
Oracle-DB: Systematische Rasterfahndung nach Performance-AntipatternPeter Ramm
 
Ist GraphQL das bessere REST
Ist GraphQL das bessere RESTIst GraphQL das bessere REST
Ist GraphQL das bessere RESTMartin Abraham
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 

Semelhante a Ideen Goobi Storage API (20)

Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)
 
Performance-Analyse von Oracle-Datenbanken mit Panorama
Performance-Analyse von Oracle-Datenbanken mit PanoramaPerformance-Analyse von Oracle-Datenbanken mit Panorama
Performance-Analyse von Oracle-Datenbanken mit Panorama
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
 
imatics FormEngine
imatics FormEngineimatics FormEngine
imatics FormEngine
 
20111006 roadshow-io-performance
20111006 roadshow-io-performance20111006 roadshow-io-performance
20111006 roadshow-io-performance
 
ColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep Dive
 
Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersicht
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
 
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für PanoramaOracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Der File Abstraction Layer
Der File Abstraction LayerDer File Abstraction Layer
Der File Abstraction Layer
 
PostgreSQL: Die Freie Datenbankalternative
PostgreSQL: Die Freie DatenbankalternativePostgreSQL: Die Freie Datenbankalternative
PostgreSQL: Die Freie Datenbankalternative
 
Ruby on Rails in a metro session
Ruby on Rails in a metro sessionRuby on Rails in a metro session
Ruby on Rails in a metro session
 
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
 
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
 
Oracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
Oracle-DB: Systematische Rasterfahndung nach Performance-AntipatternOracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
Oracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
 
Notes Sharepoint Migration
Notes Sharepoint MigrationNotes Sharepoint Migration
Notes Sharepoint Migration
 
Ist GraphQL das bessere REST
Ist GraphQL das bessere RESTIst GraphQL das bessere REST
Ist GraphQL das bessere REST
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 

Mais de cmahnke

Tomcat as a service
Tomcat as a serviceTomcat as a service
Tomcat as a servicecmahnke
 
eXist für Editionsprojekte
eXist für EditionsprojekteeXist für Editionsprojekte
eXist für Editionsprojektecmahnke
 
OCR Renderfarmen und TEI
OCR Renderfarmen und TEIOCR Renderfarmen und TEI
OCR Renderfarmen und TEIcmahnke
 
Development Toolbox
Development ToolboxDevelopment Toolbox
Development Toolboxcmahnke
 
Bib Forge
Bib ForgeBib Forge
Bib Forgecmahnke
 
Bibforge
BibforgeBibforge
Bibforgecmahnke
 

Mais de cmahnke (7)

Tomcat as a service
Tomcat as a serviceTomcat as a service
Tomcat as a service
 
eXist für Editionsprojekte
eXist für EditionsprojekteeXist für Editionsprojekte
eXist für Editionsprojekte
 
OCR Renderfarmen und TEI
OCR Renderfarmen und TEIOCR Renderfarmen und TEI
OCR Renderfarmen und TEI
 
Development Toolbox
Development ToolboxDevelopment Toolbox
Development Toolbox
 
Goobi
GoobiGoobi
Goobi
 
Bib Forge
Bib ForgeBib Forge
Bib Forge
 
Bibforge
BibforgeBibforge
Bibforge
 

Ideen Goobi Storage API

  • 1. Ideen Goobi Storage API GOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  • 2. Bestehende Probleme bzw. Vorgaben • Probleme mir der Anzahl der Unterordner (FS Problem - Dresden) • Storage Anforderungen skalieren schlecht (SAN Kosten - Göttingen) • Archivsystem (LZA - Alle)
  • 3. High Level Anforderungen • Trennung zwischen Speicherbereichen (z.B. Produktions- und Archivbereich) – Regelbasierte Zuordnung (z.B Zeit, Präfixe für Master etc.) • Tiefere Hierarchien (z.B. um FS Limitierungen zu umgehen) • Import- / Exportfunktionalität – Bereitstellung im Präsentationssystem – Bereitstellung auf FTP Server eines Kunden • Kein zusätzlicher (oder geringer) Aufwand für Systemadministratoren gewünscht • Integritätsprüfungen und Ausfallsicherheit, sowie Nachvollziehbarkeit notwendig • Projektspezifische Konfigurationen (z.B. für zeitkritische Aufträge) • Implementierungen von Anforderungen sollten kombinierbar sein • Externe Zugriffsverfahren (z.B. via Samba) sollten berücksichtigt werden – Externe Applikationen (über CLI, z.B. Jhove(2)) sollen genutzt werden können.
  • 4. Schichten Samba / Statistik/ Metadaten Im- / Anwendungsebene Dateifrei Dokume Suche - editor Export - gabe ntation Storage API Storage Verwaltung Integritäts- Regeln Metadaten Pair Tree prüfung Storage JCR Akubra Merritt Dateisystem
  • 5. Anforderungen Anwendungsebene • Transparenter Umgang mit Objekten • Nutzung von URIs für interne Referenzierung • Nutzung von Datenströmen (wo möglich) • Bereitstellung als temporäre Datei für Legacy Code und externe Anwendungen (z.B. Samba) – Berücksichtigung von Berechtigungen • Synchrone vs. asynchrone Bereitstellung für Nutzer
  • 6. Anforderungen Storage Verwaltung • Unterschiedliche Strategien (kombinierbar und projektspezifisch) – CDL Pair Tree – Caches bei Ausfall des unterliegenden Storages (schreiben) – Generierung von Prozessmetadaten • Versionierung für Metadaten • Checksummen, ggf. inklusive Integritätsprüfung, Transaktionssicherheit • Unterschiedliche Aktivierungen – Manuelle Zuordnung (z.B. Export) – Schrittgesteuert (z.B. Archivierung) – Erkennung von ungenutzten Daten basierend auf Regeln (wie HSM)
  • 7. Anforderungen Storage • Unterschiedliche Abstraktionsebenen (Beispiele) – Dateisystem • Dateien und Verzeichnisse – „Objektspeicher“ – z.B. TextGrid • Objekte und Kollektionen (Beinhalten jeweils auch komplexe Metadaten) • Unterschiedliche Semantiken (Beispiele) – Z.B. Update einer Datei vs. Update eines Objekts (s.o) – Implizite Versionierung (z.B. kein Löschen möglich) – Sichtbarkeit vs. Publizierung
  • 8. Bestehende Vorarbeiten • Anforderungsdefinition • Teilweise prototypische Implementierung im Rahmen des MassenDigiMathe Projektes für Abbyy Server Kommunikation (siehe Präsentation OCR)
  • 9. Vielen Dank! Fragen? mahnke@sub.uni-goettingen.de 9

Notas do Editor

  1. Diese Folien spiegeln Überlegungen aus dem Zeitraum 10/2009 bis 3/2010 wieder, sie werden inzwischen nicht mehr aktiv verfolgt. Es sind allerdings nachnutzbare Anforderungsdefinitionen vorhanden.
  2. Links: JHove http://hul.harvard.edu/jhove/
  3. Links: Pair Tree: https://confluence.ucop.edu/display/Curation/PairTree JCR: http://www.jcp.org/en/jsr/detail?id=170 Akubra: https://wiki.duraspace.org/display/AKUBRA/Akubra+Project Merritt
  4. Berechtigungen und Eigentümerschaft sind in diesem Modell nur spezielle Metadaten eines Dateisystems Asynchrone Dateioperation werden benötigt, um die Applikation beim Umgang mit großen Datenemengen nicht zu blockieren