SlideShare uma empresa Scribd logo
1 de 11
SUB OCR Implementierung

GOOBI – Steuerungsgremium, 23.9.2011, Berlin
     Christian Mahnke, SUB Göttingen
Anforderungen Prozesssteuerung

• Synchrone Bearbeitung
  – Webservice
  – GUI (Metadateneditor)
• Asynchrone Bearbeitung
  – Massenverarbeitung (Ganze Bände)
  – Benachrichtigungen
  – Fortschrittsinformationen
• Gemeinsam
  – Prioritäten
Anforderungen Implementierung

• Austauschbarkeit der OCR-Engines
  – Kosten und Qualität
  – Auslastung und Lastverteilung
  – Flexibilität bei existierenden Lizenzen
  – Evaluierung
• Prozessmetadaten
  – Prozessdokumentation für LZA
  – Statistische Auswertungen (z.B. zur
    Erkennung von Fraktur, aber auch als
    Methode der automatischen QA)
Gesamtarchitektur


            Goobi

Frontend   Metadaten
            editor
                                CLI
                                            IMPACT
                                           Webservice




API                     Prozessmetadaten API

                              OCR API




Backend      Abbyy
           Recognitio
            n Server
                             Abbyy CLEI        Tesseract
API Schichten
• OCR API
   – Bilddatei
   – Sprache / Schrift
   – Ausgabeformat
   – Priorität
   – Implementierungsspezifische Parameter
• Prozessmetadaten API
   – Erkennungsrate (Zeichen- und Wortebene)
   – Dauer
   – Genutzte Software
   – Encoding / Zeilenumbrüche
   – Implementierungsspezifische Berichte
Architektur Abbyy Recognition Server
               Backend

                      Thread Pool
Prozesssteuerung       Executor
                                           Hazelcast Executor




Prozessverwaltung               TicketBeans




                                                    Apache

Storage              Sardine
                    (WebDAV)
                                    Jackrabbit     Commons
                                                     VFS
Technische Details

• Freie Rekombinierbarkeit von Frontend-
  Modulen mit jedem Backend-Modul
• Wiring der Komponenten via Spring
• Kombinationen lassen sich als Maven Profile
  abbilden
• Serialisierung der Prozessmetadaten über
  textMD (LZA geeignet)
• Hazelcast erlaubt ein Clustering der Instanzen,
  z.B. zur Synchronisation von unterschiedlichen
  Prioritäten
//TODO
• Konvertierung als Teil der API
   – Backend für existierende Dateien
• OCROpus Backend
• WebDAV Frontend (in Teilen bereits für Unit Tests
  realisiert)
• EoD Backend über FTP (asynchron)
• Webservice Backend (Anbindung IMPACT CoC Tools)
• Persistenz der Warteschlange(n)
   – Derzeit nur im Hazelcast Cluster Modus, solange
     eine Instanz läuft
• GUI?
   – Empfehlung: direkte Integration in die
     Workflowsteuerung
Goobi Integration (geplant Ende 2011)

• Bereitstellung als „Automatischer Schritt“
   – Integration über Kommandozeile
• Anpassung der existierenden Workflows und
  Vorgänge notwendig
   – Anpassung über „GoobiScript“?
• Zusätzliche METS „FileGroup“ etc.
   – Keine Änderung an UGH Bibliothek
     notwendig
• Metadateneditor Integration als eigenes Servlet
• Nachteil: Abhängig von der jeweiligen Institution
Goobi Integration (zukünftig)

• „Modul“?
• Schnittstelle dafür noch nicht ganz vorhanden
   – Schnittstelle sowohl als Goobi Schritt als
     auch im Metadateneditor notwendig
Vielen Dank!


       Fragen?
mahnke@sub.uni-goettingen.de



                               11

Mais conteúdo relacionado

Destaque

Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersichtcmahnke
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el plenoEnrique Cornejo Quea
 
As Melhores Piscinas
As Melhores PiscinasAs Melhores Piscinas
As Melhores Piscinasguest9e8cc9
 
Bibforge
BibforgeBibforge
Bibforgecmahnke
 
Lista de deputados que assinaram CPI do MST
Lista de deputados que assinaram CPI do MSTLista de deputados que assinaram CPI do MST
Lista de deputados que assinaram CPI do MSTJamildo Melo
 
Proceso de toma de desiciones
Proceso de toma de desicionesProceso de toma de desiciones
Proceso de toma de desicionesAngel Zaruma
 
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!Claudia Musekamp
 
E-Learning im Unternehmen einführen
E-Learning im Unternehmen einführenE-Learning im Unternehmen einführen
E-Learning im Unternehmen einführenClaudia Musekamp
 
OCR Renderfarmen und TEI
OCR Renderfarmen und TEIOCR Renderfarmen und TEI
OCR Renderfarmen und TEIcmahnke
 
Development Toolbox
Development ToolboxDevelopment Toolbox
Development Toolboxcmahnke
 
Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.Mathias Richel
 
El diagnóstico de comunicación diseño de proyectos
El diagnóstico de  comunicación diseño de proyectosEl diagnóstico de  comunicación diseño de proyectos
El diagnóstico de comunicación diseño de proyectosVanessa Ortega
 
Lindas imagens5
Lindas imagens5Lindas imagens5
Lindas imagens5valmarques
 
Impulsreferat - Marketing bei der Heilsarmee
Impulsreferat - Marketing bei der HeilsarmeeImpulsreferat - Marketing bei der Heilsarmee
Impulsreferat - Marketing bei der HeilsarmeeEnigma
 

Destaque (20)

Basisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus EntwicklersichtBasisinfrastruktur aus Entwicklersicht
Basisinfrastruktur aus Entwicklersicht
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
 
Discalculia
DiscalculiaDiscalculia
Discalculia
 
As Melhores Piscinas
As Melhores PiscinasAs Melhores Piscinas
As Melhores Piscinas
 
Wiki presentación
Wiki presentaciónWiki presentación
Wiki presentación
 
Bibforge
BibforgeBibforge
Bibforge
 
Lista de deputados que assinaram CPI do MST
Lista de deputados que assinaram CPI do MSTLista de deputados que assinaram CPI do MST
Lista de deputados que assinaram CPI do MST
 
Proceso de toma de desiciones
Proceso de toma de desicionesProceso de toma de desiciones
Proceso de toma de desiciones
 
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!
BVOB: MOOC - Offenes, vernetztes zielführendes Lernen?!
 
E-Learning im Unternehmen einführen
E-Learning im Unternehmen einführenE-Learning im Unternehmen einführen
E-Learning im Unternehmen einführen
 
OCR Renderfarmen und TEI
OCR Renderfarmen und TEIOCR Renderfarmen und TEI
OCR Renderfarmen und TEI
 
Development Toolbox
Development ToolboxDevelopment Toolbox
Development Toolbox
 
Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.Onlinewahlkampf - Die fünf letzten Gebote.
Onlinewahlkampf - Die fünf letzten Gebote.
 
El diagnóstico de comunicación diseño de proyectos
El diagnóstico de  comunicación diseño de proyectosEl diagnóstico de  comunicación diseño de proyectos
El diagnóstico de comunicación diseño de proyectos
 
Lindas imagens5
Lindas imagens5Lindas imagens5
Lindas imagens5
 
Tema1
Tema1Tema1
Tema1
 
Evolución de la tecnología
Evolución de la tecnologíaEvolución de la tecnología
Evolución de la tecnología
 
Impulsreferat - Marketing bei der Heilsarmee
Impulsreferat - Marketing bei der HeilsarmeeImpulsreferat - Marketing bei der Heilsarmee
Impulsreferat - Marketing bei der Heilsarmee
 
Guia 4 guerlin
Guia 4 guerlinGuia 4 guerlin
Guia 4 guerlin
 
Similitudes
Similitudes Similitudes
Similitudes
 

Semelhante a SUB OCR Implementierung

Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Ideen Goobi Storage API
Ideen Goobi Storage APIIdeen Goobi Storage API
Ideen Goobi Storage APIcmahnke
 
Was kommt nach den SPAs
Was kommt nach den SPAsWas kommt nach den SPAs
Was kommt nach den SPAsQAware GmbH
 
SaaS Web 2.0 Prozessmanagement
SaaS Web 2.0 ProzessmanagementSaaS Web 2.0 Prozessmanagement
SaaS Web 2.0 ProzessmanagementBjoern Reinhold
 
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a Service
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a ServiceProzessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a Service
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a ServiceGBS PAVONE Groupware GmbH
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 
MEAN SCS in der Cloud
MEAN SCS in der CloudMEAN SCS in der Cloud
MEAN SCS in der CloudTorsten Fink
 
Performanter, hochskalierbarer Web 2.0-Dienst in Ruby
Performanter, hochskalierbarer Web 2.0-Dienst in RubyPerformanter, hochskalierbarer Web 2.0-Dienst in Ruby
Performanter, hochskalierbarer Web 2.0-Dienst in Rubyvesparun
 
Ist GraphQL das bessere REST
Ist GraphQL das bessere RESTIst GraphQL das bessere REST
Ist GraphQL das bessere RESTMartin Abraham
 
Aktivitaetenmanagement SaaS, Aktivitaeten SaaS, Aktivitaetenmanagement Softw...
Aktivitaetenmanagement SaaS,  Aktivitaeten SaaS, Aktivitaetenmanagement Softw...Aktivitaetenmanagement SaaS,  Aktivitaeten SaaS, Aktivitaetenmanagement Softw...
Aktivitaetenmanagement SaaS, Aktivitaeten SaaS, Aktivitaetenmanagement Softw...GBS PAVONE Groupware GmbH
 
Google Web Toolkit
Google Web ToolkitGoogle Web Toolkit
Google Web ToolkitTorben Brodt
 
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?adesso AG
 
Bernhard Wick - appserver.io - code.talks 2015
 Bernhard Wick - appserver.io - code.talks 2015 Bernhard Wick - appserver.io - code.talks 2015
Bernhard Wick - appserver.io - code.talks 2015AboutYouGmbH
 
SaaS Web 2.0 Aktivitaetenmanagement
SaaS Web 2.0 AktivitaetenmanagementSaaS Web 2.0 Aktivitaetenmanagement
SaaS Web 2.0 AktivitaetenmanagementBjoern Reinhold
 

Semelhante a SUB OCR Implementierung (20)

Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Ideen Goobi Storage API
Ideen Goobi Storage APIIdeen Goobi Storage API
Ideen Goobi Storage API
 
Was kommt nach den SPAs
Was kommt nach den SPAsWas kommt nach den SPAs
Was kommt nach den SPAs
 
SaaS Web 2.0 Prozessmanagement
SaaS Web 2.0 ProzessmanagementSaaS Web 2.0 Prozessmanagement
SaaS Web 2.0 Prozessmanagement
 
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a Service
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a ServiceProzessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a Service
Prozessmanagement SaaS, Workflow Management SaaS, Prozesse Software as a Service
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
GWT
GWTGWT
GWT
 
MEAN SCS in der Cloud
MEAN SCS in der CloudMEAN SCS in der Cloud
MEAN SCS in der Cloud
 
Performanter, hochskalierbarer Web 2.0-Dienst in Ruby
Performanter, hochskalierbarer Web 2.0-Dienst in RubyPerformanter, hochskalierbarer Web 2.0-Dienst in Ruby
Performanter, hochskalierbarer Web 2.0-Dienst in Ruby
 
Ist GraphQL das bessere REST
Ist GraphQL das bessere RESTIst GraphQL das bessere REST
Ist GraphQL das bessere REST
 
Api services
Api servicesApi services
Api services
 
imatics FormEngine
imatics FormEngineimatics FormEngine
imatics FormEngine
 
Aktivitaetenmanagement SaaS, Aktivitaeten SaaS, Aktivitaetenmanagement Softw...
Aktivitaetenmanagement SaaS,  Aktivitaeten SaaS, Aktivitaetenmanagement Softw...Aktivitaetenmanagement SaaS,  Aktivitaeten SaaS, Aktivitaetenmanagement Softw...
Aktivitaetenmanagement SaaS, Aktivitaeten SaaS, Aktivitaetenmanagement Softw...
 
connector-de
connector-deconnector-de
connector-de
 
Google Web Toolkit
Google Web ToolkitGoogle Web Toolkit
Google Web Toolkit
 
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
 
JBoss ESB
JBoss ESBJBoss ESB
JBoss ESB
 
2011 09-09 activiti
2011 09-09 activiti2011 09-09 activiti
2011 09-09 activiti
 
Bernhard Wick - appserver.io - code.talks 2015
 Bernhard Wick - appserver.io - code.talks 2015 Bernhard Wick - appserver.io - code.talks 2015
Bernhard Wick - appserver.io - code.talks 2015
 
SaaS Web 2.0 Aktivitaetenmanagement
SaaS Web 2.0 AktivitaetenmanagementSaaS Web 2.0 Aktivitaetenmanagement
SaaS Web 2.0 Aktivitaetenmanagement
 

SUB OCR Implementierung

  • 1. SUB OCR Implementierung GOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  • 2. Anforderungen Prozesssteuerung • Synchrone Bearbeitung – Webservice – GUI (Metadateneditor) • Asynchrone Bearbeitung – Massenverarbeitung (Ganze Bände) – Benachrichtigungen – Fortschrittsinformationen • Gemeinsam – Prioritäten
  • 3. Anforderungen Implementierung • Austauschbarkeit der OCR-Engines – Kosten und Qualität – Auslastung und Lastverteilung – Flexibilität bei existierenden Lizenzen – Evaluierung • Prozessmetadaten – Prozessdokumentation für LZA – Statistische Auswertungen (z.B. zur Erkennung von Fraktur, aber auch als Methode der automatischen QA)
  • 4. Gesamtarchitektur Goobi Frontend Metadaten editor CLI IMPACT Webservice API Prozessmetadaten API OCR API Backend Abbyy Recognitio n Server Abbyy CLEI Tesseract
  • 5. API Schichten • OCR API – Bilddatei – Sprache / Schrift – Ausgabeformat – Priorität – Implementierungsspezifische Parameter • Prozessmetadaten API – Erkennungsrate (Zeichen- und Wortebene) – Dauer – Genutzte Software – Encoding / Zeilenumbrüche – Implementierungsspezifische Berichte
  • 6. Architektur Abbyy Recognition Server Backend Thread Pool Prozesssteuerung Executor Hazelcast Executor Prozessverwaltung TicketBeans Apache Storage Sardine (WebDAV) Jackrabbit Commons VFS
  • 7. Technische Details • Freie Rekombinierbarkeit von Frontend- Modulen mit jedem Backend-Modul • Wiring der Komponenten via Spring • Kombinationen lassen sich als Maven Profile abbilden • Serialisierung der Prozessmetadaten über textMD (LZA geeignet) • Hazelcast erlaubt ein Clustering der Instanzen, z.B. zur Synchronisation von unterschiedlichen Prioritäten
  • 8. //TODO • Konvertierung als Teil der API – Backend für existierende Dateien • OCROpus Backend • WebDAV Frontend (in Teilen bereits für Unit Tests realisiert) • EoD Backend über FTP (asynchron) • Webservice Backend (Anbindung IMPACT CoC Tools) • Persistenz der Warteschlange(n) – Derzeit nur im Hazelcast Cluster Modus, solange eine Instanz läuft • GUI? – Empfehlung: direkte Integration in die Workflowsteuerung
  • 9. Goobi Integration (geplant Ende 2011) • Bereitstellung als „Automatischer Schritt“ – Integration über Kommandozeile • Anpassung der existierenden Workflows und Vorgänge notwendig – Anpassung über „GoobiScript“? • Zusätzliche METS „FileGroup“ etc. – Keine Änderung an UGH Bibliothek notwendig • Metadateneditor Integration als eigenes Servlet • Nachteil: Abhängig von der jeweiligen Institution
  • 10. Goobi Integration (zukünftig) • „Modul“? • Schnittstelle dafür noch nicht ganz vorhanden – Schnittstelle sowohl als Goobi Schritt als auch im Metadateneditor notwendig
  • 11. Vielen Dank! Fragen? mahnke@sub.uni-goettingen.de 11