1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Entscheidungsfindung in der Digitalisierung
durch experimentelle Workflow-Entwicklung
Sven Schlarb, Austrian National Library
IMPACT Demo Day
München, 11. Oktober 2011
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR: Herausforderungen …
I. Bildvorverarbeitung und OCR
2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR: Herausforderungen …
II. Linguistische Nachbearbeitung (Gemischte Sprachen, Historische
Varianten, etc.)
Beispiel: Historische Varianten des Niederländischen Worts ‘wereld’
(Welt):
werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt
wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels
zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts
werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts
werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled
3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
… und eine Vielfalt an Lösungen
22 verschiedene ‘Werkzeuge’ von verschiedenen Entwicklern und
aus unterschiedlichen Work Packages
Unterschiedliche technische Umgebungen:
– OCR (C++, C#),
– Bildverarbeitung & Lexika (C, C++, DLL),
– Kommandozeilenprogramme (Windows/Linux),
– Java, Ruby, PHP, Perl, etc.
IMPACT Interoperability Framework (IIF)
4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Technische Herausforderungen
Skalierbarkeit
– Umfang der Eingabedaten (Einzelne Seiten / tausende
Bücher/Zeitungen)
– Größe der Eingabedaten (z.B. sehr hochauflösende Bilder)
Stabilität
– Parallelisierung – Geklonte Knoten → Gleiches Verhalten?
– Failover – Alternative Knoten bei Fehlern
– Korrekte Funktionsweise der Einzelkomponenten
Transparenz
– Verständliche Fehlermeldungen während der Stapelverarbeitung
auf den verschiedenen Architekturebenen (Werkzeug-, Service-,
Workflowebene)
5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Experimentelle Workflow-Entwicklung
Beispieldaten online verfügbar → Reproduzierbarkeit
Workflows unmittelbar ausführbar → Vergleichbarkeit
Workflow-Entwicklung als eine gemeinsame, institutionsübergreifende
Aktivität → Annotation, Bewertung
„Auf-einen-Blick“-Darstellung des Workflows
Auffindbarkeit von Komponenten und Workflows, und Workflow-
Fragmenten
Zentraler Ergebnisdatenspeicher
6
7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Interoperability Framework
Interoperabilität vs. Integration
Web-basiert vs. lokale Applikation/Plattform
Java 6
Apache Tomcat
Apache Axis2
Apache Synapse (optional)
Taverna Workflow Engine
7
8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Tool Wrapper
Anforderung: Werkzeug als Kommandozeilenprogramm verfügbar
Tool wrapper code im Github Repository der Open Planets Foundation
(OPF) verfügbar:
https://github.com/openplanets/scape/tree/master/xa-toolwrapper
Minimaler Integrationsaufwand für Werkzeug-Entwickler
8
9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Service Oriented Architecture
Java als
Programmiersprache
Standard Apache
Komponenten
Synapse als Enterprise
Service Bus (load
balancing & fail over)
HTTPS Verschlüsselung
& Basic Auth
Minimaler Aufwand für das Komponenten-Deployment
9
10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Verknüpfung von Einzelkomponenten zu einem
„Workflow“
10
11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflow-Entwicklung
OCR workflow =
Datenverarbeitungspipeline
Komponenten =
Verarbeitungsschritte(knoten)
11
12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflow-Komponenten
“Basic” workflow = Minimal-Komponente für ein IMPACT-Werkzeug
Gut dokumentiert, Beispieldaten vorhanden, ausführbar
13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflow Management
Komponenten-Verzeichnis: myExperiment
Localer Client: Taverna Workbench
Web Client: Projekt Website
13
14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflow-Verzeichnis
Komponenten und
Workflows
veröffentlichen
Bewerten, Taggen,
Kommentieren, ...
Verweise auf
verwendete
Komponenten und
Workflows anderer
Nutzer
15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Komponenten-Katalog?
Viele Fehler unterlaufen, weil Anforderungen an Eingabe- und
Ausgabedaten nicht ausreichend spezifiziert (formalisiert!) sind.
GetImageFromURL Tool
Input and output
URL String RGB Image binary image, Bitonal image Bitonal image
but incompatible
How to find the corresponding tool?
RGB Image Bitonal image
How to proceed in case of a Gap?
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Local client: Taverna Workbench
Hintergrund:
Bioinformatik
Entwickelt von
myGrid, Manchester
Verfügbar für
Windows/Linux/OSX
als Open Source
http://www.taverna.org.uk/
17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflowentwicklung in Taverna
Workflows lassen sich
einfach aus
verfügbaren
Komponenten und
Workflows erstellen
(drag and drop)
Hinweis: Komplexität
limitiert →
Zusammengehörende
Arbeitsschritte in
Komponente
zusammenfassen
17
18.
19.
20.
21.
22.
23.
24. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Web client: Taverna Server/
Workflow Parser
SOAP/REST API
Entfernte Workflowausführung durch Übergabe der XML-Instanz
25. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Use case: Workflows für die Evaluation
Werkzeug A vs. Werkzeug B (Werkzeug A(v1) vs Werkzeug A(v2))
Workflow X (Werkzeug A + B) vs Workflow Y (Werkzeug A + C)
Optimaler Workflow mit Bezug auf das Quellmaterial ermitteln
25
26. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Zentraler Ergebnisdatenspeicher
Schnittstelle zur Speicherung von Ergebnisdaten (WebDAV) und zur
Berichterstellung (Apache POI) als Workflow-Modul realisiert
26
27. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Workflows in laufenden Projekten
Workflows in der Digitalisierung IMPACT
Workflows in der Linguistischen Analyse CLARIN
Workflows in der Langzeitarchivierung SCAPE
Und viele mehr ...
27
28. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Kompatibilität der Workflow-Frameworks
Beispiel: UIMA ↔ Taverna
Eigennamenextraktion → Linguistische Analyse → Semantic Web
Digitalisierung, OCR → Langzeitarchivierung
28
29. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Danke! Fragen?