1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Kollaborative Korrektur
Doris Škarić, Bayerische Staatsbibliothek, Münchener Digitalisierungszentrum/Digitale Bibliothek
11.10.2011
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Agenda
Definition
State-of-the-Art
IMPACT-Tool zur Kollaborativen Korrektur
– Demonstration des CONCERT-Tools
– Erfahrungsbericht
– Nutzen für Bibliotheken
11.10.2011 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Was ist kollaborative Korrektur?
Kollaborativ: mehrere Personen arbeiten gemeinsam an einem Projekt, hier:
Textkorrekturen
Crowdsourcing: “kollaborative Leistungserbringung durch Freiwillige”
Reihenfolge im Digitalisierungsprozess: nach automatischer Texterkennung
11.10.2011 3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Wieso Textkorrekturen?
V.a. bei historischen Material (keine normierte Rechtschreibung…) führt alleinige
Anwendung von OCR-Software zu oft nicht ausreichender Erkennungsrate
Fehlerhafte Erkennung von Fraktur, z.B. langes s wird als f erkannt, z.B. Bifchof,
Befatzungen…
einzelne fehlerhafte Buchstaben führen zu schlechter Worterkennung
Buchstaben, „Signal-“wörter werden nicht erkannt
11.10.2011 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Andere Systeme zur kollaborativen Korrektur
Australian Newspaper Digitisation
Program
ReCaptcha
Mole Hunt
11.10.2011 5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT-Beitrag
CONCERT
– Collaborative eNgine for the CorREction of Texts
– Web-basierte Plattform
– Geeignet für massenhafte Beteiligung von Freiweilligen (Crowdsourcing)
– Ergebnisse der Korrektur werden in den OCR-Prozess eingespeist („Adaptive OCR“)
– Korrektur auf drei Ebenen
– schnelle und effiziente Arbeitsweise
11.10.2011 6
7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Funktionsweise
https://bsbimpact2.bsb.lrz.de:8443/impact
/Concert/Concert-Final.html
11.10.2011 7
8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Pilotphase an der BSB
1-wöchiger Test mit ca. 15 Teilnehmern
Fragestellungen:
– Usability
– Annahme durch Nutzer
– Erkennungsergebnisse
– Einbindung in Digitalisierungsprozess
11.10.2011 8
9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nutzereindrücke
Insgesamt sehr positiv
Nutzerwünsche:
mehr „Nutzermotivation“ und Rückmeldung
Fortschrittsanzeige, Vergleich mit anderen Freiwilligen
manche Wörter werden von der Texterkennung falsch erkannt und dadurch nie zur
manuellen Korrektur vorgelegt bzw. als fragwürdig erkannt
Gothic und Antiqua in einem Text werden nicht erkannt
mehr Metadaten für Bücher
11.10.2011 9
10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Einsatzmöglichkeit für die Bibliotheken
Verbesserung der Volltexte durch Nutzerbeteiligung
Ermöglichung zeitintensiver Korrekturen
schnellere Korrekturen (durch Bibliotheksnutzer oder Dienstleister)
„Kundenbindung“
Verknüpfung des Katalogtitels mit der Korrektursoftware, z.B.: helfen Sie uns den
Volltext dieses Buchs zu verbessern
11.10.2011 10
11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ausblick :
Verbesserung des Bedienkomforts
User Monitoring
Motivierung der Nutzer
Einbindung in Texterkennungs- und Bearbeitungsprozess
Langzeitarchivierung
11.10.2011 11
12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank für Ihre Aufmerksamkeit
Kontakt: doris.skaric@bsb-muenchen.de
11.10.2011 12