Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik

MEHRWERT
DIGITALISIERUNG?
Möglichkeiten einer
Digitalen Diplomatik
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu

Diplomatik = Lehre
von den Urkunden
 Urkunden: schriftlicher Niederschlag von
Rechtshandlungen v. a. im Mittelalter
aber auch der frühen Neuzeit
 Ursprünglicher Zweck war die
Feststellung der Echtheit einer Urkunde
 Untersuchung der äußeren und inneren
Merkmale einer Urkunde
 Im 17. Jhdt. begründet und vor allem ab
dem 19. Jhdt. stark weiterentwickelt
 Methoden sind u.a. Paläographie,
Chronologie, Rechts- und
Verfassungsgeschichte
 Veröffentlichung von Bearbeitungen
(=Editionen) traditionell in gedruckten
Quellensammlungen

Digitalisierung von
Urkunden
 Digitalisierung: Überführung einer
analogen Größe in ein
maschinenlesbares, digitales Format
 Erste Ansätze bei Urkunden in den 1970er
Jahren
 Digitalisierung von optischen sowie
inhaltlichen Informationen (äußere und
innere Merkmale)
 Konkret: Aufnahme eines optischen
Abbilds und der zum Objekt gehörigen
Metadaten (Datum, Aussteller,
Ausstellungsort, Regest, Transkription,
Material, Zustand, etc.)
 Kombination der Daten in einer virtuellen
digitalen Repräsentation, also Bild und
Metadaten gemeinsam

Traditioneller Mehrwert
Maschinenlesbarkeit
Durchsuchen
Vernetzen
Erreichbarkeit
Einbinden in
Datenbanken
Gemeinsames
Arbeiten
Reproduzierbarkeit
Im Unterricht
verwenden
Übertragen in
andere
Kontexte

„Mehr“ Mehrwert?

Beispiel: DEEDS ‒
„Documents of Early
England Data Set“
 Entstanden 1975; Universität Toronto, CA
 Ca. 31 000 lateinische Urkunden vom 9.
bis Ende des 13. Jahrhunderts
 Bereitstellung eines umfangreichen
Textkorpus und detaillierten
Suchmöglichkeiten darin
 Entwicklung von Methoden zur
Datierung, Verortung und Identifikation
von Personen, Sprachmerkmalen und
Zusammenhängen
 Eingesetzt werden computerunterstützte
Technologien aus den Bereichen der
Statistik und Linguistik
Quelle: deeds.library.utoronto.ca

DEEDS datiert
lateinische Urkunden
Beispiel aus dem Stiftsarchiv Schlägl in
Oberösterreich:
Urkunde vom 9. Juli 1218;
http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/
Urkunden/1218_VII_09/charter
(=Pichler, Isfried H., Urkundenbuch des
Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23)
Datierung anhand von Wortmustern auf das
Jahr 1234 bzw. mit 90% Wahrscheinlichkeit
zwischen den Jahren 1218 und 1247.
N: 87
Median: 1233
Min - Max: 1172 - 1284
Q1-Q3: 1226 - 1238
95%: 1202 - 1252
90%: 1218 - 1247
Avg Error: 3 years

Voraussetzungen
Zugang zu den
Originaldaten
Einheitliche
Erschließungsstandards
Gut dokumentiertes
Datenformat
Umfangreiches
Datenmaterial

Praxis: Das Monasterium-Portal und seine
Datenbank MOM-CA
www.monasterium.net

Überblick
 Durchgehende Entwicklung seit 2002
 Online Datenbank mit Bestandsübersicht,
Volltextsuche, und kollaborative
Bearbeitung der Urkunden
 Über 400 000 Urkunden aus dem
Mittelalter und der Frühen Neuzeit
0 200,000 400,000 600,000
OR T E
P E R SONEN
B I LDE R
T RANS K R.
R EGE S T EN
UR KUNDEN

Grundlegende technische Struktur
Backend
•Browserbasiert
•HTML5/JavaScript/XML
•Passives Browsen
•Aktives Bearbeiten
•Kommun. über REST
Frontend
•XML-Datenbank
•Webserver
•Metadaten
•Indizes
•Keine öffentl. Schnittstelle

Datenbank: Aufbau
und Programmierung
 Basierend auf der open source XML-Datenbank
eXist
 Abfragen über xQuery und XPath
 Informationen (unter anderem) über
Archive (EAG-XML), Bestände (EAD-XML)
und Urkunden (CEI-XML)
 eXist verfügt über mehrere, auf Apache -
Lucene aufbauende Indextypen, die
beliebig konfiguriert werden können
 Werkzeuge zum Bearbeiten und
Überwachen der Abfragen
 Möglichkeiten zum Aufbau von
komplexen Anwendungen innerhalb der
Datenbank
 Flexible Bearbeitung innerhalb und
außerhalb der Datenbank möglich

Nachteil: keine
öffentliche
Schnittstelle zur
Datenbank aus
Performancegründen
Aber: die Datenbank ist
vollständig exportierbar
und lässt sich lokal
installieren und beliebig
nutzen

Datenübersicht
75,566
94,686
69,118
700,282
564,221
1,458,948
0 100,000 200,000 300,000 400,000 500,000 600,000 700,000
Ortsnamen
Personennamen
Transkriptionen
Häufigster Ausdruck ("et")
Mehrfach vorkommende Begriffe
Gesamtanzahl der Begriffe

Voraussetzungen
 Vertrautheit mit dem Datenmaterial
(verwendete XML-Schemata,
Datenstruktur etc.)
 Bei komplexen Abfragen genügend
Ausstattung des Computers mit
Arbeitsspeicher (8GB können durchaus
zu wenig sein)
 Klare Zielsetzung um die Abfragen an die
Anforderungen und den zur Verfügung
stehenden Ressourcen entsprechend
effizient zu schreiben

Programm erfolgt ähnlich natürlicher Sprache
Nimm alle Urkunden in der Datenbank …
Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten
Begriffen enthalten und die mit dem Buchstaben „z“ beginnen …
Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten …
Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen …
Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der
Vorkommnisse im Text.

Alle Orte mit Anfangsbuchstabe „z“ in einer
sortierten HTML-Liste

Ergebnis
 Laufzeit der Abfrage etwa 80 Minuten auf
Laptop mit Dual-Core CPU und 16GB RAM
 Liste mit 1864 Begriffen.
Probleme
 Abfragen können in diesem System
schnell zu komplex werden.
 Die Liste bedarf händischer Nacharbeit
um aussagekräftig zu sein (vgl.
Mehrfachnennungen von Orten;
Beispiele: „zwettl“ und „zwetel“ oder
„znojmo“ und „znaim“

„Klassische“
Problemlösungs-strategien
Handarbeit
• Listen werden
manuell kombiniert
• Ähnlichkeiten
werden eliminiert
•Ungenauigkeiten
werden händisch
ausgebessert
Programmierung
• Ergebnisse fließen in
neue Abfragen ein
• Abfragen finden in
mehreren Stufen
statt, Kombination
findet nachträglich
aber automatisch
statt.
Der großen Varianz an sprachlichen,
qualitativen und methodologischen
Eigenheiten der Metadaten wird mit
etablierten Methoden begegnet.

Möglichkeit: semi-automatische
Verbesserung der Metadaten

Beispiel: Ansatz für einen semiautomatischen
Thesaurus
Problem
• Häufig existiert nur
der reine Text einer
Transkription
• Bei der Suche müssen
alle Varianten
berücksichtigt werden
Idealfall
• Personen und Orte
sind im XML-Text
ausgezeichnet

Beispiel: Varianten von Zwettl im Jahr 1352
http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter
Ist-Stand in MOM-CA
• „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“
• „[…] in der stat datz Zwetl. […]“
• „[…] der stat anhangundem insigel datz Zwetel […]“
Idealfall
• „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″
type=″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“
• „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″
type=″Stadt″>Zwetl</placeName>. […]“
• „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″
certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“

Programmkonzept
Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die
Datenbank
Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem
Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen
Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die
nahelegen, dass die Begriffe zusammen gehören
Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen
„placeName“-Elementen, die eine Identifizierung zulassen
Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht

36 Unscharfe Suchergebnisse für „Zwetl“
1. Zwetel; 207
2. Zwetl; 53
3. Zwettl; 36
4. wette; 27
5. Wette; 18
6. zwetel; 14
7. Zwethl; 13
8. weltl; 12
9. Zwetil; 12
10. Zwettel; 10
11. Wetzl; 7
12. Zwéttl; 6
13. Zwettll; 5
14. O; 3
15. zwetil; 2
16. Wetfl; 2
17. Swett; 2
18. güettl; 2
19. Wetel; 2
20. Zwettln; 1
21. Zwetll; 1
22. Çwetel; 1
23. Wetti; 1
24. bettl; 1
25. wetzl; 1
26. Wittl; 1
27. Zwcttl; 1
28. Wentl; 1
29. wett; 1
30. Pettl; 1
31. zettl; 1
32. Czwettl; 1
33. pettl; 1
34. Zwettla; 1
35. zwetl; 1
36. guettl; 1

Ergebnisse mit „reg“ XML-Attribut
Zwetel
•Zwettl, Zisterzienserstift
•Zwettl (GB ZT)
•Zisterzienserstift Zwettl (GB ZT)
•Zisterzienserstift Zwettl
Zwetl
Zwettl
•Zwettl (GB ZT)
• Zwettl, Zisterzienserstift, Aussteller, Siegler
• Zwettl, Cistercienserabtei
• Zwettl, Zisterzienser-Stift
• Zwettl, Zisterzienserabtei (GB ZT)
•Zisterzienserstift Zwettl Zwettl (GB Zwettl, NÖ)
Zwetil
•Zwettl (GB ZT)
Zwettel

Schlussfolgerungen
 Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“,
„Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen.
 Nach weiterer Überprüfung könnten (theoretisch) alle anderen
Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden,
und wären von dem Zeitpunkt an für weitere Untersuchungen
zugänglich.
 Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die
Unsicherheit durch die halbautomatische Erschließung zu
dokumentieren
<placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName>

Fazit
 Der MOM-CA Volltext umfasst momentan
in etwa 1.5 Millionen Begriffe
 Davon sind lediglich insgesamt ca.
170.000 als Orts- und Personennamen
ausgezeichnet.
 Selbst wenn ein Bruchteil davon
halbautomatisch zugeordnet werden
kann, erhöhen sich die Möglichkeiten für
die Wissenschaft sprunghaft (in DEEDS
sind 31 000 Urkunden enthalten)
 Durch die fortschreitende Entwicklung
sind weitere Verbesserungen
wahrscheinlich.
1,458,948
564,221
700,282
700,000
600,000
500,000
400,000
300,000
200,000
100,000
69,118
2,120
0

Fragen?
daniel.jeller
@icar-us.eu

Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (16)

Mais de ICARUS - International Centre for Archival Research

Mais de ICARUS - International Centre for Archival Research (20)

Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik