Vortrag von Daniel Jeller auf der Konferenz "Auf dem Weg zu einer gemeinsamen Identität - Quellen zur Geschichte Mitteleuropas im Digitalen Zeitalter" an der Universität Wien am 17.09.2014
Abstract:
Seit der Entstehung der Diplomatik im Siebzehnten Jahrhundert war die Lehre von den Urkunden einerseits eine der beständigsten der historischen Hilfswissenschaften und gleichzeitig bis heute stetigen Veränderungen und Weiterentwicklungen unterworfen. Anfangs lediglich Instrument für den „reinen Fälschungsnachweis“ entwickelten sich vielfältige Methoden zur Untersuchung von innerem und äußerem Aufbau sowie zeitlichem, räumlichem und rechtlichen Kontext einer Ur-kunde. Dies erst ermöglichte die „Bewertung [einer Urkunde] als Geschichtsquelle“ .
Bis heute ist die Evolution der Diplomatik nicht abgeschlossen. Besonders die Digitaltechnik hat, wie auch in einer Vielzahl von anderen Bereichen des modernen Lebens, einen großen Beitrag zur Weiterentwicklung dieser traditionsreichen Wissenschaft geleistet. Belege dafür sind unter ande-rem Tagungen wie die im Herbst 2013 in Paris/FR abgehaltene Digital Diplomatics oder das DEEDS-Projekt der Universität Toronto/CAN das unter anderem statistische Möglichkeiten zur Datierung mittelalterlicher englischer Urkunden untersucht .
Der vorliegende Vortrag möchte einen Beitrag zu dieser Entwicklung leisten, indem er einen ersten Blick auf die Möglichkeiten, die die Urkundendatenbank des Monasterium-Projektes für eine digi-tale Diplomatik bietet, wirft. Dazu wird erstens der konkrete Aufbau der Datenbank mit ihren mo-mentan um die 411.000 Dokumenten und rund 69.000 Transkriptionen sowie ihre Möglichkeiten und Limits vorgestellt. In einem zweiten Schritt werden die technischen Hilfsmittel, XML, xQuery, et cetera, für eine Untersuchung der Bestände beleuchtet. Drittens werden mit praktischen Bei-spielen zwei mögliche Stoßrichtungen für einen gewinnbringenden Einsatz der in den vorigen Schritten vorgestellten Werkzeuge betrachtet.
Diese sind einerseits die Untersuchung der Metadaten im Hinblick auf verschiedene diplomatische Fragestellungen und andererseits der Einsatz der Werkzeuge, um die bereits vorhandenen Meta-daten programmatisch zu verbessern beziehungsweise zu erweitern. Dabei stehen besonders die konkreten technischen Voraussetzungen sowie die Limitierungen, die sich aus den eingesetzten Technologien ergeben, im Vordergrund des Vortrags. Dies soll vor allem dazu dienen, zukünftige Einsatzmöglichkeiten von Monasterium.net für die Diplomatik abseits einer bloßen Erhöhung der Zugänglichkeit der Dokumente abzuschätzen.
2. Diplomatik = Lehre
von den Urkunden
Urkunden: schriftlicher Niederschlag von
Rechtshandlungen v. a. im Mittelalter
aber auch der frühen Neuzeit
Ursprünglicher Zweck war die
Feststellung der Echtheit einer Urkunde
Untersuchung der äußeren und inneren
Merkmale einer Urkunde
Im 17. Jhdt. begründet und vor allem ab
dem 19. Jhdt. stark weiterentwickelt
Methoden sind u.a. Paläographie,
Chronologie, Rechts- und
Verfassungsgeschichte
Veröffentlichung von Bearbeitungen
(=Editionen) traditionell in gedruckten
Quellensammlungen
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
3. Digitalisierung von
Urkunden
Digitalisierung: Überführung einer
analogen Größe in ein
maschinenlesbares, digitales Format
Erste Ansätze bei Urkunden in den 1970er
Jahren
Digitalisierung von optischen sowie
inhaltlichen Informationen (äußere und
innere Merkmale)
Konkret: Aufnahme eines optischen
Abbilds und der zum Objekt gehörigen
Metadaten (Datum, Aussteller,
Ausstellungsort, Regest, Transkription,
Material, Zustand, etc.)
Kombination der Daten in einer virtuellen
digitalen Repräsentation, also Bild und
Metadaten gemeinsam
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
4. Traditioneller Mehrwert
Maschinenlesbarkeit
Durchsuchen
Vernetzen
Erreichbarkeit
Einbinden in
Datenbanken
Gemeinsames
Arbeiten
Reproduzierbarkeit
Im Unterricht
verwenden
Übertragen in
andere
Kontexte
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
6. Beispiel: DEEDS ‒
„Documents of Early
England Data Set“
Entstanden 1975; Universität Toronto, CA
Ca. 31 000 lateinische Urkunden vom 9.
bis Ende des 13. Jahrhunderts
Bereitstellung eines umfangreichen
Textkorpus und detaillierten
Suchmöglichkeiten darin
Entwicklung von Methoden zur
Datierung, Verortung und Identifikation
von Personen, Sprachmerkmalen und
Zusammenhängen
Eingesetzt werden computerunterstützte
Technologien aus den Bereichen der
Statistik und Linguistik
Quelle: deeds.library.utoronto.ca
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
7. DEEDS datiert
lateinische Urkunden
Beispiel aus dem Stiftsarchiv Schlägl in
Oberösterreich:
Urkunde vom 9. Juli 1218;
http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/
Urkunden/1218_VII_09/charter
(=Pichler, Isfried H., Urkundenbuch des
Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23)
Datierung anhand von Wortmustern auf das
Jahr 1234 bzw. mit 90% Wahrscheinlichkeit
zwischen den Jahren 1218 und 1247.
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
N: 87
Median: 1233
Min - Max: 1172 - 1284
Q1-Q3: 1226 - 1238
95%: 1202 - 1252
90%: 1218 - 1247
Avg Error: 3 years
8. Voraussetzungen
Zugang zu den
Originaldaten
Einheitliche
Erschließungsstandards
Gut dokumentiertes
Datenformat
Umfangreiches
Datenmaterial
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
9. Praxis: Das Monasterium-Portal und seine
Datenbank MOM-CA
www.monasterium.net
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
10. Überblick
Durchgehende Entwicklung seit 2002
Online Datenbank mit Bestandsübersicht,
Volltextsuche, und kollaborative
Bearbeitung der Urkunden
Über 400 000 Urkunden aus dem
Mittelalter und der Frühen Neuzeit
0 200,000 400,000 600,000
OR T E
P E R SONEN
B I LDE R
T RANS K R.
R EGE S T EN
UR KUNDEN
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
11. Grundlegende technische Struktur
Backend
•Browserbasiert
•HTML5/JavaScript/XML
•Passives Browsen
•Aktives Bearbeiten
•Kommun. über REST
Frontend
•XML-Datenbank
•Webserver
•Metadaten
•Indizes
•Keine öffentl. Schnittstelle
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
12. Datenbank: Aufbau
und Programmierung
Basierend auf der open source XML-Datenbank
eXist
Abfragen über xQuery und XPath
Informationen (unter anderem) über
Archive (EAG-XML), Bestände (EAD-XML)
und Urkunden (CEI-XML)
eXist verfügt über mehrere, auf Apache -
Lucene aufbauende Indextypen, die
beliebig konfiguriert werden können
Werkzeuge zum Bearbeiten und
Überwachen der Abfragen
Möglichkeiten zum Aufbau von
komplexen Anwendungen innerhalb der
Datenbank
Flexible Bearbeitung innerhalb und
außerhalb der Datenbank möglich
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
13. Nachteil: keine
öffentliche
Schnittstelle zur
Datenbank aus
Performancegründen
Aber: die Datenbank ist
vollständig exportierbar
und lässt sich lokal
installieren und beliebig
nutzen
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
15. Voraussetzungen
Vertrautheit mit dem Datenmaterial
(verwendete XML-Schemata,
Datenstruktur etc.)
Bei komplexen Abfragen genügend
Ausstattung des Computers mit
Arbeitsspeicher (8GB können durchaus
zu wenig sein)
Klare Zielsetzung um die Abfragen an die
Anforderungen und den zur Verfügung
stehenden Ressourcen entsprechend
effizient zu schreiben
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
16. Programm erfolgt ähnlich natürlicher Sprache
Nimm alle Urkunden in der Datenbank …
Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten
Begriffen enthalten und die mit dem Buchstaben „z“ beginnen …
Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten …
Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen …
Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der
Vorkommnisse im Text.
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
17. Alle Orte mit Anfangsbuchstabe „z“ in einer
sortierten HTML-Liste
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
18. Ergebnis
Laufzeit der Abfrage etwa 80 Minuten auf
Laptop mit Dual-Core CPU und 16GB RAM
Liste mit 1864 Begriffen.
Probleme
Abfragen können in diesem System
schnell zu komplex werden.
Die Liste bedarf händischer Nacharbeit
um aussagekräftig zu sein (vgl.
Mehrfachnennungen von Orten;
Beispiele: „zwettl“ und „zwetel“ oder
„znojmo“ und „znaim“
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
19. „Klassische“
Problemlösungs-strategien
Handarbeit
• Listen werden
manuell kombiniert
• Ähnlichkeiten
werden eliminiert
•Ungenauigkeiten
werden händisch
ausgebessert
Programmierung
• Ergebnisse fließen in
neue Abfragen ein
• Abfragen finden in
mehreren Stufen
statt, Kombination
findet nachträglich
aber automatisch
statt.
Der großen Varianz an sprachlichen,
qualitativen und methodologischen
Eigenheiten der Metadaten wird mit
etablierten Methoden begegnet.
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
21. Beispiel: Ansatz für einen semiautomatischen
Thesaurus
Problem
• Häufig existiert nur
der reine Text einer
Transkription
• Bei der Suche müssen
alle Varianten
berücksichtigt werden
Idealfall
• Personen und Orte
sind im XML-Text
ausgezeichnet
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
22. Beispiel: Varianten von Zwettl im Jahr 1352
http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter
Ist-Stand in MOM-CA
• „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“
• „[…] in der stat datz Zwetl. […]“
• „[…] der stat anhangundem insigel datz Zwetel […]“
Idealfall
• „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″
type=″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“
• „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″
type=″Stadt″>Zwetl</placeName>. […]“
• „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″
certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
23. Programmkonzept
Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die
Datenbank
Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem
Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen
Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die
nahelegen, dass die Begriffe zusammen gehören
Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen
„placeName“-Elementen, die eine Identifizierung zulassen
Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
26. Schlussfolgerungen
Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“,
„Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen.
Nach weiterer Überprüfung könnten (theoretisch) alle anderen
Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden,
und wären von dem Zeitpunkt an für weitere Untersuchungen
zugänglich.
Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die
Unsicherheit durch die halbautomatische Erschließung zu
dokumentieren
<placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName>
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
27. Fazit
Der MOM-CA Volltext umfasst momentan
in etwa 1.5 Millionen Begriffe
Davon sind lediglich insgesamt ca.
170.000 als Orts- und Personennamen
ausgezeichnet.
Selbst wenn ein Bruchteil davon
halbautomatisch zugeordnet werden
kann, erhöhen sich die Möglichkeiten für
die Wissenschaft sprunghaft (in DEEDS
sind 31 000 Urkunden enthalten)
Durch die fortschreitende Entwicklung
sind weitere Verbesserungen
wahrscheinlich.
1,458,948
564,221
700,282
700,000
600,000
500,000
400,000
300,000
200,000
100,000
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
69,118
2,120
0