SlideShare uma empresa Scribd logo
1 de 28
MEHRWERT 
DIGITALISIERUNG? 
Möglichkeiten einer 
Digitalen Diplomatik 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Diplomatik = Lehre 
von den Urkunden 
 Urkunden: schriftlicher Niederschlag von 
Rechtshandlungen v. a. im Mittelalter 
aber auch der frühen Neuzeit 
 Ursprünglicher Zweck war die 
Feststellung der Echtheit einer Urkunde 
 Untersuchung der äußeren und inneren 
Merkmale einer Urkunde 
 Im 17. Jhdt. begründet und vor allem ab 
dem 19. Jhdt. stark weiterentwickelt 
 Methoden sind u.a. Paläographie, 
Chronologie, Rechts- und 
Verfassungsgeschichte 
 Veröffentlichung von Bearbeitungen 
(=Editionen) traditionell in gedruckten 
Quellensammlungen 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Digitalisierung von 
Urkunden 
 Digitalisierung: Überführung einer 
analogen Größe in ein 
maschinenlesbares, digitales Format 
 Erste Ansätze bei Urkunden in den 1970er 
Jahren 
 Digitalisierung von optischen sowie 
inhaltlichen Informationen (äußere und 
innere Merkmale) 
 Konkret: Aufnahme eines optischen 
Abbilds und der zum Objekt gehörigen 
Metadaten (Datum, Aussteller, 
Ausstellungsort, Regest, Transkription, 
Material, Zustand, etc.) 
 Kombination der Daten in einer virtuellen 
digitalen Repräsentation, also Bild und 
Metadaten gemeinsam 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Traditioneller Mehrwert 
Maschinenlesbarkeit 
Durchsuchen 
Vernetzen 
Erreichbarkeit 
Einbinden in 
Datenbanken 
Gemeinsames 
Arbeiten 
Reproduzierbarkeit 
Im Unterricht 
verwenden 
Übertragen in 
andere 
Kontexte 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
„Mehr“ Mehrwert? 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Beispiel: DEEDS ‒ 
„Documents of Early 
England Data Set“ 
 Entstanden 1975; Universität Toronto, CA 
 Ca. 31 000 lateinische Urkunden vom 9. 
bis Ende des 13. Jahrhunderts 
 Bereitstellung eines umfangreichen 
Textkorpus und detaillierten 
Suchmöglichkeiten darin 
 Entwicklung von Methoden zur 
Datierung, Verortung und Identifikation 
von Personen, Sprachmerkmalen und 
Zusammenhängen 
 Eingesetzt werden computerunterstützte 
Technologien aus den Bereichen der 
Statistik und Linguistik 
Quelle: deeds.library.utoronto.ca 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
DEEDS datiert 
lateinische Urkunden 
Beispiel aus dem Stiftsarchiv Schlägl in 
Oberösterreich: 
Urkunde vom 9. Juli 1218; 
http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/ 
Urkunden/1218_VII_09/charter 
(=Pichler, Isfried H., Urkundenbuch des 
Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23) 
Datierung anhand von Wortmustern auf das 
Jahr 1234 bzw. mit 90% Wahrscheinlichkeit 
zwischen den Jahren 1218 und 1247. 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu 
N: 87 
Median: 1233 
Min - Max: 1172 - 1284 
Q1-Q3: 1226 - 1238 
95%: 1202 - 1252 
90%: 1218 - 1247 
Avg Error: 3 years
Voraussetzungen 
Zugang zu den 
Originaldaten 
Einheitliche 
Erschließungsstandards 
Gut dokumentiertes 
Datenformat 
Umfangreiches 
Datenmaterial 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Praxis: Das Monasterium-Portal und seine 
Datenbank MOM-CA 
www.monasterium.net 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Überblick 
 Durchgehende Entwicklung seit 2002 
 Online Datenbank mit Bestandsübersicht, 
Volltextsuche, und kollaborative 
Bearbeitung der Urkunden 
 Über 400 000 Urkunden aus dem 
Mittelalter und der Frühen Neuzeit 
0 200,000 400,000 600,000 
OR T E 
P E R SONEN 
B I LDE R 
T RANS K R. 
R EGE S T EN 
UR KUNDEN 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Grundlegende technische Struktur 
Backend 
•Browserbasiert 
•HTML5/JavaScript/XML 
•Passives Browsen 
•Aktives Bearbeiten 
•Kommun. über REST 
Frontend 
•XML-Datenbank 
•Webserver 
•Metadaten 
•Indizes 
•Keine öffentl. Schnittstelle 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Datenbank: Aufbau 
und Programmierung 
 Basierend auf der open source XML-Datenbank 
eXist 
 Abfragen über xQuery und XPath 
 Informationen (unter anderem) über 
Archive (EAG-XML), Bestände (EAD-XML) 
und Urkunden (CEI-XML) 
 eXist verfügt über mehrere, auf Apache - 
Lucene aufbauende Indextypen, die 
beliebig konfiguriert werden können 
 Werkzeuge zum Bearbeiten und 
Überwachen der Abfragen 
 Möglichkeiten zum Aufbau von 
komplexen Anwendungen innerhalb der 
Datenbank 
 Flexible Bearbeitung innerhalb und 
außerhalb der Datenbank möglich 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Nachteil: keine 
öffentliche 
Schnittstelle zur 
Datenbank aus 
Performancegründen 
Aber: die Datenbank ist 
vollständig exportierbar 
und lässt sich lokal 
installieren und beliebig 
nutzen 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Datenübersicht 
75,566 
94,686 
69,118 
700,282 
564,221 
1,458,948 
0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 
Ortsnamen 
Personennamen 
Transkriptionen 
Häufigster Ausdruck ("et") 
Mehrfach vorkommende Begriffe 
Gesamtanzahl der Begriffe 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Voraussetzungen 
 Vertrautheit mit dem Datenmaterial 
(verwendete XML-Schemata, 
Datenstruktur etc.) 
 Bei komplexen Abfragen genügend 
Ausstattung des Computers mit 
Arbeitsspeicher (8GB können durchaus 
zu wenig sein) 
 Klare Zielsetzung um die Abfragen an die 
Anforderungen und den zur Verfügung 
stehenden Ressourcen entsprechend 
effizient zu schreiben 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Programm erfolgt ähnlich natürlicher Sprache 
Nimm alle Urkunden in der Datenbank … 
Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten 
Begriffen enthalten und die mit dem Buchstaben „z“ beginnen … 
Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten … 
Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen … 
Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der 
Vorkommnisse im Text. 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Alle Orte mit Anfangsbuchstabe „z“ in einer 
sortierten HTML-Liste 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Ergebnis 
 Laufzeit der Abfrage etwa 80 Minuten auf 
Laptop mit Dual-Core CPU und 16GB RAM 
 Liste mit 1864 Begriffen. 
Probleme 
 Abfragen können in diesem System 
schnell zu komplex werden. 
 Die Liste bedarf händischer Nacharbeit 
um aussagekräftig zu sein (vgl. 
Mehrfachnennungen von Orten; 
Beispiele: „zwettl“ und „zwetel“ oder 
„znojmo“ und „znaim“ 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
„Klassische“ 
Problemlösungs-strategien 
Handarbeit 
• Listen werden 
manuell kombiniert 
• Ähnlichkeiten 
werden eliminiert 
•Ungenauigkeiten 
werden händisch 
ausgebessert 
Programmierung 
• Ergebnisse fließen in 
neue Abfragen ein 
• Abfragen finden in 
mehreren Stufen 
statt, Kombination 
findet nachträglich 
aber automatisch 
statt. 
Der großen Varianz an sprachlichen, 
qualitativen und methodologischen 
Eigenheiten der Metadaten wird mit 
etablierten Methoden begegnet. 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Möglichkeit: semi-automatische 
Verbesserung der Metadaten 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Beispiel: Ansatz für einen semiautomatischen 
Thesaurus 
Problem 
• Häufig existiert nur 
der reine Text einer 
Transkription 
• Bei der Suche müssen 
alle Varianten 
berücksichtigt werden 
Idealfall 
• Personen und Orte 
sind im XML-Text 
ausgezeichnet 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Beispiel: Varianten von Zwettl im Jahr 1352 
http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter 
Ist-Stand in MOM-CA 
• „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“ 
• „[…] in der stat datz Zwetl. […]“ 
• „[…] der stat anhangundem insigel datz Zwetel […]“ 
Idealfall 
• „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″ 
type=″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“ 
• „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″ 
type=″Stadt″>Zwetl</placeName>. […]“ 
• „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″ 
certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“ 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Programmkonzept 
Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die 
Datenbank 
Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem 
Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen 
Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die 
nahelegen, dass die Begriffe zusammen gehören 
Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen 
„placeName“-Elementen, die eine Identifizierung zulassen 
Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
36 Unscharfe Suchergebnisse für „Zwetl“ 
1. Zwetel; 207 
2. Zwetl; 53 
3. Zwettl; 36 
4. wette; 27 
5. Wette; 18 
6. zwetel; 14 
7. Zwethl; 13 
8. weltl; 12 
9. Zwetil; 12 
10. Zwettel; 10 
11. Wetzl; 7 
12. Zwéttl; 6 
13. Zwettll; 5 
14. O; 3 
15. zwetil; 2 
16. Wetfl; 2 
17. Swett; 2 
18. güettl; 2 
19. Wetel; 2 
20. Zwettln; 1 
21. Zwetll; 1 
22. Çwetel; 1 
23. Wetti; 1 
24. bettl; 1 
25. wetzl; 1 
26. Wittl; 1 
27. Zwcttl; 1 
28. Wentl; 1 
29. wett; 1 
30. Pettl; 1 
31. zettl; 1 
32. Czwettl; 1 
33. pettl; 1 
34. Zwettla; 1 
35. zwetl; 1 
36. guettl; 1 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Ergebnisse mit „reg“ XML-Attribut 
Zwetel 
•Zwettl, Zisterzienserstift 
•Zwettl (GB ZT) 
•Zisterzienserstift Zwettl (GB ZT) 
•Zisterzienserstift Zwettl 
Zwetl 
•Zwettl, Zisterzienserstift 
Zwettl 
•Zwettl (GB ZT) 
•Zwettl, Zisterzienserstift 
• Zwettl, Zisterzienserstift, Aussteller, Siegler 
• Zwettl, Cistercienserabtei 
• Zwettl, Zisterzienser-Stift 
• Zwettl, Zisterzienserabtei (GB ZT) 
•Zisterzienserstift Zwettl Zwettl (GB Zwettl, NÖ) 
Zwetil 
•Zwettl (GB ZT) 
•Zwettl, Zisterzienserstift 
Zwettel 
•Zwettl, Zisterzienserstift 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Schlussfolgerungen 
 Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“, 
„Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen. 
 Nach weiterer Überprüfung könnten (theoretisch) alle anderen 
Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden, 
und wären von dem Zeitpunkt an für weitere Untersuchungen 
zugänglich. 
 Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die 
Unsicherheit durch die halbautomatische Erschließung zu 
dokumentieren 
<placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName> 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Fazit 
 Der MOM-CA Volltext umfasst momentan 
in etwa 1.5 Millionen Begriffe 
 Davon sind lediglich insgesamt ca. 
170.000 als Orts- und Personennamen 
ausgezeichnet. 
 Selbst wenn ein Bruchteil davon 
halbautomatisch zugeordnet werden 
kann, erhöhen sich die Möglichkeiten für 
die Wissenschaft sprunghaft (in DEEDS 
sind 31 000 Urkunden enthalten) 
 Durch die fortschreitende Entwicklung 
sind weitere Verbesserungen 
wahrscheinlich. 
1,458,948 
564,221 
700,282 
700,000 
600,000 
500,000 
400,000 
300,000 
200,000 
100,000 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu 
69,118 
2,120 
0
Fragen? 
daniel.jeller 
@icar-us.eu 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu

Mais conteúdo relacionado

Destaque

Kopie von service bogen referenten-100816_neu
Kopie von service bogen referenten-100816_neuKopie von service bogen referenten-100816_neu
Kopie von service bogen referenten-100816_neuetailsummit
 
La prehistòria
La prehistòriaLa prehistòria
La prehistòriamaragon99
 
Présentation de l'habitat partagé
Présentation de l'habitat partagéPrésentation de l'habitat partagé
Présentation de l'habitat partagéWebullition
 
8 pièges à éviter dans l'utilisation d'un power point à l'oral
8 pièges à éviter dans l'utilisation d'un power point à l'oral8 pièges à éviter dans l'utilisation d'un power point à l'oral
8 pièges à éviter dans l'utilisation d'un power point à l'oralFORM2COM
 
100f0077b164b7af5c7d09735a1fb050
100f0077b164b7af5c7d09735a1fb050100f0077b164b7af5c7d09735a1fb050
100f0077b164b7af5c7d09735a1fb050swarnat
 
Thamara e raquel 52 b
Thamara e raquel 52 bThamara e raquel 52 b
Thamara e raquel 52 bligiamarak
 
La raiz cuadrada
La raiz cuadradaLa raiz cuadrada
La raiz cuadradayorladi
 
50 sustracciones ambito numerico hasta 12 con uso de naipe español
50 sustracciones ambito numerico hasta 12  con uso de naipe español50 sustracciones ambito numerico hasta 12  con uso de naipe español
50 sustracciones ambito numerico hasta 12 con uso de naipe españolmanueloyarzun
 
UM2 Magazine n°4 Décembre 2012
UM2 Magazine n°4 Décembre 2012UM2 Magazine n°4 Décembre 2012
UM2 Magazine n°4 Décembre 2012um2_montpellier
 
Georges AG 2013
Georges AG 2013Georges AG 2013
Georges AG 2013walther57
 
Politique d'innovation et experimentation - Académie de grenoble
Politique d'innovation et experimentation - Académie de grenoblePolitique d'innovation et experimentation - Académie de grenoble
Politique d'innovation et experimentation - Académie de grenoblefcolombat
 
ΠΙΣΙΝΕΣ
ΠΙΣΙΝΕΣΠΙΣΙΝΕΣ
ΠΙΣΙΝΕΣNtaks
 
Présentation Nicolas Loubet
Présentation Nicolas LoubetPrésentation Nicolas Loubet
Présentation Nicolas LoubetWebullition
 

Destaque (16)

Kopie von service bogen referenten-100816_neu
Kopie von service bogen referenten-100816_neuKopie von service bogen referenten-100816_neu
Kopie von service bogen referenten-100816_neu
 
Trabajo5
Trabajo5Trabajo5
Trabajo5
 
La prehistòria
La prehistòriaLa prehistòria
La prehistòria
 
Présentation de l'habitat partagé
Présentation de l'habitat partagéPrésentation de l'habitat partagé
Présentation de l'habitat partagé
 
8 pièges à éviter dans l'utilisation d'un power point à l'oral
8 pièges à éviter dans l'utilisation d'un power point à l'oral8 pièges à éviter dans l'utilisation d'un power point à l'oral
8 pièges à éviter dans l'utilisation d'un power point à l'oral
 
100f0077b164b7af5c7d09735a1fb050
100f0077b164b7af5c7d09735a1fb050100f0077b164b7af5c7d09735a1fb050
100f0077b164b7af5c7d09735a1fb050
 
Thamara e raquel 52 b
Thamara e raquel 52 bThamara e raquel 52 b
Thamara e raquel 52 b
 
La raiz cuadrada
La raiz cuadradaLa raiz cuadrada
La raiz cuadrada
 
50 sustracciones ambito numerico hasta 12 con uso de naipe español
50 sustracciones ambito numerico hasta 12  con uso de naipe español50 sustracciones ambito numerico hasta 12  con uso de naipe español
50 sustracciones ambito numerico hasta 12 con uso de naipe español
 
UM2 Magazine n°4 Décembre 2012
UM2 Magazine n°4 Décembre 2012UM2 Magazine n°4 Décembre 2012
UM2 Magazine n°4 Décembre 2012
 
4 rencontre
4 rencontre4 rencontre
4 rencontre
 
Georges AG 2013
Georges AG 2013Georges AG 2013
Georges AG 2013
 
Politique d'innovation et experimentation - Académie de grenoble
Politique d'innovation et experimentation - Académie de grenoblePolitique d'innovation et experimentation - Académie de grenoble
Politique d'innovation et experimentation - Académie de grenoble
 
Sistematización taller sector productivo 10 feb 2011
Sistematización taller sector productivo 10 feb 2011Sistematización taller sector productivo 10 feb 2011
Sistematización taller sector productivo 10 feb 2011
 
ΠΙΣΙΝΕΣ
ΠΙΣΙΝΕΣΠΙΣΙΝΕΣ
ΠΙΣΙΝΕΣ
 
Présentation Nicolas Loubet
Présentation Nicolas LoubetPrésentation Nicolas Loubet
Présentation Nicolas Loubet
 

Mais de ICARUS - International Centre for Archival Research

Mais de ICARUS - International Centre for Archival Research (20)

ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
ICARUS-Meeting #20 | The Age of Digital Technology: Documents, Archives and S...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
ICARUS-Meeting #17 | Transparency - Accessibility – Dialogue. How a creative ...
 

Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik

  • 1. MEHRWERT DIGITALISIERUNG? Möglichkeiten einer Digitalen Diplomatik 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 2. Diplomatik = Lehre von den Urkunden  Urkunden: schriftlicher Niederschlag von Rechtshandlungen v. a. im Mittelalter aber auch der frühen Neuzeit  Ursprünglicher Zweck war die Feststellung der Echtheit einer Urkunde  Untersuchung der äußeren und inneren Merkmale einer Urkunde  Im 17. Jhdt. begründet und vor allem ab dem 19. Jhdt. stark weiterentwickelt  Methoden sind u.a. Paläographie, Chronologie, Rechts- und Verfassungsgeschichte  Veröffentlichung von Bearbeitungen (=Editionen) traditionell in gedruckten Quellensammlungen 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 3. Digitalisierung von Urkunden  Digitalisierung: Überführung einer analogen Größe in ein maschinenlesbares, digitales Format  Erste Ansätze bei Urkunden in den 1970er Jahren  Digitalisierung von optischen sowie inhaltlichen Informationen (äußere und innere Merkmale)  Konkret: Aufnahme eines optischen Abbilds und der zum Objekt gehörigen Metadaten (Datum, Aussteller, Ausstellungsort, Regest, Transkription, Material, Zustand, etc.)  Kombination der Daten in einer virtuellen digitalen Repräsentation, also Bild und Metadaten gemeinsam 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 4. Traditioneller Mehrwert Maschinenlesbarkeit Durchsuchen Vernetzen Erreichbarkeit Einbinden in Datenbanken Gemeinsames Arbeiten Reproduzierbarkeit Im Unterricht verwenden Übertragen in andere Kontexte 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 5. „Mehr“ Mehrwert? 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 6. Beispiel: DEEDS ‒ „Documents of Early England Data Set“  Entstanden 1975; Universität Toronto, CA  Ca. 31 000 lateinische Urkunden vom 9. bis Ende des 13. Jahrhunderts  Bereitstellung eines umfangreichen Textkorpus und detaillierten Suchmöglichkeiten darin  Entwicklung von Methoden zur Datierung, Verortung und Identifikation von Personen, Sprachmerkmalen und Zusammenhängen  Eingesetzt werden computerunterstützte Technologien aus den Bereichen der Statistik und Linguistik Quelle: deeds.library.utoronto.ca 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 7. DEEDS datiert lateinische Urkunden Beispiel aus dem Stiftsarchiv Schlägl in Oberösterreich: Urkunde vom 9. Juli 1218; http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/ Urkunden/1218_VII_09/charter (=Pichler, Isfried H., Urkundenbuch des Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23) Datierung anhand von Wortmustern auf das Jahr 1234 bzw. mit 90% Wahrscheinlichkeit zwischen den Jahren 1218 und 1247. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu N: 87 Median: 1233 Min - Max: 1172 - 1284 Q1-Q3: 1226 - 1238 95%: 1202 - 1252 90%: 1218 - 1247 Avg Error: 3 years
  • 8. Voraussetzungen Zugang zu den Originaldaten Einheitliche Erschließungsstandards Gut dokumentiertes Datenformat Umfangreiches Datenmaterial 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 9. Praxis: Das Monasterium-Portal und seine Datenbank MOM-CA www.monasterium.net 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 10. Überblick  Durchgehende Entwicklung seit 2002  Online Datenbank mit Bestandsübersicht, Volltextsuche, und kollaborative Bearbeitung der Urkunden  Über 400 000 Urkunden aus dem Mittelalter und der Frühen Neuzeit 0 200,000 400,000 600,000 OR T E P E R SONEN B I LDE R T RANS K R. R EGE S T EN UR KUNDEN 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 11. Grundlegende technische Struktur Backend •Browserbasiert •HTML5/JavaScript/XML •Passives Browsen •Aktives Bearbeiten •Kommun. über REST Frontend •XML-Datenbank •Webserver •Metadaten •Indizes •Keine öffentl. Schnittstelle 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 12. Datenbank: Aufbau und Programmierung  Basierend auf der open source XML-Datenbank eXist  Abfragen über xQuery und XPath  Informationen (unter anderem) über Archive (EAG-XML), Bestände (EAD-XML) und Urkunden (CEI-XML)  eXist verfügt über mehrere, auf Apache - Lucene aufbauende Indextypen, die beliebig konfiguriert werden können  Werkzeuge zum Bearbeiten und Überwachen der Abfragen  Möglichkeiten zum Aufbau von komplexen Anwendungen innerhalb der Datenbank  Flexible Bearbeitung innerhalb und außerhalb der Datenbank möglich 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 13. Nachteil: keine öffentliche Schnittstelle zur Datenbank aus Performancegründen Aber: die Datenbank ist vollständig exportierbar und lässt sich lokal installieren und beliebig nutzen 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 14. Datenübersicht 75,566 94,686 69,118 700,282 564,221 1,458,948 0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 Ortsnamen Personennamen Transkriptionen Häufigster Ausdruck ("et") Mehrfach vorkommende Begriffe Gesamtanzahl der Begriffe 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 15. Voraussetzungen  Vertrautheit mit dem Datenmaterial (verwendete XML-Schemata, Datenstruktur etc.)  Bei komplexen Abfragen genügend Ausstattung des Computers mit Arbeitsspeicher (8GB können durchaus zu wenig sein)  Klare Zielsetzung um die Abfragen an die Anforderungen und den zur Verfügung stehenden Ressourcen entsprechend effizient zu schreiben 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 16. Programm erfolgt ähnlich natürlicher Sprache Nimm alle Urkunden in der Datenbank … Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten Begriffen enthalten und die mit dem Buchstaben „z“ beginnen … Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten … Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen … Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der Vorkommnisse im Text. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 17. Alle Orte mit Anfangsbuchstabe „z“ in einer sortierten HTML-Liste 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 18. Ergebnis  Laufzeit der Abfrage etwa 80 Minuten auf Laptop mit Dual-Core CPU und 16GB RAM  Liste mit 1864 Begriffen. Probleme  Abfragen können in diesem System schnell zu komplex werden.  Die Liste bedarf händischer Nacharbeit um aussagekräftig zu sein (vgl. Mehrfachnennungen von Orten; Beispiele: „zwettl“ und „zwetel“ oder „znojmo“ und „znaim“ 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 19. „Klassische“ Problemlösungs-strategien Handarbeit • Listen werden manuell kombiniert • Ähnlichkeiten werden eliminiert •Ungenauigkeiten werden händisch ausgebessert Programmierung • Ergebnisse fließen in neue Abfragen ein • Abfragen finden in mehreren Stufen statt, Kombination findet nachträglich aber automatisch statt. Der großen Varianz an sprachlichen, qualitativen und methodologischen Eigenheiten der Metadaten wird mit etablierten Methoden begegnet. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 20. Möglichkeit: semi-automatische Verbesserung der Metadaten 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 21. Beispiel: Ansatz für einen semiautomatischen Thesaurus Problem • Häufig existiert nur der reine Text einer Transkription • Bei der Suche müssen alle Varianten berücksichtigt werden Idealfall • Personen und Orte sind im XML-Text ausgezeichnet 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 22. Beispiel: Varianten von Zwettl im Jahr 1352 http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter Ist-Stand in MOM-CA • „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“ • „[…] in der stat datz Zwetl. […]“ • „[…] der stat anhangundem insigel datz Zwetel […]“ Idealfall • „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“ • „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetl</placeName>. […]“ • „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“ 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 23. Programmkonzept Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die Datenbank Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die nahelegen, dass die Begriffe zusammen gehören Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen „placeName“-Elementen, die eine Identifizierung zulassen Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 24. 36 Unscharfe Suchergebnisse für „Zwetl“ 1. Zwetel; 207 2. Zwetl; 53 3. Zwettl; 36 4. wette; 27 5. Wette; 18 6. zwetel; 14 7. Zwethl; 13 8. weltl; 12 9. Zwetil; 12 10. Zwettel; 10 11. Wetzl; 7 12. Zwéttl; 6 13. Zwettll; 5 14. O; 3 15. zwetil; 2 16. Wetfl; 2 17. Swett; 2 18. güettl; 2 19. Wetel; 2 20. Zwettln; 1 21. Zwetll; 1 22. Çwetel; 1 23. Wetti; 1 24. bettl; 1 25. wetzl; 1 26. Wittl; 1 27. Zwcttl; 1 28. Wentl; 1 29. wett; 1 30. Pettl; 1 31. zettl; 1 32. Czwettl; 1 33. pettl; 1 34. Zwettla; 1 35. zwetl; 1 36. guettl; 1 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 25. Ergebnisse mit „reg“ XML-Attribut Zwetel •Zwettl, Zisterzienserstift •Zwettl (GB ZT) •Zisterzienserstift Zwettl (GB ZT) •Zisterzienserstift Zwettl Zwetl •Zwettl, Zisterzienserstift Zwettl •Zwettl (GB ZT) •Zwettl, Zisterzienserstift • Zwettl, Zisterzienserstift, Aussteller, Siegler • Zwettl, Cistercienserabtei • Zwettl, Zisterzienser-Stift • Zwettl, Zisterzienserabtei (GB ZT) •Zisterzienserstift Zwettl Zwettl (GB Zwettl, NÖ) Zwetil •Zwettl (GB ZT) •Zwettl, Zisterzienserstift Zwettel •Zwettl, Zisterzienserstift 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 26. Schlussfolgerungen  Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“, „Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen.  Nach weiterer Überprüfung könnten (theoretisch) alle anderen Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden, und wären von dem Zeitpunkt an für weitere Untersuchungen zugänglich.  Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die Unsicherheit durch die halbautomatische Erschließung zu dokumentieren <placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName> 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  • 27. Fazit  Der MOM-CA Volltext umfasst momentan in etwa 1.5 Millionen Begriffe  Davon sind lediglich insgesamt ca. 170.000 als Orts- und Personennamen ausgezeichnet.  Selbst wenn ein Bruchteil davon halbautomatisch zugeordnet werden kann, erhöhen sich die Möglichkeiten für die Wissenschaft sprunghaft (in DEEDS sind 31 000 Urkunden enthalten)  Durch die fortschreitende Entwicklung sind weitere Verbesserungen wahrscheinlich. 1,458,948 564,221 700,282 700,000 600,000 500,000 400,000 300,000 200,000 100,000 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu 69,118 2,120 0
  • 28. Fragen? daniel.jeller @icar-us.eu 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu