De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie
1. duizend jaar geschiedenis ligt op honderd
kilometer plank van het
de geschiedenis dijt uit, jaarlijks met kilometers
Catch+, Scratch+, … Scratch4All
2. Catch+, Scratch+, ... Scratch4All
Doel
SCRipt Analysis Tools for the Cultural Heritage
"Googelen" in digitale afbeeldingen van
handgeschreven archiefmateriaal ....
3. Catch+, Scratch+, ... Scratch4All
.... ongeacht het handschrift.
19e eeuws handschrift 20e eeuws Sütterlinschrift
MAAR: de computer moet elk handschrift aanleren
4. Catch+, Scratch+, ... Scratch4All
Methode
• patroonherkenning van woorden en delen van woorden
• maar ... computer moet handschriften “leren” lezen
• regelmatigheden van de inhoud van teksten (statistische
computerlinguistiek )
• layout-analyse
5. Catch+, Scratch+, ... Scratch4All
Nuttig voor archieven ?
• archieven zijn grotendeels
chronologisch geordend
• inventarissen en catalogi
bieden geen toegang
• digitalisering van de metadata
in deze toegangen levert dus te
weinig toegankelijkheid op
6. Catch+, Scratch+, ... Scratch4All
... want ...
• chronologische archieven zijn
veelal zeer omvangrijk
• en bevatten heel veel
verschillende handschriften,
maar ...
7. Catch+, Scratch+, ... Scratch4All
... en ...
• ... chronologische archieven:
• zijn vaak wel voorzien van
handgeschreven (alfabetische)
indices, die
• de metadata bevatten van de
documenten in die archieven
opgeslagen
8. Catch+, Scratch+, ... Scratch4All
dus ...
• de indices scannen
• de digitale afbeeldingen “scratchen”
• de chronologische brievenseries scannen
• GEEN metadata toekennen, behoudens een nummer
• linken van de “gescratchte” metadata van de indices aan de
chronologisch geordende brieven
9. Catch+, Scratch+, ... Scratch4All
Metadata ...
• ... elke afzonderlijke paragraaf (index entry) verwijst naar een
document in de chronologische serie,
• i.c. 1903 Maart 4, No. 13
11. Catch+, Scratch+, ... Scratch4All
Huidige situatie
• wetenschappelijke resultaten zeer succesvol
• patroonherkenningssysteem lokaal bij RuG (AI)
• verschillende soorten bronnen zijn bewerkt
• maar:
• geen mogelijkheid om nieuwe bronnen toe te voegen en te
bewerken
12. Catch+, Scratch+, ... Scratch4All
Gewenste situatie
• systeem beschikbaar buiten RuG-AI-omgeving
• proces beheersbaar en aanstuurbaar door deelnemende
erfgoedinstellingen
• “gescratchte” bestanden raadpleegbaar in een
gebruikersvriendelijke interface
13. Catch+, Scratch+, ... Scratch4All
Belang
• belangrijk voor erfgoedsector:
• het kunnen ontsluiten van handgeschreven materiaal, op een
snellere, efficiëntere manier
• belangrijk voor “het publiek”:
• handgeschreven materiaal kunnen raadplegen, als ware het
gedrukt
• innovatief:
• een nauwelijks bestaande techniek komt beschikbaar
14. Catch+, Scratch+, ... Scratch4All
Belang voor Nationaal Archief
• één meter
“gescratchte” indices biedt
toegang tot bijna
• 40 meter
chronologisch geordende
Koninklijke besluiten, wetten en
kabinetsbrieven
15. Catch+, Scratch+, ... Scratch4All
… en het archief van het Kabinet der Koningin
• heeft een omvang van
(periode 1798-1988):
- 3250 strekkende meter
• en bestaat uit:
- 28.000 dozen
- met ca. 1000 pagina’s per doos
• 28.000.000 paginas (scans)
16. Catch+, Scratch+, ... Scratch4All
Resultaat voor andere instellingen
• software voor doorzoekbaar maken van handgeschreven
teksten, zonder volledige annotatie
• mits:
• de bron in één of slechts enkele handschriften is
geschreven
• de scans van goede kwaliteit zijn
• de middelen aanwezig zijn om de computer het
handschrift “aan te leren”
17. Catch+, Scratch+, ... Scratch4All
Planning
• definiëren gebruiksspecificaties (2009)
• contractonderhandelingen, projectplan (2010 jan.-juni)
• bouw systeemomgeving (2010 juli-okt.)
• bouw beheersmodule (2010 okt.- 2011 feb.)
• aanpassing of bouw transcriptie en zoekmodule (2011 feb.-
juni)
• testen en instructie gebruik (2011 juli-dec.)
• oplevering (2011 laatste kwartaal)