Early Dutch Books Online, de hele KB deed mee!
Op 26 mei 2011 is de website Early Dutch Books Online (EDBO) live gegaan. De site geeft full-text toegang tot meer dan twee miljoen bladzijden in bijna 10.000 rechtenvrije boeken uit het Nederlandse taalgebied uit de periode 1781-1800.
http://www.earlydutchbooksonline.nl
Hierbij zitten niet alleen bekende klassiekers zoals Sara Burgerhart en Jantje zag eens pruimen hangen, maar ook de reisverhalen van Capt. James Cook , erotische gedichten en recepten om zelf vuurwerk te maken.
Lunchlezing Arnhemsche Eau de Cologne-fabriek 1873-1876, Koninklijke Biblioth...
Early Dutch Books Online, de hele KB deed mee!
1. Early Dutch Books Online, de hele KB deed mee!
Op 26 mei jl. is de website Early Dutch Books Online (EDBO) live gegaan. De site geeft full-text toegang
tot meer dan twee miljoen bladzijden in bijna 10.000 rechtenvrije boeken uit het Nederlandse taalgebied
uit de periode 1781-1800.
Hierbij zitten niet alleen bekende klassiekers zoals Sara Burgerhart en Jantje zag eens pruimen hangen,
maar ook de reisverhalen van Capt. James Cook , erotische gedichten en recepten om zelf vuurwerk te
maken. Een Youtube-filmpje (1:49 min) van begin mei 2011 geeft in een notendop een overzicht van de
inhoud van Early Dutch Books Online.
De site is in samenwerking met de universiteitsbibliotheken van Amsterdam en Leiden tot stand gekomen.
Net als de KB hebben deze instellingen boeken uit hun Bijzondere Collecties beschikbaar gesteld voor
digitalisering en ontsluiting. De KB leverde 45% van de boeken, de UB- UVA 30% en de UBL 25%.
Wat is gedigitaliseerd?
Voor EDBO is een selectie gemaakt van oude drukken uit de periode 1781-1800. Door hun leeftijd vallen
al deze boeken in het publieke domein, alle auteurs zijn immers al meer dan 70 jaar dood. Werken
gedrukt in het Gotisch zijn niet gedigitaliseerd omdat de tekenherkenning (OCR) van dit lettertype nog
niet het gewenste resultaat oplevert. Verder is gekozen voor materiaal dat in de late 18e eeuw in
Nederland is gedrukt, omdat in deze periode het 'moderne' lettertype, Romein, de overhand krijgt. In
Romein gedrukt materiaal is wel goed te OCR'en.
De selectie heeft zich geconcentreerd op boeken in Nederland gedrukt of handelend over Nederland.
Omdat Nederlands niet de standaardtaal was voor uitgaven in die tijd, is zowel Nederlands- als Franstalig
materiaal meegenomen. Het waren dus vooral praktische overwegingen die een rol speelden bij deze
eerste selectie.
2. Aan deze praktische selectiecriteria voldeden ongeveer 12.000
van de circa 170.000 titels in de STCN. Na overleg met
wetenschappers bleek er ook behoefte aan een inhoudelijke
invalshoek. Gezien de omvang van het project was het niet
mogelijk om de duizenden titels handmatig te selecteren op basis
van concrete onderzoeksvragen die wetenschappers hebben. Om
dit zo goed mogelijk op te vangen is gebruikt gemaakt van de
(Engelstalige) onderwerpstrefwoorden in de STCN. Op basis
hiervan kunnen voor onderzoekers van de laatachttiende-eeuwse
cultuur relevante boeken worden gedigitaliseerd.
Na diverse selectieronden door de Wetenschappelijke Adviesraad,
m.m.v. KB-collectiespecialisten Marieke van Delft en Erik Geleijns,
zijn 9683 titels uit de volgende thema’s geselecteerd : History &
Politics, Economy & Trade, Science & Ideas, Religion & Society,
Daily Life & Education, Visual Arts, Drama, Dramaturgy and
Musicology, Dialogues en Genre parodies.
Digitalisering
Voorafgaand aan de daadwerkelijke digitalisering werd eerst een materiaalvoorbewerking uitgevoerd.
Nadat medewerkers van O&BC de geselecteerde boeken uit de magazijnen hadden gehaald, werden ze
stuk voor stuk beoordeeld op hun fysieke staat. Van elk boek werd bepaald of de fysieke conditie
voldoende was en of het boek geschikt was voor scanning en OCR. Boeken die te kwetsbaar waren, niet
goed open konden of waarvan bijvoorbeeld de OCR geen goed resultaat zou opleveren, werden uit de
selectie verwijderd. Daarnaast werd tijdens de voorbewerking bekeken of er uitklapbare kaarten en
prenten in de boeken zaten. Deze boeken zijn apart gedigitaliseerd.
Het voorbewerkingsteam in de KB bestond uit Shanti Jamin, Frans Schutte, Anneke van Doorenmalen,
Angela Kuckartz, Eveline van Nuissenburg-Wagenaar, Aladin Hammad, Saskia van Bavel, Mirjam
Raaphorst, Suresh Raumatar, Jasper den Hollander, Dries Coomans en Bert Mans en stond onder leiding
van Ron Kenter.
Marg van der Burgh was verantwoordelijk voor het algehele projectmanagement van het digitaliseren.
Daarnaast onderhield ze de contacten met de Stuurgroep van het project, waarin Hans Jansen de KB
vertegenwoordigde. Marg was tevens verantwoordelijk voor het dagelijks contact met collega’s in de
bibliotheken in Amsterdam en Leiden.
De voorbereiding en de materiaalanalyse vond plaats in de bibliotheken en van daar uit gingen de boeken
op transport naar de digitaliseerder. In anderhalf jaar zijn ze gedigitaliseerd door MicroFormat uit Lisse en
diens onderaannemer Planman in India. Begin 2011 heeft dit bedrijf het fotograferen, OCR’en, verPDFen
en metadateren van in totaal 2.120.235 unieke pagina’s afgerond. Dit heeft meer dan 10 miljoen
bestanden opgeleverd, die steekproefsgewijs zijn gecontroleerd door de KB. Hierbij is niet alleen het
correcte aantal bestanden gecontroleerd, de juiste bestandsnamen, de correcte samenhang tussen
bestanden maar ook of de bestanden inhoudelijk en technisch correct werden opgeleverd.
3. Vanwege de kwetsbaarheid kon het materiaal niet zonder meer onder een
flatbedscanner of kopieerapparaat gelegd worden. MicroFormat gebruikte
voor het digitaliseren twee soorten scanners.
De meeste boeken werden gefotografeerd d.m.v. een zgn. boekenwieg.
Deze opstelling in v-vorm voorkomt dat de band - in het bijzonder de rug -
te zwaar belast of zelfs beschadigd wordt. In de boekenwieg kunnen de
boeken in een hoek van 90-110 graden worden geplaatst. Met een druk op
de knop door de operator wordt tegelijkertijd een opname van de rechter-
en linkerpagina gemaakt d.m.v. twee Canon EOS D5 Mark II camera’s
Boeken met een afwijkend formaat of met uitvouwbladen werden met
behulp van een Zeutschel 14000 scanner gedigitaliseerd.
Beschikbaarstelling, bouw van de website
Om al deze rechtenvrije content voor iedereen gratis toegankelijk te maken is een website gebouwd. Voor
de ontwikkeling van de site is gekozen voor een Agile (behendig, lenig) software-ontwikkelmethode. Dit
betekent dat er in iteraties (zgn. sprints) van typisch 3 weken steeds stukjes van de website werden
gespecificeerd, ontwikkeld en getest. Welke functionaliteiten er binnen elke iteratie gebouwd konden
worden, werd aan het begin van elke sprint nauwgezet besproken en gepland door het ontwikkelteam
van IT en OLS. Het was soms flink passen en meten om binnen 3 weken alle gewenste functionaliteit te
specificeren en te bouwen, zonder af te doen aan de vereiste kwaliteit. Deze hele manier van Agile
software-ontwikkeling was nieuw voor de KB en de meeste leden van het ontwikkelteam.
Dit team bestond uit Shan Swart en Olaf Janssen (functionele specificatie, OLS), Robert Soerdjoesing,
Thomas Beekman, Dennis-Jan Boerse en Sanjay Ramautar (bouw, IT) en Marco de Waal en Lammert
Stegewans (testen, OLS). Evelien Ket van I&O adviseerde en coördineerde op het gebied van metadata
en indexering.
Vanuit het Programma Digitale Bibliotheek was Caroline van Wijk verantwoordelijk voor de projectleiding
van de bouw van de site.
Caroline: “We hebben niet alleen de website opgeleverd, maar ook een berg aan kennis en ervaring
vergaard. Winst bestaat uit een directere communicatie tussen de teamleden. Leerpunt: de intensiviteit -
gedurende het project is een grote inzet van alle betrokkenen vereist - van een Agile ontwikkelproject is
vooraf onderschat. Het is bijvoorbeeld moeilijk testers flexibel in te schakelen in het ontwikkelproces als
deze niet zijn betrokken bij het specificeren van de functionaliteit. We hebben ook het belang van een
transparante werkwijze binnen het team en binnen afdelingen ondervonden om bijvoorbeeld ziekte te
kunnen opvangen.
Deze leerpunten worden gebruikt als input voor een ander project: Raamwerk Uitvoering Software
Ontwikkeling. Dit project levert een leidraad voor (best practices) softwareontwikkeling in de KB op.”
De EDBO website is geschreven in het zgn. Zend-framework. Zend is een product van het bedrijf dat PHP
ontwikkelt en is het standaard framework in de PHP-wereld geworden. De brede ondersteuning maakt het
mogelijk om snel nieuwe formaten en uitbreidingen toe te voegen, omdat de meest gangbare zaken
veelal al eerder zijn ontwikkeld en getest in de werkelijkheid. Het opnieuw uitvinden van het wiel wordt
daardoor zeldzaam.
Om de EDBO-content op woordniveau te kunnen doorzoeken zijn indexen (IT’ers zeggen zelden
“indices”) voor de Verity-zoekmachine nodig. Hier hebben Hans Hoogeveen en Michel Koppelaar zich mee
beziggehouden. Michel heeft daarnaast ook scripts gemaakt die de metadata in het juiste formaat gieten
4. voor indexering door de zoekmachine. Luc Peerdeman tenslotte heeft de benodigde aanpassingen aan de
resolver ("een soort digitale magazijnmedewerker") gemaakt.
De vormgeving van de site is uitbesteed aan Uselab; het logo en de topbanner zijn van de hand van
Marise Knegtmans.
Aan de teksten op de site hebben namens de KB Erik Geleijns, Marieke van Delft en Karin Swane
meegewerkt. Omdat de hele site tweetalig is, zijn er vertalingen naar het Engels gemaakt door Engels &
Partners.
Op 26 mei 2011 is de site feestelijk gelanceerd tijdens een symposium in Leiden. Karin Swane heeft het
KB-deel van de organisatie van deze dag voor haar rekening genomen.
En wat vinden de gebruikers er van?
In diverse stadia van de bouw heeft OLS (in de personen
van Rosemarie Pomp-Blangé & Jolanda Middelkoop) de site
laten testen op bruikbaarheid, zowel door KBers als door de
beoogde eindgebruikers. Hun tussentijdse feedback is
verwerkt in de bouw. Het grootste onderzoek onder
potentiële gebruikers heeft plaatsgevonden in april 2011,
enkele weken voor de lancering.
De onderzoeksresultaten geven een heel aardig beeld van
de mening en wensen van de potentiële gebruikers. Uit het
eindrapport: ”De respondenten tonen zich over het
algemeen redelijk positief over de site. Met name de lay-out en het taalgebruik worden goed beoordeeld
(helder, sober, passend bij een serieuze database). De indeling van de website is nog wel voor
verbetering vatbaar. []… Kritisch is men vooral ten aanzien van de geboden zoek-en
browsemogelijkheden en de presentatie van de zoekresultaten. ..[] .De boekencarrousel onder ‘Uitgelicht’
is mooi vormgegeven en past in de context van de homepage, maar de meeste respondenten zien er het
nut niet van in ..[]…“
Kortom, er valt volgens de beoogde gebruikers nog wel wat te verbeteren. Er was helaas geen tijd meer
om deze feedback in de site te verwerken. Samen met alle andere input & suggesties die OLS inmiddels
heeft verzameld, worden deze wensen meegenomen in de verdere ontwikkeling van de dienst.
Olaf Janssen hierover: “Het is erg mooi om te zien hoe de wensen van EDBO gebruikers direct zullen
bijdragen aan een betere dienstverlening in de nabije toekomst. Zo uitte een gebruiker de wens om te
kunnen zoeken met behulp van de originele paginanummers (dus zoals die onderaan een bladzijde
gedrukt staan) in plaats van (de tot nu toe gebruikte) volgordelijke paginanummers (waarbij de omslag
van het boek dan pagina 1, de binnenkant van de omslag pagina 2, etc is.). OLS heeft deze wens met de
afdeling Digitalisering besproken en laten opnemen in de nieuwe digitaliseringsspecificaties. Deze
verbeterde specificaties leveren dan bij toekomstige digitaliseringsprojecten betere data op. Op basis van
deze rijkere data is het straks mogelijk een beter te gebruiken website op te leveren, inclusief
functionaliteiten die (helaas) voor EDBO nog niet mogelijk waren.”
De metadata van EDBO komt binnenkort ook beschikbaar in The European Library en
dus ook in Europeana. In opdracht van Marketing Services werkt OLS met Product
Support en TEL Office (ook een onderdeel van de KB!) samen om dit mogelijk te
maken. Helaas is het nog niet mogelijk om de EDBO-teksten in TEL en Europeana op
woordniveau te doorzoeken; in de toekomst zal dit wel mogelijk worden dankzij het Europeana Libraries
project.
5. Van EDBO naar Platform Digitale Publicaties
De komende jaren gaat de KB verder met massadigitalisering van haar collecties uit het publieke domein.
Volgens het Beleidsplan willen we immers voor 2014 10% van alle Nederlandse boeken, kranten en
tijdschriften, zo’n 73 miljoen pagina’s, ingescand hebben. De projecten DTS, BNB4, Google en Proquest
zullen hier de komende jaren een belangrijke bijdrage aan leveren door vele miljoen pagina’s full-text
content te produceren.
Voor zover gemaakte afspraken dat toestaan, gaan we al deze content via één centrale website
aanbieden. Deze dienst heeft de voorlopige werknaam Platform Digitale Publicaties meegekregen en
wordt gebaseerd op de EDBO site. Naast bovengenoemde content zullen we ook de Historische Kranten in
deze nieuwe website opnemen, waardoor er één centrale plek voor gebruikers ontstaat om Nederlandse
historische boeken, kranten en tijdschriften te vinden, te lezen, te downloaden en te delen.
Tot slot….
Dit artikel laat fraai zien dat werkelijk (bijna) alle afdelingen van de KB bij een digitaliserings- &
beschikbaarstellingsproject betrokken zijn. En dan hebben we de mensen uit Leiden en Amsterdam nog
niets eens genoemd.
We noemen – en bedanken! - veel mensen en afdelingen, maar kunnen onverhoopt iemand vergeten zijn.
Daarvoor bij voorbaat onze excuses; onze waardering is er niet minder om.
Olaf Janssen, Sanjay Ramautar, Caroline van Wijk, Rubrecht Zaat,
Juli 2011