Basisvorming digitaliseren, digitaal bewaren en online publiceren
Archivering van digitale afbeeldingen: het maken van een beredeneerde keuze voor een bestandsformaat
1. Seminar filebeheer
3 juni 2013
Robert Gillesse
Senior kwaliteitsmedewerker
Digitaal Erfgoed Nederland (Stichting DEN)
Robert.gillesse@den.nl
Archivering van digitale
afbeeldingen: het maken van een
beredeneerde keuze voor een
bestandsformaat
3. Opzet
• Uw spreker
• Eisen aan archiefformaat
• Compressie
• KB onderzoek
• Belangrijkste archiefformaten
• Enkele minder voor de hand liggende formaten
• Tabel vergelijking bestandsformaten
• Hoe te kiezen
• Vragen en discussie
4. Uw spreker
• Sinds 2009 werkzaam bij DEN
• Specialisme digitalisering en digitale
duurzaamheid
• Projectleider van DE BASIS
• Bestandsformaten voor beeld een van de
aandachtsgebieden
5. Eisen aan een archiefformaat
• Recht doen aan essentiële eigenschappen van het te archiveren
object
• Open standaard
• Stabiliteit
• Kwetsbaarheid voor bit- en bytefouten
• Vrij van patenten
• Mogelijkheden toevoegen metadata (EXIF, bibliografisch, ect)
• Acceptatie consumentenmarkt
• Acceptatie softwaremakers
• Volwassen open source ontwikkelbibliotheek
• Acceptatie culturele erfgoedsector
• Complexiteit?
Zie o.a. LOC Sustainability of Digital Formats en DPC
File formats for preservation
6. Specifieke eisen aan een
archiefformaat voor afbeeldingen
• Kleur ondersteuning (ICC profiel, kleurruimte)
• Bitdiepte:
– 1 bit bitonaal
– 8 of 16 bits grijswaarden
– 24 of 48 bits kleur
7. Compressie vs. geen compressie
Bron: http://www.deleidsecanon.nl/index.php?option=com_content&view=article&id=26&Itemid=61
8. Compressie vs. geen compressie
• Lijkt op discussie tussen rekkelijken en
preciezen
• Feit: grootste verlies beeldinformatie in
digitalisering van het origineel
• Gecomprimeerd bestand kwetsbaarder voor
bitfouten?
• Compressie maakt bestand complexer en dus
kwetsbaarder?
9. Geen compressie
• Geen enkel verlies beeldkwaliteit
• Geen enkel risico langdurige bewaring(?)
• Veel opslagruimte nodig
10. Lossless compressie
• Geen enkel verlies beeldkwaliteit
• Enig risico langdurige bewaring
• Tot 50% minder opslagruimte nodig
11. Lossy compressie
• Variabel instelbaar van visueel lossless tot
zichtbaar verlies
• Enig risico langdurige bewaring
• Tot >96% minder opslagruimte nodig
• Redundante opslag relatief goedkoop
13. KB onderzoek
• Mede-auteur KB onderzoek uit 2008 naar
bestandsformaten voor digitale beelden
• Alternatief voor ongecomprimeerde master
TIFF’s
• JPEG2000 lossless gepresenteerd als
verantwoord alternatief (met lossless PNG als
goede tweede)
• Maar ook in specifieke gevallen lossy JPEG of
JPEG2000 te overwegen
15. TIFF
• Tagged Image File Format
• Eerste versie uit 1986!
• Laatste versie 6.0 uit 1992
• Wel daarna extensies toegevoegd
• Open standaard (gepubliceerd door Adobe)
• Niet ISO genormeerd
16. TIFF voordelen
• Flexibel
• Zonder of met (JPEG, LZW, ZIP, G4, JBIG)
compressie
• Inzoommogelijkheden (Pyramid)
• Prima acceptatie industrie, erfgoedsector,
consumenten
• Goed bestand tegen bitfouten
• 1, 8, 16, 24 en 48 bits
17. TIFF nadelen
• Ongecomprimeerd: Groot!
• Redundante opslag is dus duur
• Extensies worden niet altijd ondersteund (sterk
aanbevolen: TIFF 6.0 Baseline)
18. Jpeg 2000 Part 1
http://www.intopix.com/uploaded/Press%20Room%20Images/intoPIX%20-%20JPEG%202000.JPG
19. JPEG 2000 Part 1
• Joint Photographic Experts Group
• 12 delen, deel 1 “basisbestand”
• Part 1 in 2000 ISO gecertificeerd
• “Opvolger” van het JPEG formaat
• Keuze tussen lossless en lossy compressie
• DEN blog (met input Johan van der Knijff van
de KB): http://www.den.nl/blog/bericht/2992
20. JPEG 2000 voordelen
• Meest effectieve lossless en lossy compressie
• Respectievelijk 50% en >95% opslagwinst
• Voorzichtige acceptatie erfgoedsector (en
daarbuiten)
• Uitgebreide mogelijkheden bieden toegang
• Goed bestand tegen bitfouten
• Alle gangbare bitdieptes mogelijk
21. JPEG 2000 nadelen
• Achterblijvende acceptatie consumentenmarkt
en software industrie
• Software tools ondersteunen de standaard
gebrekkig
• Geen volwassen open source
ontwikkelbibliotheek
• Fouten in de standaard door gebrek aan
acceptatie pas laat ontdekt
22. Jpeg
Bron (Thomas Ruff) http://www.foam.org/media/3636726/Thomas%20Ruff,%20jpeg%20ny02,%202004.jpg
23. JPEG
• Joint Photographic Experts Group
• Originele standaard ISO genormeerd in 1994
• Vier delen
• Verwarrend gegeven: JPEG is eigenlijk het
afgeleide JFIF (JPEG File Interchange Format)
formaat
• Versimpelde versie van de originele standaard
24. JPEG voordelen
• Acceptatiegraad consumentenmarkt en
industrie enorm
• Conservatieve toepassing compressie (1:10)
geeft visueel verliesloos beeld
• Bij conservatief gebruik tot 90% opslagwinst
• Redundante opslag relatief goedkoop
25. JPEG nadelen
• Lossy compressie doet afbreuk aan
beeldkwaliteit
• Relatief kwetsbaar voor bitfouten
• Beperkt tot bitdiepte van 8 bits (grijswaarden)
of 24 bits (kleur)
32. PDF(/A) als archiefformaat voor
digitale afbeeldingen?
• Wrapper waarbinnen van alles mogelijk is:
– Geen, lossless of lossy compressie
– Keuze verschillende compressiealgoritmes
– Verlagen resolutie
• Multipage
• Geen voor de hand liggende keuze voor archivering
afbeeldingen:
– Laag van complexiteit toevoegen aan origineel
bestandsformaat
– Multipage op basis van images levert enorme bestanden op
• Wel interessant formaat voor beschikbaarstelling
33. GIF
• Beperkt kleurpalet (8 bits, maximaal 256
kleuren) maakt GIF ongeschikt als archief- en
presentatieformaat voor cultureel erfgoed
• Gebruik in webbouw
34. DNG
• Digital negative
• Ontworpen voor gestandaardiseerde opslag van
RAW beelden
• Extensie op het TIFF formaat
• Acceptatie industrie en consumenten blijft achter
• Veel discussie over geschiktheid voor archivering
• Lijkt meer een formaat voor professionele
fotografen
• Meer onderzoek nodig
36. Vergelijk tussen formaten
• Vergelijkingstabel in het kader van de
(herziene) DE BASIS voor vervaardiging van
beeld)
Bron: http://www.flickr.com/photos/bertwerk/735570621/
38. Vergelijk tussen formaten
• Keuze voor een van de gangbare formaten
levert geen foute keuze op
• Uitruil tussen overzienbare risico’s en
mogelijkheden formaten
• Keuze uiteindelijk bepaald door aard en
omvang collectie, beschikbaar structureel
budget voor opslag en wel of niet kunnen
leven met enig risico
40. Vergelijk tussen formaten
• Vergelijkingstabel in het kader van de
(herziene) DE BASIS voor vervaardiging van
beeld)
Bron: http://www.flickr.com/photos/bertwerk/735570621/
Medieval Persian manuscript depicting Muhammad leading Abraham, Moses and Jesus in prayer. Bron:
http://commons.wikimedia.org/wiki/File:Medieval_Persian_manuscript_Muhammad_leads_Abraham_Moses_Jesus.jpg
Will
JPEG
Live
Forever?
41. Vergelijk tussen formaten
• Vergelijkingstabel in het kader van de
(herziene) DE BASIS voor vervaardiging van
beeld)
Bron: http://www.flickr.com/photos/bertwerk/735570621/
Medieval Persian manuscript depicting Muhammad leading Abraham, Moses and Jesus in prayer. Bron:
http://commons.wikimedia.org/wiki/File:Medieval_Persian_manuscript_Muhammad_leads_Abraham_Moses_Jesus.jpg
Bron (Bataviaasch Nieuwsblad 7-6-1920): http://kranten.kb.nl/view/article/id/ddd%3A011038945%3Ampeg21%3Ap002%3Aa0035