SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Mise en œuvre de IIIF pour la
reconnaissance automatique de
documents
IIIF - Biblissima
Christopher Kermorvant
Traitements automatiques de documents
IIIF Biblissima – 24 mars 2021
• Traitement automatique de grandes
collections de documents numérisés
• Basé sur des algorithmes de Machine/Deep
Learning
• Platform As A Service
• Compatible IIIF (dès le début)
TEKLIA - Arkindex
Arkindex versus eScriptorium ?
Traitements automatiques de documents
IIIF Biblissima – 24 mars 2021
Illustration de l’usage de IIIF sur 2 projets
IIIF Biblissima – 24 mars 2021
HORAE (HOurs - Recognition, Analysis, Editions)
Etude des pratiques religieuses de la fin du Moyen Âge à travers
les livres d’heures
ANR-17-CE38-0008
BALSAC
Reconnaissance de 6 millions d’actes paroissiaux du Quebec
1850-1920.
Université du Québec à Chicoutimi
Projet HORAE : études des livres d’heures
IIIF Biblissima – 24 mars 2021
IIIF : Accès à toutes les miniatures
IIIF Biblissima – 24 mars 2021
IIIF : Accès à la structure, les heures de la Vierge
IIIF Biblissima – 24 mars 2021
Projet HORAE : 944 livres d’heures
IIIF Biblissima – 24 mars 2021
0 50 100 150 200 250 300 350
mazarinum.bibliotheque-mazarine.fr
www.e-manuscripta.ch
cudl.lib.cam.ac.uk
e-codices.unifr.ch
adore.ugent.be
iiif.archivelab.org
fuldig.hs-fulda.de
api.digitale-sammlungen.de
iiif.bodleian.ox.ac.uk
trin-sites-pub.trin.cam.ac.uk
digital.blb-karlsruhe.de
iiif.lib.harvard.edu
horae-pictavenses.fr
www.e-codices.unifr.ch
polona.pl
digi.vatlib.it
purl.stanford.edu
gallica.bnf.fr
bvmm.irht.cnrs.fr
Manifests par serveur IIIF
Projet HORAE : performances des serveurs
IIIF Biblissima – 24 mars 2021
5 serveurs IIIF en Europe
1 serveur de traitement à Helsinki
Projet HORAE : performances des serveurs
IIIF Biblissima – 24 mars 2021
Temps réseau
Temps
Download
62 529 requêtes
Projet HORAE : performances des serveurs
IIIF Biblissima – 24 mars 2021
serveur position temps
nombre
requêtes
logiciel
digi.vatlib.it Vatican 0.82 21441 IIPImage
www.e-codices.ch Fribourg, Suisse 0.62 14863 Loris
gallica.bnf.fr Paris, France 1.80 11760 IIPImage
iiif.irht.cnrs.fr Orléans, France 1.04 8806 OmekaS
horae-pictavenses.fr Paris/Niors, France 0.66 2868 OmekaS
trin-digital-library.trin.cam.ac.uk Cambridge, Angleterre 1.04 2791 Cantaloupe
Les performances dépendent de paramètres du serveur, de la charge, du cache, du format d’image…
Projet Balsac : Extraction d’information dans les
registres paroissiaux du Quebec (1850-1920)
IIIF Biblissima – 24 mars 2021
Projet Balsac : serveur IIIF
IIIF Biblissima – 24 mars 2021
10 centres
36 districts
1 985 paroisses
44 742 registres
1 995 646 images
Format JPEG2000
Stockage AWS S3
Images
Maintenant ?
• Consommation de RAM importante
• Migration en stockage local car S3 trop lent
• Conversion des images en JPEG pour réduire le stockage et éviter les
conversions par le serveur
Choix de Cantaloupe en 2019
• support AWS S3
• support JP2000
• très versatile (cache, support de multiples formats d’images)
• assez performant
Projet Balsac : Stratégies d’accès aux images
IIIF Biblissima – 24 mars 2021
Détection des lignes de texte :
• Prédiction par réseaux de neurones profonds
• Besoin d’accéder à l’image de page complète
Mais pas besoin de travailler sur l’image en
pleine taille car le réseau la réduit
https://iiif.teklia.com/main/iiif/2/balsac-jpg%2FDN0753%2F03Q_CE306S24%2F1903%2F03Q_CE306S24_1903_067.jpg/full/470,768/0/default.jpg - size=470x768
• temps moyen de download en full size : 6.96 sec
• temps moyen de download en taille réduite : 0.70 sec
Projet Balsac : Stratégies d’accès aux images
IIIF Biblissima – 24 mars 2021
Reconnaissance d’écriture:
• Prédiction par réseaux de neurones profonds
• Besoin d’accéder aux images de ligne
Mais l’utilisation des zones IIIF
• est trop lente car une requête par ligne
• surcharge les serveurs
Téléchargement de l’image complète et découpage
en ligne en local
Le onze novembre mil neuf cent trois , nous
prêtre , curé soussigné , avons baptisé Joseph
Charles Edgar né la veille , enfant légitime de
Joseph na deau et de Odibs Hallé , de cette
paroisse . Parrain Charles Nadeau , marraine
Victoria Bleton , vu n ' a signé avec le père
époux du parrain , Etaients de l ' en - Vant . Le
parrain n ' a su signer . Lechore faite . J .
Victoria Arston Joseph Nadeau J . E .
Feuilteault Ptre Le quatorze Novembre mil
neuf cent trois nous prêtre soussigné avons
baptisé Marie Georgiana , Emilia née ce jour
fille légitime de Odilon Turcotte meunier , et
de Anna Cloutier de cette paroisse . Parrain
Joseph Clau tier , grand père de l ' enfant de la
paroisse de l ' Enfant Jésus ; marraine
Georgianna Pinaulin son épouse , soussi gné
avec nous . et le père . Le parrain n ' a su signer
. Lecture faite Georgiana Poulin Odilon
Turcotte J . E . Feuiltant Ptre Le seize
novembre mil neuf cent trois nous prêtre
soussigné avons baptisé Marie Léonie Berthe
née la veille fille légitime de Trepplé Larochelle
cultivateur , et de Léonie L ' Heureux de la
paroisse de Saind Elzéar . Par rain Elzéar
Simard ; marraine Marie Carrier soussignée
avec nous . Le parrain n ' a su signer Le père
absent . Lecture faite . Marie Carrier J . E .
Canuel ptre
IIIF : quelques surprises
IIIF Biblissima – 24 mars 2021
https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/604,767/0/default.jpg https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/full/0/default.jpg
resized full
IIIF : quelques surprises
IIIF Biblissima – 24 mars 2021
https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/full/full/0/default.jpg
https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/info.json
L’image est de taille 5069×3616 selon info.json
Mais l’image téléchargée en full/full/0/default.jpg
est de taille … 4000×2853
Car le serveur limite la taille maximale des images
en précisant maxWidth / maxHeight
Sauf quand le serveur ne le précise pas…
(mauvaise configuration)
IIIF : quelques surprises
IIIF Biblissima – 24 mars 2021
• Migration des serveurs IIIF vers HTTPS pas toujours effectuée : les navigateurs
ne chargent pas les images
• Dans les manifests, les strings ne sont pas forcément des strings
"label": [ {"@value": "Titel"}, {"@value": "書名"},
{"@value": "Title"} ]
• Manifests non à jour (image en erreur, images supprimée)
• Mauvais arrondi au redimensionnement de certaines images : on demande
1024×1024, on obtient 1024×1025
SYNTHESYS+ : 30 institutions européennes
IIIF Biblissima – 24 mars 2021
Questions ?
kermorvant@teklia.com

Mais conteúdo relacionado

Mais de Equipex Biblissima

Mais de Equipex Biblissima (20)

Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
 
IIIF360: A Service to Support and Promote IIIF in France
IIIF360: A Service to Support and Promote IIIF in FranceIIIF360: A Service to Support and Promote IIIF in France
IIIF360: A Service to Support and Promote IIIF in France
 
The Biblissima Authority File of Geographical Names
The Biblissima Authority File of Geographical NamesThe Biblissima Authority File of Geographical Names
The Biblissima Authority File of Geographical Names
 
Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...
Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...
Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...
 
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
 
Biblissima: Connecting Manuscripts Collections
Biblissima: Connecting Manuscripts CollectionsBiblissima: Connecting Manuscripts Collections
Biblissima: Connecting Manuscripts Collections
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
A la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail BiblissimaA la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail Biblissima
 
Browse and Visualize Manuscripts Illuminations with IIIF
Browse and Visualize Manuscripts Illuminations with IIIFBrowse and Visualize Manuscripts Illuminations with IIIF
Browse and Visualize Manuscripts Illuminations with IIIF
 
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
 
A la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail BiblissimaA la recherche du patrimoine écrit avec le portail Biblissima
A la recherche du patrimoine écrit avec le portail Biblissima
 
The Biblissima Portal: Current state and future plans
The Biblissima Portal: Current state and future plansThe Biblissima Portal: Current state and future plans
The Biblissima Portal: Current state and future plans
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
Éparpillés façon puzzle. Rassembler aujourd'hui les manuscrits d'un auteur ca...
 
IIIF au coeur de la recherche: publier, agréger et divulguer les fragments de...
IIIF au coeur de la recherche: publier, agréger et divulguer les fragments de...IIIF au coeur de la recherche: publier, agréger et divulguer les fragments de...
IIIF au coeur de la recherche: publier, agréger et divulguer les fragments de...
 
Biblissima pour l'édition scientifique
Biblissima pour l'édition scientifiqueBiblissima pour l'édition scientifique
Biblissima pour l'édition scientifique
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
 
La découverte de la médecine médiévale à travers des outils numériques de Wel...
La découverte de la médecine médiévale à travers des outils numériques de Wel...La découverte de la médecine médiévale à travers des outils numériques de Wel...
La découverte de la médecine médiévale à travers des outils numériques de Wel...
 
Introduction aux APIs IIIF
Introduction aux APIs IIIFIntroduction aux APIs IIIF
Introduction aux APIs IIIF
 

Mise en œuvre de IIIF pour la reconnaissance automatique de documents

  • 1. Mise en œuvre de IIIF pour la reconnaissance automatique de documents IIIF - Biblissima Christopher Kermorvant
  • 2. Traitements automatiques de documents IIIF Biblissima – 24 mars 2021 • Traitement automatique de grandes collections de documents numérisés • Basé sur des algorithmes de Machine/Deep Learning • Platform As A Service • Compatible IIIF (dès le début) TEKLIA - Arkindex Arkindex versus eScriptorium ?
  • 3. Traitements automatiques de documents IIIF Biblissima – 24 mars 2021
  • 4. Illustration de l’usage de IIIF sur 2 projets IIIF Biblissima – 24 mars 2021 HORAE (HOurs - Recognition, Analysis, Editions) Etude des pratiques religieuses de la fin du Moyen Âge à travers les livres d’heures ANR-17-CE38-0008 BALSAC Reconnaissance de 6 millions d’actes paroissiaux du Quebec 1850-1920. Université du Québec à Chicoutimi
  • 5. Projet HORAE : études des livres d’heures IIIF Biblissima – 24 mars 2021
  • 6. IIIF : Accès à toutes les miniatures IIIF Biblissima – 24 mars 2021
  • 7. IIIF : Accès à la structure, les heures de la Vierge IIIF Biblissima – 24 mars 2021
  • 8. Projet HORAE : 944 livres d’heures IIIF Biblissima – 24 mars 2021 0 50 100 150 200 250 300 350 mazarinum.bibliotheque-mazarine.fr www.e-manuscripta.ch cudl.lib.cam.ac.uk e-codices.unifr.ch adore.ugent.be iiif.archivelab.org fuldig.hs-fulda.de api.digitale-sammlungen.de iiif.bodleian.ox.ac.uk trin-sites-pub.trin.cam.ac.uk digital.blb-karlsruhe.de iiif.lib.harvard.edu horae-pictavenses.fr www.e-codices.unifr.ch polona.pl digi.vatlib.it purl.stanford.edu gallica.bnf.fr bvmm.irht.cnrs.fr Manifests par serveur IIIF
  • 9. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 5 serveurs IIIF en Europe 1 serveur de traitement à Helsinki
  • 10. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 Temps réseau Temps Download 62 529 requêtes
  • 11. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 serveur position temps nombre requêtes logiciel digi.vatlib.it Vatican 0.82 21441 IIPImage www.e-codices.ch Fribourg, Suisse 0.62 14863 Loris gallica.bnf.fr Paris, France 1.80 11760 IIPImage iiif.irht.cnrs.fr Orléans, France 1.04 8806 OmekaS horae-pictavenses.fr Paris/Niors, France 0.66 2868 OmekaS trin-digital-library.trin.cam.ac.uk Cambridge, Angleterre 1.04 2791 Cantaloupe Les performances dépendent de paramètres du serveur, de la charge, du cache, du format d’image…
  • 12. Projet Balsac : Extraction d’information dans les registres paroissiaux du Quebec (1850-1920) IIIF Biblissima – 24 mars 2021
  • 13. Projet Balsac : serveur IIIF IIIF Biblissima – 24 mars 2021 10 centres 36 districts 1 985 paroisses 44 742 registres 1 995 646 images Format JPEG2000 Stockage AWS S3 Images Maintenant ? • Consommation de RAM importante • Migration en stockage local car S3 trop lent • Conversion des images en JPEG pour réduire le stockage et éviter les conversions par le serveur Choix de Cantaloupe en 2019 • support AWS S3 • support JP2000 • très versatile (cache, support de multiples formats d’images) • assez performant
  • 14. Projet Balsac : Stratégies d’accès aux images IIIF Biblissima – 24 mars 2021 Détection des lignes de texte : • Prédiction par réseaux de neurones profonds • Besoin d’accéder à l’image de page complète Mais pas besoin de travailler sur l’image en pleine taille car le réseau la réduit https://iiif.teklia.com/main/iiif/2/balsac-jpg%2FDN0753%2F03Q_CE306S24%2F1903%2F03Q_CE306S24_1903_067.jpg/full/470,768/0/default.jpg - size=470x768 • temps moyen de download en full size : 6.96 sec • temps moyen de download en taille réduite : 0.70 sec
  • 15. Projet Balsac : Stratégies d’accès aux images IIIF Biblissima – 24 mars 2021 Reconnaissance d’écriture: • Prédiction par réseaux de neurones profonds • Besoin d’accéder aux images de ligne Mais l’utilisation des zones IIIF • est trop lente car une requête par ligne • surcharge les serveurs Téléchargement de l’image complète et découpage en ligne en local Le onze novembre mil neuf cent trois , nous prêtre , curé soussigné , avons baptisé Joseph Charles Edgar né la veille , enfant légitime de Joseph na deau et de Odibs Hallé , de cette paroisse . Parrain Charles Nadeau , marraine Victoria Bleton , vu n ' a signé avec le père époux du parrain , Etaients de l ' en - Vant . Le parrain n ' a su signer . Lechore faite . J . Victoria Arston Joseph Nadeau J . E . Feuilteault Ptre Le quatorze Novembre mil neuf cent trois nous prêtre soussigné avons baptisé Marie Georgiana , Emilia née ce jour fille légitime de Odilon Turcotte meunier , et de Anna Cloutier de cette paroisse . Parrain Joseph Clau tier , grand père de l ' enfant de la paroisse de l ' Enfant Jésus ; marraine Georgianna Pinaulin son épouse , soussi gné avec nous . et le père . Le parrain n ' a su signer . Lecture faite Georgiana Poulin Odilon Turcotte J . E . Feuiltant Ptre Le seize novembre mil neuf cent trois nous prêtre soussigné avons baptisé Marie Léonie Berthe née la veille fille légitime de Trepplé Larochelle cultivateur , et de Léonie L ' Heureux de la paroisse de Saind Elzéar . Par rain Elzéar Simard ; marraine Marie Carrier soussignée avec nous . Le parrain n ' a su signer Le père absent . Lecture faite . Marie Carrier J . E . Canuel ptre
  • 16. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/604,767/0/default.jpg https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/full/0/default.jpg resized full
  • 17. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/full/full/0/default.jpg https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/info.json L’image est de taille 5069×3616 selon info.json Mais l’image téléchargée en full/full/0/default.jpg est de taille … 4000×2853 Car le serveur limite la taille maximale des images en précisant maxWidth / maxHeight Sauf quand le serveur ne le précise pas… (mauvaise configuration)
  • 18. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 • Migration des serveurs IIIF vers HTTPS pas toujours effectuée : les navigateurs ne chargent pas les images • Dans les manifests, les strings ne sont pas forcément des strings "label": [ {"@value": "Titel"}, {"@value": "書名"}, {"@value": "Title"} ] • Manifests non à jour (image en erreur, images supprimée) • Mauvais arrondi au redimensionnement de certaines images : on demande 1024×1024, on obtient 1024×1025
  • 19. SYNTHESYS+ : 30 institutions européennes IIIF Biblissima – 24 mars 2021