O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Mise en œuvre de IIIF pour la reconnaissance automatique de documents

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 20 Anúncio

Mise en œuvre de IIIF pour la reconnaissance automatique de documents

Baixar para ler offline

Par Christopher Kermorvant (Président de TEKLIA).

Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021

Par Christopher Kermorvant (Président de TEKLIA).

Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Mais de Equipex Biblissima (20)

Mais recentes (20)

Anúncio

Mise en œuvre de IIIF pour la reconnaissance automatique de documents

  1. 1. Mise en œuvre de IIIF pour la reconnaissance automatique de documents IIIF - Biblissima Christopher Kermorvant
  2. 2. Traitements automatiques de documents IIIF Biblissima – 24 mars 2021 • Traitement automatique de grandes collections de documents numérisés • Basé sur des algorithmes de Machine/Deep Learning • Platform As A Service • Compatible IIIF (dès le début) TEKLIA - Arkindex Arkindex versus eScriptorium ?
  3. 3. Traitements automatiques de documents IIIF Biblissima – 24 mars 2021
  4. 4. Illustration de l’usage de IIIF sur 2 projets IIIF Biblissima – 24 mars 2021 HORAE (HOurs - Recognition, Analysis, Editions) Etude des pratiques religieuses de la fin du Moyen Âge à travers les livres d’heures ANR-17-CE38-0008 BALSAC Reconnaissance de 6 millions d’actes paroissiaux du Quebec 1850-1920. Université du Québec à Chicoutimi
  5. 5. Projet HORAE : études des livres d’heures IIIF Biblissima – 24 mars 2021
  6. 6. IIIF : Accès à toutes les miniatures IIIF Biblissima – 24 mars 2021
  7. 7. IIIF : Accès à la structure, les heures de la Vierge IIIF Biblissima – 24 mars 2021
  8. 8. Projet HORAE : 944 livres d’heures IIIF Biblissima – 24 mars 2021 0 50 100 150 200 250 300 350 mazarinum.bibliotheque-mazarine.fr www.e-manuscripta.ch cudl.lib.cam.ac.uk e-codices.unifr.ch adore.ugent.be iiif.archivelab.org fuldig.hs-fulda.de api.digitale-sammlungen.de iiif.bodleian.ox.ac.uk trin-sites-pub.trin.cam.ac.uk digital.blb-karlsruhe.de iiif.lib.harvard.edu horae-pictavenses.fr www.e-codices.unifr.ch polona.pl digi.vatlib.it purl.stanford.edu gallica.bnf.fr bvmm.irht.cnrs.fr Manifests par serveur IIIF
  9. 9. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 5 serveurs IIIF en Europe 1 serveur de traitement à Helsinki
  10. 10. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 Temps réseau Temps Download 62 529 requêtes
  11. 11. Projet HORAE : performances des serveurs IIIF Biblissima – 24 mars 2021 serveur position temps nombre requêtes logiciel digi.vatlib.it Vatican 0.82 21441 IIPImage www.e-codices.ch Fribourg, Suisse 0.62 14863 Loris gallica.bnf.fr Paris, France 1.80 11760 IIPImage iiif.irht.cnrs.fr Orléans, France 1.04 8806 OmekaS horae-pictavenses.fr Paris/Niors, France 0.66 2868 OmekaS trin-digital-library.trin.cam.ac.uk Cambridge, Angleterre 1.04 2791 Cantaloupe Les performances dépendent de paramètres du serveur, de la charge, du cache, du format d’image…
  12. 12. Projet Balsac : Extraction d’information dans les registres paroissiaux du Quebec (1850-1920) IIIF Biblissima – 24 mars 2021
  13. 13. Projet Balsac : serveur IIIF IIIF Biblissima – 24 mars 2021 10 centres 36 districts 1 985 paroisses 44 742 registres 1 995 646 images Format JPEG2000 Stockage AWS S3 Images Maintenant ? • Consommation de RAM importante • Migration en stockage local car S3 trop lent • Conversion des images en JPEG pour réduire le stockage et éviter les conversions par le serveur Choix de Cantaloupe en 2019 • support AWS S3 • support JP2000 • très versatile (cache, support de multiples formats d’images) • assez performant
  14. 14. Projet Balsac : Stratégies d’accès aux images IIIF Biblissima – 24 mars 2021 Détection des lignes de texte : • Prédiction par réseaux de neurones profonds • Besoin d’accéder à l’image de page complète Mais pas besoin de travailler sur l’image en pleine taille car le réseau la réduit https://iiif.teklia.com/main/iiif/2/balsac-jpg%2FDN0753%2F03Q_CE306S24%2F1903%2F03Q_CE306S24_1903_067.jpg/full/470,768/0/default.jpg - size=470x768 • temps moyen de download en full size : 6.96 sec • temps moyen de download en taille réduite : 0.70 sec
  15. 15. Projet Balsac : Stratégies d’accès aux images IIIF Biblissima – 24 mars 2021 Reconnaissance d’écriture: • Prédiction par réseaux de neurones profonds • Besoin d’accéder aux images de ligne Mais l’utilisation des zones IIIF • est trop lente car une requête par ligne • surcharge les serveurs Téléchargement de l’image complète et découpage en ligne en local Le onze novembre mil neuf cent trois , nous prêtre , curé soussigné , avons baptisé Joseph Charles Edgar né la veille , enfant légitime de Joseph na deau et de Odibs Hallé , de cette paroisse . Parrain Charles Nadeau , marraine Victoria Bleton , vu n ' a signé avec le père époux du parrain , Etaients de l ' en - Vant . Le parrain n ' a su signer . Lechore faite . J . Victoria Arston Joseph Nadeau J . E . Feuilteault Ptre Le quatorze Novembre mil neuf cent trois nous prêtre soussigné avons baptisé Marie Georgiana , Emilia née ce jour fille légitime de Odilon Turcotte meunier , et de Anna Cloutier de cette paroisse . Parrain Joseph Clau tier , grand père de l ' enfant de la paroisse de l ' Enfant Jésus ; marraine Georgianna Pinaulin son épouse , soussi gné avec nous . et le père . Le parrain n ' a su signer . Lecture faite Georgiana Poulin Odilon Turcotte J . E . Feuiltant Ptre Le seize novembre mil neuf cent trois nous prêtre soussigné avons baptisé Marie Léonie Berthe née la veille fille légitime de Trepplé Larochelle cultivateur , et de Léonie L ' Heureux de la paroisse de Saind Elzéar . Par rain Elzéar Simard ; marraine Marie Carrier soussignée avec nous . Le parrain n ' a su signer Le père absent . Lecture faite . Marie Carrier J . E . Canuel ptre
  16. 16. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/604,767/0/default.jpg https://digital.blb-karlsruhe.de/blbhs/i3f/v20/1078658/full/full/0/default.jpg resized full
  17. 17. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/full/full/0/default.jpg https://adore.ugent.be/IIIF/images/archive.ugent.be%3A7F0C4994-C579-11E7-8646-155E6EE4309A%3ADS.50/info.json L’image est de taille 5069×3616 selon info.json Mais l’image téléchargée en full/full/0/default.jpg est de taille … 4000×2853 Car le serveur limite la taille maximale des images en précisant maxWidth / maxHeight Sauf quand le serveur ne le précise pas… (mauvaise configuration)
  18. 18. IIIF : quelques surprises IIIF Biblissima – 24 mars 2021 • Migration des serveurs IIIF vers HTTPS pas toujours effectuée : les navigateurs ne chargent pas les images • Dans les manifests, les strings ne sont pas forcément des strings "label": [ {"@value": "Titel"}, {"@value": "書名"}, {"@value": "Title"} ] • Manifests non à jour (image en erreur, images supprimée) • Mauvais arrondi au redimensionnement de certaines images : on demande 1024×1024, on obtient 1024×1025
  19. 19. SYNTHESYS+ : 30 institutions européennes IIIF Biblissima – 24 mars 2021
  20. 20. Questions ? kermorvant@teklia.com

×