3.
Etat des lieux en 2008
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères) par J.-Y. Ramel
● Mise en place d’une « base iconographique » par Sébastien Busson
● Base de lettrines (« Ornamental letters database ») par Sébastien
Busson
● Deux ANR sur le traitement d’images de documents :
○ Madonne (« Masses de données issues de la numérisation du
Patrimoine », 2003-2006)
○ Navidomass (« Navigation into document masses », 2007-2010).
4.
Développements (2008 -2014)
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères)
● Google Award in Digital Humanities , 2011 et 2012
● 2013 : Mise en place de BaTyR :
« Base de typographie de la Renaissance »
http://www.bvh.univ-tours.fr/batyr/beta/
5.
Développements (2008 -2014)
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères)
● Google Award in Digital Humanities , 2011 et 2012
● 2013 : Mise en place de BaTyR :
« Base de typographie de la Renaissance »
● 2013-2014 : refonte d’AGORA (Pascal Bourquin)
● 2014 : prix « Succeed »
6.
Depuis 2014
■ Aucune mise à jour de BaTyR
■ Une collaboration ininterrompue avec le LIFAT :
● 2017 : stage « Recalage et comparaison d’images de pages provenant de
différents exemplaires de livres anciens numérisés » (Shuo Bai ; outil « Micro
Eye »)
● 2018 : stage « Caractérisation et classification de différences locales
détectées dans des collections d’images similaires » (Iandri Rakotoniaina)
● 2020 : mémoire d’informatique sur Rétro (Guillaume Ciret)
● 2022 : stages sur Rétro (Justine Pinsard, Inès Feugier)
7.
ANR TypoReF
« Typographie de la Renaissance française »
● Projet déposé en octobre 2021 (phase 1) et mars 2022 (phase 2).
● Financement obtenu en juillet 2022 : 266 793 €
● Calendrier prévisionnel : mars 2023-mars 2027 (48 mois)
8.
● Étudier les principaux acteurs impliqués dans l’évolution des formes
typographiques
● Mieux connaître les conditions concrètes de production, de vente et
de circulation des matériels typographiques
● Développer des outils informatiques d’analyse d’images dédiés à
l’étude des matériels d’imprimerie anciens,
● Refonte et reprise de BaTyR (objectifs : 20 000 à 30 000
occurrences d’ornements gravés et 200 à 300 polices de caractères)
ANR TypoReF
« Typographie de la Renaissance française »
Objectifs
9.
● Matériels ornementaux gravés (illustrations exclues !) :
○ lettres ornées
○ bandeaux,
○ encadrements,
○ fleurons,
○ culs-de-lampes, etc.
● Polices de caractères
→ imprimés dans le royaume de France entre 1470 et 1640
ANR TypoReF
« Typographie de la Renaissance française »
Objets
10.
Trois types de sources :
1. Les livres imprimés anciens ( BaTyR)
(à travers des fac-similés numériques accessibles via le protocole IIIF)
11.
1. Les livres imprimés anciens
(par la consultation des originaux)
Trois types de sources :
14.
2. Les archives (ReNumAR)
Inventaire de Michel Le Duc, 21/07/1589
« Item quatre paires de tresteaux ou chevalet
servantz à mettre casses, dont trois paires sont
à chassis, garniz d’aiz par dessous et l’autre
paire telle quelle, prisez ensemble deux escuz sol. »
Trois types de sources :
15.
2. Les archives (ReNumAR)
A esté trouvé en l’imprimerie
une fonte de cicero romain estant dans un manequin
cent soixante quatre livres pesant
Item une fonte de petit texte romain estant
en un manequin poisé deux centz seize livres
Trois types de sources :
16.
2. Les archives (ReNumAR)
Une layette en laquelle y a des vignettes
in seize moulees sur plomb de cuivre avec leur
blocquage le tout prise ensemble vingtz
et cinq livres
Inventaire après-décès d’Agnès Suscevin, Paris, 1573
Trois types de sources :
17.
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
18.
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
19.
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
20.
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
21.
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
22.
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
23.
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
24.
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
25.
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
26.
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
27.
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
28.
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
29.
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
30.
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
31.
Atelier « Fabriquer un livre au XVIe siècle », février 2022
2024 : la « Fac Tory » à Bourges !
32.
Atelier « Fabriquer un livre au XVIe siècle », février 2021
2024 : la « Fac Tory » à Bourges !
33.
Atelier « Fabriquer un livre au XVIe siècle », février 2021
2024 : la « Fac Tory » à Bourges !
37.
Agora et Retro version 2011…
● Retro exploite les sorties d’Agora :
○ Regroupement des EoC
similaires en cluster
○ Annotation des EoC et cluster
(transcription)
● Agora analyse un document présenté sous la forme d’une image et identifie les
éléments qui le constituent (EoC) : caractères, lignes, blocs, illustrations,
marges, titres, etc.
38.
Agora version 2011
● Agora analyse un document présenté sous la
forme d’une image et identifie les éléments qui le
constituent : caractères, lignes, blocs, illustrations,
marges, titres, etc.
● Fonctionne d’après des règles définies par
l’utilisateur, sous la forme de scénarios
● Les règles utilisent des informations concernant
les formes détectées, leur position dans la page,
leur position relatives, leur taille…
39.
Retro version 2011
Retro permet d’associer du texte aux
éléments isolés par Agora
Il rassemble des éléments sur la
base d’une similarité afin de les
traiter en lots.
Il permet certains traitements sur
chaque lot constitué, par exemple
l’extraction de polices de caractères
ou l’annotation, voire la
transcription.
40.
Agora version 2011 :: les limites
● La binarisation des images pose parfois problème
EoC
41.
Agora version 2011 :: les limites
● Les interfaces de création de scénario sont complexes à utiliser
42.
Retro version 2011 :: les limites
Le clustering est une phase longue et très sensible :
● Pas suffisamment de clusters = erreurs à corriger
● Trop de clusters = plus d’interventions utilisateur
Retro n’a pas de métier identifié, il sert à beaucoup de choses
● Logiciel qui s’alourdit, se fragilise et se déprécie
43.
Besoin d’évolution de l’ensemble
Logiciels datés :
● Pas d’utilisation des techniques « réseaux profonds »
● Interfaces utilisateurs à repenser
● Standard d’échange ALTO à mettre à jour
● Pas ouvert sur le web, notamment pour l’accès aux images
45.
Vers une nouvelle version d’Agora
● Remplacement de la binarisation par de nouvelles
méthodes de segmentation sémantique (Deep Learning)
○ Meilleure résistance au bruit, dégradations et
structures fluctuantes (EoC interconnectés)
○ Classes détectées : lignes et paragraphes, éléments
d’ornements, figures, annotations marginales et
manuscrites
46.
Vers une nouvelle version d’Agora
● Refonte des interfaces de création des scénarios
○ Intégration dans la plateforme web unifiée avec Retro
○ Intégration de IIIF pour les images en entrée
Scenarios utilisateur exploitant
des règles de positionnement,
voisinage, forme
Modèles Neuronaux
prédéfinis
EoC de classes prédéfinis :
lignes, ornements, figures,
annotations, …
Eoc de classe Utilisateur
Résultats envoyés vers Retro
Images
Format IIIF
Images
d’apprentissage
IHM Web AGORA
47.
Retro
Recentrage sur le cœur de métier : la transcription
Utilisation conjointe de deux mécanismes :
● L’ancien (non supervisé), avec un nouvel algorithme
● Une technique « profonde », supervisée, pour proposer une
transcription automatique
Retro apprend à transcrire en regardant l’utilisateur le faire, et
d’après l’expérience des ouvrages précédemment transcrits .
Retro apprend « en permanence » d’après les nouvelles
connaissances disponibles .
52.
Applications dans TypoReF (1)
Utilisation des lettrines de la base de connaissances de Retro
● Isolées par Agora
● Ou importées de BaTyR
Calcul de métadonnées d’après des algorithmes packagées sous
la forme de plug-ins
2022/23 – Projets de L2 Info (15 étudiants, 4 groupes)
55.
Plateforme web, ouverte et
extensible
utilisant l’IA pour
accompagner l’utilisateur et
enrichir les données
56.
Cette œuvre est mise à disposition selon les termes
de la Licence Creative Commons Attribution -
Partage dans les Mêmes Conditions 4.0
International.
Parece que tem um bloqueador de anúncios ativo. Ao listar o SlideShare no seu bloqueador de anúncios, está a apoiar a nossa comunidade de criadores de conteúdo.
Odeia anúncios?
Atualizámos a nossa política de privacidade.
Atualizámos a nossa política de privacidade de modo a estarmos em conformidade com os regulamentos de privacidade em constante mutação a nível mundial e para lhe fornecer uma visão sobre as formas limitadas de utilização dos seus dados.
Pode ler os detalhes abaixo. Ao aceitar, está a concordar com a política de privacidade atualizada.