Diaporama de la présentation de Gautier Poupeau (Antidot) faite à l'occasion de la journée d'études : indexation, Web sémantique, Web de données organisée à l'Ecole nationale de la photographie d'Arles
Comment mettre en relation données et documents pour produire une informati...
Web sémantique et référentiels : l'avenir de l'image sur le Web
1. Web sémantique et référentiels :
l’avenir de l’image sur le Web
Journée d'études : Indexation, web sémantique et web des données
12 novembre 2013, ENSP, Arles
Gautier Poupeau
gpoupeau@antidot.net
@lespetitescases
http://www.lespetitescases.net
1
4. De l’image aux métadonnées
Nous, autres humains, y reconnaissons Eugène Delacroix
4
5. De l’image aux métadonnées
Mais voici ce que voit une machine…
5
6. De l’image aux métadonnées
Pourtant, je la trouve dans Google…
6
7. De l’image aux métadonnées
Car des informations sont associées à l’image
Son contexte d’utilisation
Titre de la page Web, mots autour de l’image…
7
8. De l’image aux métadonnées
Car des informations sont associées à l’image
Des informations embarquées dans l’image
IPTC/XMP/EXIF…
8
9. De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées liées à l’image
<img alt="File:Eugene delacroix.jpg"
src="451px-Eugene_delacroix.jpg"
width="451" height="599"
title="Autoportrait au gilet vert d'Eugène
Delacroix (1837)"/>
Titre du fichier, titre de l’image, texte alternatif…
9
10. De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Détection automatique des couleurs
10
11. De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Détection automatique des formes (ici un visage)
11
12. De l’image aux métadonnées
Car des informations sont associées à l’image
Des métadonnées générées automatiquement
Mise en relation avec des images similaires
12
13. De l’image aux métadonnées
Les métadonnées
= l’interface entre les humains et la machine pour accéder à l’image
13
15. Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet physique
De quel objet physique du monde réel cette image
est-elle la reproduction ?
Comment est fait cet objet physique ?
Quelle est l’histoire de cet objet physique (événements…) ?
15
16. Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet informationnel
Quelles informations sont véhiculées par l’image ? Que voit-on ?
16
17. Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet numérique
Quelle est le format du fichier ? Quel est son identifiant, son nom… ?
Comment le fichier peut-il être exploité ? Comment a-t-il été obtenu ?
17
18. Quelles métadonnées ?
L’image n’est pas uniforme, elle possède plusieurs dimensions
Objet dans une collection
Comment l’image est entrée dans la collection ?
L’image appartient-elle à un ensemble ?
Qui l’a décrite ? Quand ?
18
20. Trouver une structure commune
Utilisateur A
Titre : La liberté guidant le peuple
Artiste : Eugène Delacroix
Nom du fichier : liberte-guidant.jpg
20
21. Trouver une structure commune
Utilisateur A
Utilisateur B
Titre : La liberté guidant le peuple
Artiste : Eugène Delacroix
Nom du fichier : liberte-guidant.jpg
Title : Autoportrait au gilet Vert
Creator : Eugène Delacroix
Filename : Autoportrait-1837.jpg
21
22. Trouver une structure commune
Utilisateur A
Utilisateur B
Titre : La liberté guidant le peuple
Artiste : Eugène Delacroix
Nom du fichier : liberte-guidant.jpg
Title : Autoportrait au gilet Vert
Creator : Eugène Delacroix
Filename : Autoportrait-1837.jpg
Il faut trouver une structure de métadonnées communes
22
25. Utiliser des références communes
Utilisateur A
creator
Delacroix, Eugène
Utilisateur B
creator
E. Delacroix
25
26. Utiliser des références communes
Utilisateur A
Utilisateur B
creator
creator
?
Delacroix, Eugène
?
E. Delacroix
Il faut utiliser des références communes
26
27. Utiliser des références communes
Utilisateur A
Utilisateur B
creator
creator
?
Delacroix, Eugène
?
E. Delacroix
27
28. Utiliser des références communes
Utilisateur A
Utilisateur B
creator
creator
?
Delacroix, Eugène
?
E. Delacroix
Il faut utiliser des références communes
28
29. Désambiguïser les chaînes de caractères
Utilisateur A
Mots-clés :
peinture, romantique, revolution, dra
peau, gavroche
29
30. Désambiguïser les chaînes de caractères
Utilisateur A
Mots-clés :
peinture, romantique, revolution, dra
peau, gavroche
Utilisateur B
Mots-clés :
tableau, romantisme, Révolution de
1830, flag, Gavroche
30
31. Désambiguïser les chaînes de caractères
Utilisateur A
Mots-clés :
peinture, romantique, revolution, dra
peau, gavroche
Utilisateur B
Mots-clés :
tableau, romantisme, Révolution de
1830, flag, Gavroche
Il faut utiliser un vocabulaire commun
dont les chaînes de caractère ne constituent pas l’identifiant
31
32. Relier des données hétérogènes
Quel est le point commun entre cette image et ce livre ?
32
33. Relier des données hétérogènes
Quel est le point commun entre cette image et ce livre ?
33
34. Relier des données hétérogènes
Quel est le point commun entre cette image et ce livre ?
Il ne faut pas se limiter à relier des objets de même nature
34
36. Relier des vocabulaires
Archives nationales
Bibliothèque nationale de France
Archives de Robespierre
Révolution de 1789
France -- 1789-1799 (Révolution)
36
37. Relier des vocabulaires
Archives nationales
Bibliothèque nationale de France
Archives de Robespierre
Révolution de 1789
France -- 1789-1799 (Révolution)
37
38. Relier des vocabulaires
Archives nationales
Bibliothèque nationale de France
Archives de Robespierre
Révolution de 1789
France -- 1789-1799 (Révolution)
Il faut relier des vocabulaires existants
38
40. Mettre en commun la richesse de l’information
Conversion et copie
Plus petit dénominateur
commun
Il faut partager et relier les données sans perte d’informations
40
43. Le Web de documents
Un dispositif technologique pour mettre à disposition, lier et partager
des documents sur un réseau de machines connectées.
Un mécanisme
de communication
Un mécanisme
d'identification
HTTP
URI
Encoder le message
HTML
Interpréter le code
Relier les documents
Le navigateur Web
Le lien hypertexte
43
44. Le Web de données
Créer une langue pour les machines
HTTP
URI
Une grammaire
Des vocabulaires
Des règles
d’écriture
RDF
RDFS/OWL
RDF/XML, N3
Turtle, RDFa
Des moyens
de communication
SPARQL
44
45. Des identifiants
Attribuer des URIs aux choses
http://www.mied.org/personne/Eugene_Delacroix
http://www.mied.org/oeuvre/Liberte_guidant_le_peuple
http://www.mied.org/lieu/Paris
http://www.mied.org/institution/Louvre
http://www.mied.org/concept/Romantisme
http://www.mied.org/concept/Tableau
45
46. Une grammaire
Exprimer des faits sur les choses sous la forme
d’une phrase simple ou triplets
sujet
objet
prédicat
http://www.mied.org/personne/Eugene_Delacroix
http://www.mied.org/ontologie/auteur
http://www.mied.org/oeuvre/Liberte_guidant_le_peuple
46
47. Dépasser la chaîne de caractères
Disposer d’une URI permet de désambigüiser
une chaîne de caractères
est mort à
“Paris”
?
47
48. Dépasser la chaîne de caractères
Et de produire de nouvelles assertions
sur cette chose
est mort à
http://www.mied.org/lieu/Paris
est un
fait partie de
label
“Paris”@fr
label
“Parigi”@it
48
49. Le graphe
L'ensemble des triplets, reliés les uns aux autres par les URI
qu’ils ont en commun, constitue un graphe.
est contemporain de
est un
est l'auteur de
est un
est mort à
est mort à
est un
est conservé au
se trouve à
est conservé au
49
50. Les principes du Web de données
http://dbpedia.org/resource/
Smoking_pipe_%28tobacco%29
Utiliser des URIs
Donner l’accès aux
données utiles en utilisant
les standards SPARQL et
RDF
Utiliser des URIs
accessibles via HTTP
Source : http://www.w3.org/2009/Talks/0204-ted-tbl/#%281%29
Exprimer
l’URI des objets liés
50
51. Et le Web de données grandit
2009
2008
2007
2011
51
53. Présentation du projet HADOC
HArmonisation de la production des DOnnées Culturelles
Mise au point d’un modèle de données unique pour décrire les
biens culturels de tous types
Mise au point d’un prototype pour :
valider le travail de modélisation ;
évaluer les difficultés pour convertir automatiquement les
données actuelles vers ce modèle ;
montrer les points de recoupement entre les différents
référentiels du Ministère de la culture et de la
Communication ;
montrer l'apport du modèle et des technologies du Web
sémantique pour valoriser les données du MCC.
53
54. Conversion des notices Mistral
Repérage des différentes entités de la notice
et la nature de leurs relations
Lieu
Localisation du bien
Evénement
Agent
Bien culturel
Objet informationnel
Ressource
54
55. Mise en relation directe des notices
Bien culturel issue de Palissy
IM77000138
Est le support de
Image issue de Mémoire
IVR11_02771047
Est associé à
Document d’archive issue d’Arcade
AR504446
55
56. Mise en relation des notices par les
référentiels
IA78000988
Mérimée
Yvelines
INSEE
IM78001418
Palissy
Sculpture
Référentiel Palissy
IM78002464
Palissy
Sculpture
Référentiel Mérimée
56
57. Consolidation du graphe
4e quart 19e siècle
Musée municipal
Frédéric Blandin
Dompierre-sur-Nièvre
Evénement
de création
BOUVEAULT
Théophile François Adolphe
Décor maçonnique
Joconde
57
58. Exploitation du graphe : la hiérarchie
Période de
création
Epoque
contemporaine
XIXe
1ère moitié
du XIXe
2ème moitié
du XIXe
IM34001703
58
59. Exploitation du graphe : la hiérarchie
Période de
création
Epoque
contemporaine
XIXe
1ère moitié
du XIXe
2ème moitié
du XIXe
IM34001703
59
60. Exploitation du graphe : enrichissement
48.856930
Latitude
2.341200
Longitude
Coordonnées géographiques
Musée du Louvre
M5037010481
60
61. Exploitation du graphe : enrichissement
48.856930
Latitude
2.341200
Longitude
Coordonnées géographiques
Musée du Louvre
M5037010481
61
62. Exploitation du graphe : enrichissement
48.856930
Latitude
2.341200
Longitude
Coordonnées géographiques
Ile-de-France
Musée du Louvre
M5037010481
Paris
62
63. Exploitation du graphe : enrichissement
48.856930
Latitude
2.341200
Longitude
Coordonnées géographiques
Ile-de-France
Musée du Louvre
M5037010481
Paris
63
64. Exploitation du graphe : le parcours
4e quart 19e siècle
Musée municipal
Frédéric Blandin
Dompierre-sur-Nièvre
Evénement
de création
BOUVEAULT
Théophile François Adolphe
Décor maçonnique
Joconde
64
65. Exploitation du graphe : le parcours
4e quart 19e siècle
Musée municipal
Frédéric Blandin
Dompierre-sur-Nièvre
Evénement
de création
BOUVEAULT
Théophile François Adolphe
Décor maçonnique
Joconde
65
67. Exemples de facettes
Hiérarchie administrative rétablie à partir du référentiel de l’INSEE
Hiérarchie administrative rétablie à partir de la structure du
référentiel Palissy
Facette à plat à partir de l’annotation avec le référentiel Palissy
67