Communication présentée lors de la journée d'étude "Outils, méthodes, corpus : la modélisation des données en SHS" (Paris, Institut national d'histoire de l'art, 17 novembre 2014).
Semelhante a Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data
Semelhante a Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data (20)
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data
1. L’expérience LIMC et CLAROS.
Pour l’élévation des données du patrimoine et de la culture
dans le Linked (Open) Data
- Anne-Violaine SZABADOS -
-Journée d’étude sur le web de données et les sciences humaines et
sociales
-OUTILS, MÉTHODES, CORPUS : LA MODÉLISATION DES DONNÉES EN SHS
-InVisu (USR3103 CNRS/INHA). PARIS, INHA. 17 novembre 2014
1
2. Plan:
[Le fond vert et blanc évoque des jeux de données reliés, connectés]
Ressources numériques LIMC-France
Historique du programme CLAROS
Modèle CLAROS (fondé sur le CIDOC CRM)
Composants
Exemples
D’autres modèles : British Museum, LIDO, EDM, HADOC
Thésaurus multilingue THEA (Thésaurus-Antiquité)
Les référentiels à l’épreuve…
2
3. Le domaine de recherche du LIMC est l’iconographie de la mythologie et de la
religion antique en lien avec la culture classique.
- L’équipe française du LIMC diffuse sur son site Web « LIMC-France » les
ressources numériques qu’elle produit. Ces ressources correspondent à son fonds
documentaire et complètent la publication, le Lexicon Iconographicum
Mythologiae Classicae (LIMC). Il n'y a pas d'équivalent numérique en-ligne de
la publication traditionnelle, le Lexicon. Par rapport à ce-dernier, les ressources
numériques « LIMC-France » sont indépendantes et complémentaires.
- La ressource numérique principale, le corpus d'objet « LIMC-icon », correspond
à un catalogue d’objets antiques portant une scène relative à la mythologie. C’est
une sorte de catalogue électronique, de collection de musée "virtuelle".
- L’indexation et la saisie d'une grande partie des données reposent sur
l'utilisation du thésaurus multilingue du LIMC, TheA (Thésaurus-Antiquité), qui
comprend des micro-thésaurus consacrés aux lieux, aux personnes, aux périodes
chronologiques, aux domaines artistiques et types d’objets, à l’iconographie
classique…
3
4. Vers 2000/2001, nous avons été contactés par le Beazley Archive d’Oxford (Donna
KURTZ) pour participer à la création d’un portail international visant à donner un
accès unifié à plusieurs ressources en ligne consacrées à l’Antiquité classique.
- L’autre partenaire historique est Arachne (Reinhard FÖRTSCH. CoDArchLab, de
l'Institut archéologique de l'Université de Cologne. Cf. également le site iDAI /
Deutsches Archäologisches Institut).
4
5. Le projet a connu plusieurs phases (CLAROSnet, MyEvent…). Dès 2004 et 2005 au
moins, l’orientation Web sémantique, OWL, l’OAI-PMH a été exprimée (Manfred
THALLER…).
- CLAROS a réellement débuté en 2008 dans sa forme actuelle et avec un
quatrième partenaire, le Greek Lexicon of Personal Names (LGPN. Sebastian
RAHTZ).
- On voit ici deux schémas de 2008 retrouvés dans la documentation du projet.
- Le premier montre l’approche de l’époque : les données pertinentes pour
l’interrogation sont extraites des ressources numériques d'origine des partenaires
et versées, avec un alignement sur un schéma commun, dans une base dédiée au
projet.
5
6. L’autre schéma témoigne du fait que le CIDOC CRM, RDF, SPARQL et un
triplestore étaient envisagés dès cette époque.
- Le site Web a été ouvert vers 2011.
- D'autres partenaires se sont ajoutés, faisant ainsi évoluer le périmètre de
CLAROS : collections d'objets mais aussi documents d'archives, photos anciennes,
etc. ; culture classique mais aussi orientale, asiatique…
- CLAROS propose également des requêtes et visualisations associant des
données géographiques (webmapping) avec une frise chronologique ; ainsi qu'un
outil de "recherche par le contenu de l'image" (Content Image Retrieval).
6
7. Voici trois schémas, dérivant de ceux publiés par Emmanuelle BERMÈS (en
collaboration avec Antoine ISAAC et Gautier POUPEAU) dans "Le Web Sémantique
en bibliothèque" (2013). Il rendent compte de trois formes d’interopérabilité que
l’on peut retrouver plus ou moins dans CLAROS, dans les différentes étapes de
réalisation du projet, mais aussi simultanément car CLAROS s'est adapté aux
moyens des partenaires:
- Le premier correspond au schéma de 2008 et à l’interopérabilité fondée sur les
dénominateurs communs : un mapping des données communes pertinentes
(plutôt que le plus petit dénominateur commun) avec un modèle/schéma
commun.
- Le second fait référence au modèle "roue et essieu" (hub and spoke), avec des
référentiels en communs : référentiels CLAROS…
- Le modèle "navigation intuitive") (Follow your nose) : des jeux de données sont
identifiés et utilisés comme référentiels, données-pivot : éventuellement dans
la mise en relation avec des données comme celles d'Arachne, ou plutôt dans
l’écosystème de CLAROS et les projets de type LOD [Linked Open Data] dans
lesquels les données de CLAROS sont utilisées à titre expérimental.
7
8. Depuis sa mise en ligne, le site CLAROS propose un SPARQL Endpoint qui donne
accès aux données en RDF, et à leur réutilisation…
-Ici un enregistrement concernant un tissu copte (consulté en avril 2014).
8
9. Le modèle d’interopérabilité élaboré par CLAROS est présenté et expliqué sur un
site Web, ClarosWiki : http://www.clarosnet.org/wiki/
9
10. Un enregistrement correspond à un bien culturel. Par exemple, pour le
LIMC, Arachne et le Beazley Archive, il s’agit principalement d’objets
antiques.
Les notions communes retenues sont:
- Les information sur l’objet : type, état, technique et domaine artistique,
matériau, le décor, date de création, artiste…
- Ses localisation passées (lieu de découverte ; collections anciennes) et
actuelle, et les n° d’inventaire,
- La documentation de référence (publication, webographie, reproductions
et images).
--Le LIMC n’a pas tout retenu, en particulier les grandes images
numériques - pour des raisons liées aux droits imposés par les propriétaires
des images -, et certains critères trop particuliers, comme « Fabric »
(origine de l'argile de la poterie…).
-- Le modèle, fondé sur le CIDOC CRM, en reprend les notions clés, qui
sont omniprésentes dans les informations relatives à la documentation
traitées (les objets antiques…) : OBJET - PERSONNE – LIEU – DATE –
ÉVÉNEMENT – CONCEPT .
10
11. Le modèle CLAROS est fondé directement sur le CIDOC CRM. En plus des
éléments précédemment cités, on peut signaler :
-le titre donné à l’objet – ou à l’enregistrement,
-L’ID de la ressource numérique, si possible l’URI,
-La notion d’événement, particularité du CRM, qui est appliquée ici à
l’événement « production de l’objet » et « attribution d’une information par un
spécialiste nommé ».
-Le lien vers la ressource numérique d’origine….
--Le modèle CLAROS n’est pas idéal, de plus, certains jeux de données ne sont
pas toujours en adéquation avec la notion avec laquelle ils sont mis en
correspondance. Par exemple, Fabric semble recouvrir l’idée de zone de
production définie par un type d'argile et ne concernerait que la poterie. En
revanche, il n’y a pas vraiment de rubrique pour l'aire culturelle de production (ex:
étrusque, punique…).
--D’autre part, la façon de renseigner l’appellation/le titre, varie selon les
participants : dans certains cas, c'est la concaténation type d'objet + localisation
actuelle + inventaire(s) ; pour d'autres, c'est une courte description ("buste de
Satyre en marbre").
11
12. Voici deux exemples extraits des fichiers RDF/XML publiés en 2010 sur
CLAROSwiki:
- En haut, le début d'un enregistrement concernant un objet (crm:E22_Man-
Made_Object) d'Arachne et son appellation/titre : « Augustus mit
Adlerszepter » (Auguste avec un sceptre avec aigle).
- Dessous, la partie de l'enregistrement d'un objet du Beazley Archive
concernant l’événement de l'attribution par Erika KUNZE-GÖTTE
(P14_carried_out_by – E39_Actor) d’un vase au « Groupe de Léagros ».
12
13. Ici un troisième exemple, tiré d'un enregistrement du LGPN (publié en 2010),
consacré au lieu Naxos, identifié par l’appellation de lieu (E45_Place_Name)
« Naxos » et ses coordonnées géographiques latitude et longitude [les classes de
ces deux notions ne sont pas tirées du CRM]. Dans
<rdf:value>Naxos</rdf:value>, "Naxos" est une instance rattachée à la Classe
E45_Place_Name.
- L’application du CRM repose sur l’articulation de Classes (notion, abstraction
pour laquelle le CRM fournit une définition) et de Propriétés (prédicat pour
lequel le CRM fournit une définition) . Les Classes, par exemple E48_Place ou
E45_Place_Name, correspondent à des sujets et objets, les Propriétés – par
exemple P87_is_identified_by - à des prédicats.
-Dans cet exemple :
--Sujet prédicat objet
--Le lieu a pour appellation Naxos
--Le lieu a pour coordonnées …
13
14. Cet affichage du résultat – à une requête posée via le SPARQL Endpoint de
CLAROS – consacré à un tissu copte (consulté en avril 2014), montre les
métadonnées et liens hypertextes associés à ce document :
- à gauche les propriétés (prédicats). Par ex : [le tissu]
crm:P53_has_former_or_current_location
- à droite les « objets de triplet RDF », ici sous la forme d'URI [il pourrait aussi
s'agir d'un littéral/une chaîne de caractères] :
http://id.clarosnet.org/places…//Victoria-and-albert-museum-london
14
15. Dans notre orientation de recherche, l’objet antique est le point nodal d’un
réseau d’informations propice à l’interopérabilité.
15
16. CLAROS nous a permis d'adapter nos données au "Web sémantique" et au "Web
de données" (Linked data). C’est une plateforme qui permet d’envisager
l’élévation de ces ressources numériques ou de métadonnées dans le Linked
Open Data (LOD), même si le modèle CLAROS n’est pas parfait.
16
17. Plusieurs ontologies, modèles ou schémas concernent les données relatives au
patrimoine et à la culture.
- Le CIDOC CRM ( ISO 21127:2006) est un modèle conceptuel de référence, une ontologie
de domaine, qui émane du monde des musées (ICOM) mais peut-être appliqué à des
données du patrimoine culturel qui ne relèvent pas des institutions muséales
(http://www.cidoc-crm.org/). Il repose sur six notions clés : l'objet, le concept, le temps
(Temporal Entity, Time-Span…), le lieu (Place), la personne/agent de l’action (Actor), et
surtout, ce qui fait sa spécificité, l’événement. En plaçant l’événement au coeur de la
modélisation, il permet de prendre en compte le contexte de l'information
(contextualisation), d’affiner la granularité de cette-dernière. Son niveau d’abstraction le
fait considérer comme difficilement applicable, toutefois, des modèles construits
directement sur lui apparaissent. Par exemple, celui du British Museum.
- D’autres modèles en dérivent, comme :
-- LIDO (Lightweight Information Describing Objects), qui propose un schéma pour
l'interopérabilité des collections du patrimoine culturel (ex: MIMO, pou les collections
d'instruments de musique). Lié également à l'ICOM, il reprend les principes du CRM, de CDWA Lite
(Categories for the Descritption of Works of Art, /J.P. Getty), de museumdat et de SPECTRUM
(http://network.icom.museum/cidoc/working-groups/data-harvesting-and-interchange/what-is-lido/
),
-- EDM, pour l’interopérabilité avec Europeana
-- HADOC, pour l’harmonisation des données culturelles (Ministère de la Culture et de la
Communication). Le modèle est publié dans sa phase de travail ; il est encours de mise en
application (http://www.culturecommunication.gouv.fr/Ressources/Harmonisation-des-donnees-culturelles/).
17
18. Notice consacrée au CRM sur Linked Open Vocabularies :
http://lov.okfn.org/dataset/lov/
18
19. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs, fournit une introduction et des éléments pour débuter avec le
CIDOC CRM, tel ce schéma sur les classes et notions principales (v1.2, Août 2014).
-Version v.1 ( juillet 2014) : http://www.cidoc-crm.org/docs/CRMPrimer_v1.1.pdf
19
20. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs (v1.2, Août 2014) : hiérarchie "Thing"…
20
21. "The CIDOC Conceptual Reference Model. (CIDOC-CRM): PRIMER" de D.Oldman
et CRM Labs (v1.2, Août 2014) : événement "production".
21
22. Schéma du modèle du British Museum (British Museum CIDOC CRM mappings
(v.4a. Juillet 2013p) par Dominic OLDMAN
22
23. EDM propose des modèles simples ou plus riches.
- Ces deux tableaux associent au schéma EDM les informations (écrites en rouge
et orange) tirées des ressources numériques LIMC-France. Elles concernent une
péliké attique du Peintre de Providence, ornée d'Apollon et de Victoires, qui était
conservée autrefois dans la collection De Luynes (aujourd'hui à la BnF, inv. De
Ridder.392). Comme en témoigne le nom de domaine "SKOS" (skos:Concept…),
le modèle de droite prend en compte un thésaurus multilingue (les termes en
rouge sont tirés de TheA).
23
24. Le modèle UML HADOC (été 2014), par Katell BRIATTE…
24
25. En couleurs (à l'exception du panneau bleu) : les correspondances possibles entre
les données LIMC-France et le regroupement sémantique "bien culturel" d'une
version 2013 du modèle HADOC .
25
26. Les données relatives à la péliké de la BnF (De Ridder.392) dans le schéma
organisé autour du "bien culturel" du modèle HADOC (version 2013).
26
27. L(O)D… : aux protocoles, langages, et vocabulaires communs – comme les
ontologies, les modèles, le RDF – permettant de rendre les données
interopérables, on peut ajouter les thésaurus ou les vocabulaires contrôlés.
- À gauche, un schéma sommaire de la structure de l'information dans LIMC-France,
dans lequel le fond violet évoque le thésaurus TheA.
27
28. Le LIMC a élaboré son thésaurus à partir de 1981, dès la première informatisation
de ses données. Ce thésaurus en 9 langues, TheA (Thésaurus-Antiquité), est
actuellement dans un processus de transfert vers une application en ligne
permettant son exposition sur le Web et les alignements avec de grands
thésaurus (logiciels actuellement en test : Ginco, OpenTheso).
-Les concepts/termes du thésaurus sont utilisés lors de la saisie des informations.
Notamment : les matériaux, les domaines artistiques et les techniques, les types
d’objets, les périodes chronologiques, les noms d’artistes, mais aussi le noms des
personnages mythologiques (et historiques), et des mots-clés et référentiels pour
l’iconographie de la mythologie.
28
29. Un dessin à l'encre du XVIIe s., reproduisant le Vieux Centaure du Louvre, est
conservé à la BnF. Sa reproduction numérique (mise dans le domaine public) et
les informations qui lui sont associées sont diffusées sur Europeana, sur
data.bnf.fr et sur Gallica (consultés en avril 2014). Les trois sites Web renvoient
l'un à l'autre grâce à des liens ; les notices sont légèrement différentes et
adaptées aux critères retenus par chacun des sites.
Références du dessin : anonyme, plume et lavis, vers 1680. BnF, dpt.
Estampes et photo. FB-26-FOL.
Ark:/12148/btv1b6936506r
29
30. Le dessin à l'encre du XVIIe s. reproduisant le Vieux Centaure du Louvre
(également appelé Centaure Borghèse), est appelé "Amour chevauchant un
Centaure".
-Selon les ressources numériques en ligne, le groupe statuaire antique et ses
reproductions sont appelés ou titrés différemment. Or le titre, ou l'appellation, est
l'un des points d'accès à l'oeuvre, une information souvent formulée dans les
requêtes des internautes. Dans CLAROS, l'appellation /le titre est, selon les
ressources, une "courte description" ou l'association "Collection/ localisation
actuelle (musée) + l'inventaire".
-Cet exemple montre l'importance de l'harmonisation des (méta)données et des
pratiques, de la désambigüisation (confusion de documents, doublons…), etc.
Exposer ses données dans le Web des données, et le LOD, c'est aussi en garantir
le niveau de qualité et de fiabilité. L'alignement des données et l'utilisation de
qualificatifs destinés à préciser le degré de concordance d'une association (ex:
exactmatch… ; broadMatch / closeMatch / relatedMatch…) concourent à
élever le niveau de qualité et donc la valeur des associations.
Références du dessin : anonyme, plume et lavis, vers 1680. BnF, dpt.
Estampes et photo. FB-26-FOL.
Ark:/12148/btv1b6936506r
30
31. Cet écran de JocondeLab (consulté en avril 2014) montre une copie du XVIIIe s.
du Vieux Centaure du Louvre, avec mention de la relation entre la réplique et son
original ("copie du centaure de la villa Borghèse…").
31
32. Sur le site emuseum, qui compte parmi ses participants le Museum of Fine Arts
de Boston, sont diffusés une notice et des photos relatives à un exemplaire
hellénistique en bronze du Vieux Centaure aux mains liées, conservé au musée de
Boston. Sur cet écran (consulté en avril 2014). La notice le signale bien comme
étant au Museum of Fine Arts de Boston, avec l'inventaire 63.1039.
-[Le Centaure du Louvre et celui-ci sont des répliques antiques d'un groupe
original hellénistique aujourd'hui perdu, composé d'un vieux et d'un jeune
Centaures, chacun chevauché par un Amour].
32
33. Sur cet écran du même site emuseum, consulté le même jour, la notice
accompagnant la même photo du même Vieux Centaure en bronze signale
l'objet dans les Collection de l'University Museum of Art de Brigham Young
(Utah), sous l'inventaire Med.202 !
-Confusion de champ lors de l'affichage? ; Référence provisoire – devenue
définitive – liée à une exposition temporaire ?
-[La statuette en bronze est bien conservée dans les collections du Museum of
Fine Arts de Boston].
33
34. Comme la notion appellation/titre, celle d'aire culturelle de production n'est pas
toujours facile à renseigner. Pourtant elle est courante dans les formulations des
requêtes.
-Comme pour l'appellation/titre, l'ontologie CIDOC CRM fournit les éléments
nécessaires à la construction d'une structure informative correspondant à cette
information qui associe des concepts liés au temps, aux lieux, au style, à des aires
culturelles. Mais les façons d'exprimer ces aires culturelles –en privilégiant parfois
la période, parfois le style ou la géographie … (ex : attique ; hellénistique ; 3e Style
…) – et les thésaurus présentent des différences (panneau gauche : extrait du
thésaurus AAT Getty ; écrans droits : extraits du thésaurus Garnier). Ces thésaurus,
et les hiérarchies sur lesquelles ils font reposer l'organisation des concepts
couvrant les notions d'aire de production, de période culturelle et de style, sont-ils
en adéquation avec nos besoins et nos pratiques?
-L'évaluation des données et de l'adéquation des outils peut passer par des
processus d'analyse des assertions (instances).
34
35. … à suivre … la réutilisation des données pour des approches collaboratives, des
mises en relations, la participation à un "graphe" culturel mondial.
-Ici, un enregistrement LIMC-icon consacré à un vase attique conservé au Musée
MAC-Empùries [Espagne], associé au thésaurus TheA et au LIMC (Lexicon…) ; des
liens possibles via le Web de données et le LOD…
35
37. Argumentaire de la journée "Outils, méthodes, corpus : la modélisation des
données en SHS" : Les technologies du web sémantique permettent de décloisonner et
de partager des données scientifiques afin de les interroger, de les enrichir et de les
réutiliser. Elles ouvrent des perspectives fécondes pour les humanités numériques, tant
au niveau méthodologique (structuration, normalisation, interopérabilité,
interconnexion, mutualisation et ouverture des données) que collaboratif, puisqu’elles
favorisent l’association de différents métiers : chercheurs, documentalistes,
informaticiens, bibliothécaires, archivistes, conservateurs du patrimoine. L’objectif de
cette journée d’étude est de réunir des laboratoires de recherche et des institutions
engagés dans la dynamique du web sémantique pour la structuration et la diffusion de
leurs travaux. En s’appuyant sur le traitement de corpus particuliers, dans le contexte de
démarches scientifiques spécifiques, cette rencontre sera l’occasion d’échanger autour
de la mise en oeuvre des standards et des outils du web de données : choix des
ontologies, utilisation de notices et de vocabulaires d’autorité, alignement sur des jeux
de données de référence. Il s’agit aussi de participer aux questionnements que soulèvent
les technologies du web sémantique au sujet de l’élaboration des connaissances et de la
fiabilité des ressources publiées. Le travail de modélisation et de structuration des
données offre de rendre explicite et de qualifier des catégories et des relations souvent
implicites. Cependant l’utilisation d’un modèle logico-mathématique peut laisser
supposer la neutralité et l’objectivité de la production et du croisement des données. Or
l’interprétation, l’incertitude et la contextualisation sont des aspects essentiels de la
recherche en sciences humaines et sociales.
37
38. Interventions de la journée "Outils, méthodes, corpus : la modélisation des données en SHS" :
-9h15-9h30 : Allocution d’ouverture Didier Torny (directeur scientifique adjoint en charge de
l’information scientifique et technique à l’InSHS) Données, corpus, publications : les enjeux de
l’information scientifique et technique au CNRS à l’ère numérique.
-9h30-9h45 : Emmanuelle Perrin (InVisu, USR 3103 CNRS/INHA) Présentation de la journée.
-9h45-10h35 : Anila Angjeli (BnF, département de l’information bibliographique et numérique) ISNI -
Les enjeux d’un identifiant international pour les personnes et les organismes.
-10h50-11h40 : René-Vincent Du Grandlaunay (directeur de la bibliothèque de l’Institut dominicain
d’études orientales, Le Caire) Le modèle FRBR appliqué au patrimoine arabo-musulman.
-11h40-12h30 : Matthieu Bonicel (BnF, coordinateur de Biblissima) et Stefanie Gehrke (coordinatrice
métadonnées, Biblissima) Biblissima et la modélisation de l’histoire de la transmission des textes et de
la constitution des collections (titre provisoire).
-14h00-14h50 : Anne-Violaine Szabados (ArScAn LIMC, UMR 7041, Maison de l’archéologie et de
l’ethnologie, Paris X) L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de
la culture dans le Linked Open Data.
-14h50-15h40 : Francesco Beretta (LARHRA, UMR 5190, Lyon) Le projet SyMoGIH et le web de
données.
-16h-16h50 : Flore César (CRISES, EA 4424, université Paul-Valéry, Montpellier 3) Modéliser le transfert
des savoirs en Europe septentrionale aux xviie et xviiie siècles : l’exemple du projet LexArt.
-16h50-17h30 Mercedes Volait (InVisu, USR 3103 CNRS/INHA) Synthèse de la journée et discussion.
38