L'échange de données pour les institutions culturelles : le protocole OAI-PMH, le format Dublin Core, les portails de ressources culturelles et patrimoniales
Interopérabilité et échanges de données pour les archives
1. AAF - Archives et Internet : les nouveaux enjeux
INTEROPERABILITÉ ET
ÉCHANGES DE DONNÉES
CC BY-NC-SA Vicky&Chuck Rogers, Flickr
Pauline Moirez – BnF – 26 juin 2012
2. CC BY-NC-ND J Mark Dodds, Flickr
Mais qu’est-ce que c’est que
ces gros mots…?!?
4. INTEROPERABILITE = Permettre
l'échange de données entre
systèmes d'information
CC BY-NC-ND Josh Fassbind, Flickr
Pouvoir se parler Se comprendre
(transport des (sens des données
données) échangées)
5. La recette de l’interopérabilité
de Grand-Maman
CC BY-NC-SA Joana Hard, Flickr
6. Des ingrédients de qualité
Des données hétérogènes…
mais propres
CC BY-NC-SA Joana Hard, Flickr
7. Des protocoles de pro
Du matériel d’échange
normalisés
CC BY-NC Captain Blaubeere, Flickr
13. Le contexte administratif et
technique : le référentiel
général d’interopérabilité
(RGI)
Publié par la DGME en 2009
« détermine notamment les
répertoires de données, les normes et
les standards qui doivent être utilisés
par les autorités administratives »
14. Les niveaux
d’interopérabilité du RGI
Ex. modélisation, ontologies, mais aussi SEDA
Ex. formats d’images, de documents multimédia,
formats bureautiques, langage XML
Ex. protocoles et langages Web et messagerie,
téléphonie, annuaires LDAP
15. Pour parler la même langue :
normaliser !
Thesaurus
EAD W
Normes et
standards Référentiels
archivistiques Rameau
EAC
Dublin Langues
Core ISO 639
Formats de Schémas
métadonnées d’encodage
Pays
METS ISO 3166
16. Où es-tu ?
Des identifiants
pour les
ressources
numériques
Uniques
Pérennes
CC BY-NC-ND xcode, Flickr
Citables
17. ARK : un format
d’identification
pérenne
CC BY-NC-ND Friday Flets, Flickr
19. Le système ARK : structure
et organisation
http://gallica.bnf.fr/ark:/12148/bpt6k5809503p/f2.image
type
protocole d’identifiant nom ARK
autorité qualifieurs
numéro (facultatif)
d’adressage
d’autorité
(NMAH)
nommante
(NAAN)
Et dans la vraie vie…
23. Le fournisseur Le fournisseur
de données de services
(entrepôt) (moissonneur)
CC BY-NC-ND Gerry Balding, Flickr
Les acteurs de l’OAI-PMH
24. The place to be ?
L’OAI-PMH en 2012, c’est :
CC BY-NC-ND vallygirl_tka, Flickr
1740 entrepôts enregistrés
Plus de 25 millions
d’enregistrements moissonnables
25. Les concepts documentaires
de l’OAI-PMH
RESSOURCE
Objet physique ou ITEM
numérique Notice informatique
(URL + métadonnées)
ENREGISTREMENT
Unité documentaire LOT / SET
dans un entrepôt OAI Ensemble
d’enregistrements
27. Qu’y a-t-il dans un
enregistrement OAI-PMH ?
•Un en-tête : header
- identifier (obligatoire, non répétable)
- datestamp (obligatoire, non répétable)
- setSpec (facultatif, répétable)
- attribut de statut pour les items
supprimés
28.
29. Qu’y a-t-il dans un
enregistrement OAI-PMH ?
•Des métadonnées : metadata
- métadonnées encodées en XML avec leur
élément racine et leur espace de nom
- les entrepôts doivent fournir leurs
métadonnées en Dublin Core simple ; ils
peuvent proposer en plus d’autres formats
34. OAI-PMH at o uts
L es
Il s'appuie sur les standards du Web, le
moissonnage est simple à mettre en
œuvre.
Les contenus ne sont pas dupliqués.
Les métadonnées collectées sont mises
à jour simplement et
automatiquement (moissonnage
différentiel/incrémental).
Il s’adapte à des besoins
transdisciplinaires sans interdire des
besoins plus spécialisés.
35. OAI-PMH i mi tes
Le sl
Problèmes de granularité et de
hiérarchisation
Pas d’interrogation fine
Pas de liens simples avec les ressources
extérieures
Limité à la communauté des chercheurs
et bibliothécaires
37. Dublin Core
À protocole d’échange
générique… format de
métadonnées générique !
CC BY-NC-ND s.red, Flickr
38. 15 éléments de
description,
facultatifs et
répétables
CC BY-NC-SA David Sherret, Flickr
39. CC BY-NC-SA David Sky, source
Améliorer la recherche de ressources
sur le web, en définissant un ensemble
de métadonnées communes
40. Les 15 éléments
du Dublin Core simple
Contenu Propriété Instanciation
intellectuelle
Title Creator Date
Subject Contributor Type
Description Publisher Format
Source Rights Identifier
Language
Relation Tous fa cultatifs
s
pétable
Tous ré
Coverage
41.
42.
43. Mais comment je fais du Dublin
Core avec mes données à moi ?
CC BY-SA tangi_bertin, Flickr
55. Dublin Core at o uts
L es
Généricité : permet de décrire des
ressources numériques ou physiques,
utilisable par de nombreuses
communautés
Simplicité
Grande souplesse
Utilisation internationale
56. Dublin Core
i mi tes
Le sl
Simplification des métadonnées
Libertés d’interprétation qui limitent
l’interopérabilité sémantique
Valeurs des éléments non normalisées
Faiblesse des informations
techniques
57. CC BY-ND cursething, Flickr
OAI-PMH est simple
Dublin Core est simple
Ce n’est pas une
raison pour faire
n’importe quoi !
64. Une dynamique est lancée...
Les portails culturels locaux se multiplient
GeoCulture en
Banque numérique des savoirs aquitains
(BnsA) Limousin
Manioc,
bibliothèque
numérique des
Caraïbes
65. Mais aussi...
Isidore, plateforme de
recherche pour les
sciences humaines et
sociales (SHS)
Gallica et ses 41
bibliothèques
partenaires
67. Pour aller plus loin…
Interopérabilité
Interopérabilité : faire des choix, échanger, gérer le temps (S. Pouyllau, 2010)
Voir EAD et interopérabilité :
comment permettre le moissonnage de
métadonnées normalisées par des portails (L. Grand, F. Rolland, 2010)
Identifiants pérennes
Identifiants pérennes (E. Bermès, 2009)
Des identifiants pérennes pour les ressources numériques - L’expérience
de la BnF (E. Bermès, 2006)
ARK, qu’est-ce que c’est ? (2012).
OAI-PMH
Site officiel de l’Open archive initiative
Le protocole OAI et ses usages en bibliothèque (MCC, 2005)
Guide d'interopérabilité OAI-PMH pour un référencement des documents
numériques dans Gallica (2010)
Le Guide des Bonnes Pratiques Numériques - Entrepôt OAI-PMH (TGE Adonis,
2010)
Dublin Core
Site officiel de la Dublin Core Metadata initiative
68. Merci de votre attention
pauline.moirez@bnf.fr
CC BY-NC Go Esewhere, flickr
Notas do Editor
Participer à des portails communs, à des projets collaboratifs, se faire connaître en participant à des projets plus vastes Permettre et susciter les réutilisations Améliorer son référencement par les moteurs de recherche en multipliant les liens entrants Augmenter la fréquentation de nos sites et la consultation de nos ressources numériques
Échanger avec d’autres domaines (culturels, patrimoniaux, scientifiques) Proposer un accès unique pour les usagers S’intégrer dans un écosystème d’usages de recherche centralisé
Seulement les métadonnées, et seulement dans un format appauvri : pas de duplication des contenus. Éviter les doublons, éviter de perdre la main sur les contenus numérisés
Objectifs : Améliorer la qualité des services aux administrés Réduire les délais de mise en ligne des services Maîtriser les coûts (développement et maintenance) Favoriser l'interopérabilité en respectant l’autonomie Contribuer à l’ouverture des systèmes d’information Adopter un langage et une sémantique communs Converger vers un cadre d’interopérabilité européen Guider les administrations dans leurs choix Garantir la neutralité de l’administration Favoriser la standardisation et l’innovation
Unique : L'identifiant a la même signification partout. L’identifiant désigne une seule et unique ressource. Pérenne : L’identifiant ne doit pas dépendre de l’emplacement physique de la ressource (URL) . La pérennité est garantie par l’institution qui attribue les identifiants (« autorité nommante »).
Archival Resource Key Mis en place par la California Digital Library Qui l’utilise en France ? (institutions figurant sur le registre de la CDL) Institutions versées dans la préservation des données numériques : CINES, CNES Bibliothèques : BnF, BM Toulouse, BIU Cujas, Archives : ANOM, AD Somme, Doubs, Belfort, Allier, Côte-d'Or, AM Pontivy, Collectivités territoriales : Ville de Besançon, CG Martinique
ARK (Archival Resource Key) est un système d'identifiants mis en place par la California Digital Library (CDL), et qui a vocation à identifier des objets de manière pérenne. Il peut s'agir d'objets de tous types, physiques (table, livre), numériques (livre numérisé…) ou même immatériels (concepts, …). Les qualifieurs sont des suffixes permettant de préciser sa demande sur un document et sont de deux types : - Les qualifieurs de granularité, commençant par un "/", permettent de demander l'accès à une partie de l'objet (ex. : page d'un document). Ils suivent immédiatement le nom ARK ; - Les qualifieurs de service, commençant par un ".", permettent de demander l'accès à une variante particulière d'un document et/ou à un service particulier sur celui-ci (type de dissémination particulier d'un document, version n°1 du document…).
Protocole Règles régissant les échanges d’information dans les télécommunications. On distingue les protocoles de correction d’erreurs, de compression, de transfert, de transmission et de communication, [etc.] Spécification d'un dialogue entre plusieurs ordinateurs qui s'échangent des données Les protocoles donnent les moyens techniques permettant à plusieurs applications de dialoguer entre elles Ex. Protocole de transfert (HTTP) Protocole de transmission et de communication : TCP/IP
Conçu lors de la convention de Santa Fé, 1999. Version actuelle date de 2002. Rendre interrogeables des bases de données hétérogènes Collecter massivement les métadonnées et les stocker
Les fournisseurs de données, qui déposent leurs métadonnées sur un serveur Web appelé « entrepôt ». Les fournisseurs de service (moissonneurs) qui collectent ces données pour les intégrer à leur index et permettent à l'utilisateur final de faire des recherches.
Il est possible de créer des ensembles par thèmes , ou bien par types de documents (livres, photographies, documents d'archives, périodiques etc.), ou encore par fonds ou collections .
= 6 verbes ! Le protocole OAI-PMH définit 6 types de requêtes HTTP auxquelles est associé un flux XML de réponses.
Dublin Core OBLIGATOIRE dans les entrepôts OAI
Créé en 1995 à Dublin, Ohio par OCLC et NCSA (National Center for Supercomputing Applications) Norme ISO 15836:2003, révisée en 2009 Maintenue par la Dublin Core Metadata Initiative Schéma de métadonnées généraliste, définit un noyau minimal de métadonnées Un format utile pour franchir les frontières entre spécialités, … mais qui n’est pas sans problème Faiblesse descriptive Besoin de normalisation et de bonnes pratiques Granularité et hiérarchie Dublin Core simple, mais aussi Dublin Core qualifié : 18 éléments + des qualificatifs, définition de profils pour des communautés particulières
suffisamment simples pour que des non-spécialistes puissent les créer à n’importe quel point du cycle de vie de la ressource mais suffisamment structurées pour qu’elles puissent rendre les moteurs de recherche plus performants
Quel format pour quelle interopérabilité ?
Conversion d’un format fortement hiérarchisé à un format à plat comment ne pas perdre les informations de contexte ? la gestion de l’héritage en EAD ?
Hiérarchie des éléments
Granularité : le niveau de pertinence pour réaliser l’extraction est donc le niveau de <c/> où est signalée la ressource numérique (élément <c> à l’intérieur duquel se trouve la balise <dao> avec l’attribut href pointant vers une URL contenant un identifiant ARK)
Comment constituer le contenu des éléments DC Ne pas chercher forcément à faire entrer l’ensemble des données sources de force dans le format d’arrivée !
Le respect des normes est le gage de l’interopérabilité La qualité des métadonnées est essentielle Sinon : des pratiques hétérogènes d’un fournisseur de données à l’autre qui nuisent à l’interopérabilité et rendent plus difficile l’élaboration de services
Ex de recherche : napoleon Atouts : Recherche fédérée Fonctionnalités de recherche Exposition des données