Bien recevoir le web sémantique dans sa cuisine interne,
Intervention de Yann Nicolas - Abes
SemWebPro, 6 novembre 2018
L'Agence Bibliographique de l'Enseignement Supérieur a pour mission principale d'organiser le recensement de toutes les ressources documentaires acquises par les bibliothèques universitaires. De plus en plus d'éditeurs partagent leurs métadonnées, qu'elles concernent les livres, les chapitres ou les articles. Nous nous efforçons de les collecter et de les intégrer dans notre système d'information bibliographique, pour les rendre interrogeables par les utilisateurs du Sudoc et récupérables par chaque bibliothèque de notre réseau pour alimenter son propre catalogue. Au passage, nous essayons d'améliorer la qualité de ces métadonnées, en les rendant plus cohérentes et plus riches. Leur qualité est encore améliorée par le travail des 3 000 catalogueurs du réseau Sudoc.
Ce workflow d'intégration et d'enrichissement des métadonnées des éditeurs scientifiques tourne autour d'une base de données RDF. Les technologies du web sémantique répondent parfaitement à nos besoins : intégrer des métadonnées hétérogènes ; exprimer de l'information en employant des vocabulaires standards différents, voire en forgeant en dernier recours de nouvelles propriétés et classes, sans se laisser enfermer dans un schéma de base de données figé ; enrichir les métadonnées centrales par la sédimentation de données complémentaires de toutes sortes disponibles sur le web.
Mais ce nouveau workflow doit vivre dans un environnement donné, à savoir le système d'information existant et le capital des ressources humaines aujourd'hui disponibles à l'ABES. La base RDF doit coexister et collaborer avec des programmes et des données qui correspondent à des choix et des compétences techniques qui sont les ... moyens du bord. A force de tâtonnements et de compromis pragmatiques, nous avons travaillé à intégrer ce workflow sémantique dans notre environnement. Le résultat est opérationnel, mais il servira également de leçon pour concevoir le prochain SI de l'ABES, qu'il repose en son cœur sur RDF ou pas.
Yann NICOLAS est bibliothécaire à l'ABES depuis 2003. Il a travaillé sur différents projets d'informatique documentaire : calames.fr, idref.fr, theses.fr, API Sudoc, Alignement, Linked data, etc.
Séduit par le Web sémantique dès 2006 et praticien, pas à pas, depuis 2008.
3. Problème
Progiciels + protocoles + formats propriétaires
• Dépendance par rapport au fournisseur (vendor lock-in)
• Manque d’autonomie opérationnelle (RH)
• Ex : création d’index, nouveaux exports, etc.
• Technologies non standards (RH)
• Manque de souplesse
4. Sudoc
MARC
notices/documents
2010
Client de
catalogage ++
Conversion MARC2MARC
+ Import
Exports en MARC
+
Accès
Sudoc
MARCXML +
Relationnel
Exports en MARCXML
+
Accès SPARQL endpoint
data.idref.fr
(personnes, concepts,
lieux, etc.)
(2018)
MicroWebServices
Linked Open Data *****
RDF
API
Applis
métier
Sync
+ Moteurs de recherche
Solr
5. Problème / Solution choisie
Solution propriétaire Base XML + Solr (en complément)
Dépendance par rapport au fournisseur (vendor lock-
in)
… euh … ORACLE
Manque d’autonomie opérationnelle (RH)
Technologies non standards (RH)
Autonomie
Manque de souplesse La structure de la base évolue en fonction des
opportunités ou besoins nouveaux … au risque de
d’une complexité croissante
RDF aurait pu faire l’affaire, non ?
6. Pourquoi une solution XML en 2010 ?
Pourquoi pas une solution RDF ?
• Moins de familiarité avec les technologies RDF (RH)
• Doutes sur la scalabilité d’une base RDF
• Difficulté de tout modéliser en RDF (80/20)
• Malgré une expérimentation « RDF concon »
• Performance et usabilité des web services : on voulait des web
services simples à utiliser et comprendre, performants
• vs SPARQL
• Performance et richesse du moteur de recherche
• vs SPARQL
7. Sudoc
MARC
notices/documents
2017
Client de
catalogage ++
Sudoc
MARCXML +
Relationnel
Exports en MARCXML
+
Accès SPARQL endpoint
data.idref.fr
(personnes, concepts,
lieux, etc.)
(2018)
MicroWebServices
Linked Open Data *****
Imports des
données
éditeurs
RDF
RDF
Ingestion RDF
Agrégation
Enrichissement
RDF
SPARQL endpoint
(2019)
XML
JENA
Métadonnées
des éditeurs
scientifiques
(Variété + Volume)
8. Imports et enrichissements
Solution propriétaire en MARC Base XML Base RDF
Format MARC restrictif et complexe DTD différentes selon les éditeurs Modèle souple et extensible
Mécanismes natif pour
connecter/fusionner les données
via les identifiants URI
Technologies ad hoc Technologies standard Technologies standard
Technologies ad hoc Compétences standard et
répandues
Compétences standard mais rares
9. W
Sudoc
MARC
notices/documents
2017
Client de
catalogage ++
Sudoc
MARCXML +
Relationnel
Exports en MARCXML
+
Accès SPARQL endpoint
data.idref.fr
(personnes, concepts,
lieux, etc.)
(2018)
MicroWebServices
Linked Open Data *****
Imports des
données
éditeurs
RDF
RDF
Ingestion RDF
Agrégation
Enrichissement
RDF
SPARQL endpoint
(2019)
Workflow RDF
piloté par ORACLE
XML
10. Workflow RDF
piloté par ORACLE
Composants du worflow :
• Variables globales
• Requête SPARQL
• Requête SQL
• Procédures stockées
Interface Web pour configurer et exécuter chaque workflow
Autonomie intellectuelle et opérationnelle
des experts données (un peu spéciaux, certes)
11. Conclusion provisoire
• On vide petit à petit le module propriétaire du SI
• On déplace des fonctionnalités vers de nouveaux modules
On ajoute des logiciels, on complexifie !
• Mais :
• On prépare la suite :
• On se familiarise avec de nouvelles solutions
• On étoffe la palette des compétences (RH)
• On y voit plus clair, peut-être :
• Chaque composant est spécialisé (plus ou moins)
• Le workflow est en surplomb des modules Vision globale
• On rend les experts données autonomes
• En travaillant près des données
• En leur donnant outils et interfaces
• Nos informaticiens n’ont pas eu à se convertir au Web sémantique !
A suivre…