O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Bien recevoir le web sémantique dans sa cuisine interne, SemWebPro 2018

0 visualizações

Publicada em

Bien recevoir le web sémantique dans sa cuisine interne,
Intervention de Yann Nicolas - Abes
SemWebPro, 6 novembre 2018

L'Agence Bibliographique de l'Enseignement Supérieur a pour mission principale d'organiser le recensement de toutes les ressources documentaires acquises par les bibliothèques universitaires. De plus en plus d'éditeurs partagent leurs métadonnées, qu'elles concernent les livres, les chapitres ou les articles. Nous nous efforçons de les collecter et de les intégrer dans notre système d'information bibliographique, pour les rendre interrogeables par les utilisateurs du Sudoc et récupérables par chaque bibliothèque de notre réseau pour alimenter son propre catalogue. Au passage, nous essayons d'améliorer la qualité de ces métadonnées, en les rendant plus cohérentes et plus riches. Leur qualité est encore améliorée par le travail des 3 000 catalogueurs du réseau Sudoc.

Ce workflow d'intégration et d'enrichissement des métadonnées des éditeurs scientifiques tourne autour d'une base de données RDF. Les technologies du web sémantique répondent parfaitement à nos besoins : intégrer des métadonnées hétérogènes ; exprimer de l'information en employant des vocabulaires standards différents, voire en forgeant en dernier recours de nouvelles propriétés et classes, sans se laisser enfermer dans un schéma de base de données figé ; enrichir les métadonnées centrales par la sédimentation de données complémentaires de toutes sortes disponibles sur le web.

Mais ce nouveau workflow doit vivre dans un environnement donné, à savoir le système d'information existant et le capital des ressources humaines aujourd'hui disponibles à l'ABES. La base RDF doit coexister et collaborer avec des programmes et des données qui correspondent à des choix et des compétences techniques qui sont les ... moyens du bord. A force de tâtonnements et de compromis pragmatiques, nous avons travaillé à intégrer ce workflow sémantique dans notre environnement. Le résultat est opérationnel, mais il servira également de leçon pour concevoir le prochain SI de l'ABES, qu'il repose en son cœur sur RDF ou pas.

Yann NICOLAS est bibliothécaire à l'ABES depuis 2003. Il a travaillé sur différents projets d'informatique documentaire : calames.fr, idref.fr, theses.fr, API Sudoc, Alignement, Linked data, etc.
Séduit par le Web sémantique dès 2006 et praticien, pas à pas, depuis 2008.

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Bien recevoir le web sémantique dans sa cuisine interne, SemWebPro 2018

  1. 1. Bien (?) recevoir le web sémantique dans sa cuisine interne Yann NICOLAS SemWebPro, 6 novembre 2018
  2. 2. I Sudoc MARC notices/documents 2000 Client de catalogage ++ Conversion MARC2MARC + Import Exports en MARC + Accès Enrichissements automatiques -- Catalogues locaux des universités Autres Catalogues collectifs Recherche via protocole non Web in out
  3. 3. Problème Progiciels + protocoles + formats propriétaires • Dépendance par rapport au fournisseur (vendor lock-in) • Manque d’autonomie opérationnelle (RH) • Ex : création d’index, nouveaux exports, etc. • Technologies non standards (RH) • Manque de souplesse
  4. 4. Sudoc MARC notices/documents 2010 Client de catalogage ++ Conversion MARC2MARC + Import Exports en MARC + Accès Sudoc MARCXML + Relationnel Exports en MARCXML + Accès SPARQL endpoint data.idref.fr (personnes, concepts, lieux, etc.) (2018) MicroWebServices Linked Open Data ***** RDF API Applis métier Sync + Moteurs de recherche Solr
  5. 5. Problème / Solution choisie Solution propriétaire Base XML + Solr (en complément) Dépendance par rapport au fournisseur (vendor lock- in) … euh … ORACLE Manque d’autonomie opérationnelle (RH) Technologies non standards (RH) Autonomie Manque de souplesse La structure de la base évolue en fonction des opportunités ou besoins nouveaux … au risque de d’une complexité croissante RDF aurait pu faire l’affaire, non ?
  6. 6. Pourquoi une solution XML en 2010 ? Pourquoi pas une solution RDF ? • Moins de familiarité avec les technologies RDF (RH) • Doutes sur la scalabilité d’une base RDF • Difficulté de tout modéliser en RDF (80/20) • Malgré une expérimentation « RDF concon » • Performance et usabilité des web services : on voulait des web services simples à utiliser et comprendre, performants • vs SPARQL • Performance et richesse du moteur de recherche • vs SPARQL
  7. 7. Sudoc MARC notices/documents 2017 Client de catalogage ++ Sudoc MARCXML + Relationnel Exports en MARCXML + Accès SPARQL endpoint data.idref.fr (personnes, concepts, lieux, etc.) (2018) MicroWebServices Linked Open Data ***** Imports des données éditeurs RDF RDF Ingestion RDF Agrégation Enrichissement RDF SPARQL endpoint (2019) XML JENA Métadonnées des éditeurs scientifiques (Variété + Volume)
  8. 8. Imports et enrichissements Solution propriétaire en MARC Base XML Base RDF Format MARC restrictif et complexe DTD différentes selon les éditeurs Modèle souple et extensible Mécanismes natif pour connecter/fusionner les données via les identifiants URI Technologies ad hoc Technologies standard Technologies standard Technologies ad hoc Compétences standard et répandues Compétences standard mais rares
  9. 9. W Sudoc MARC notices/documents 2017 Client de catalogage ++ Sudoc MARCXML + Relationnel Exports en MARCXML + Accès SPARQL endpoint data.idref.fr (personnes, concepts, lieux, etc.) (2018) MicroWebServices Linked Open Data ***** Imports des données éditeurs RDF RDF Ingestion RDF Agrégation Enrichissement RDF SPARQL endpoint (2019) Workflow RDF piloté par ORACLE XML
  10. 10. Workflow RDF piloté par ORACLE Composants du worflow : • Variables globales • Requête SPARQL • Requête SQL • Procédures stockées Interface Web pour configurer et exécuter chaque workflow Autonomie intellectuelle et opérationnelle des experts données (un peu spéciaux, certes)
  11. 11. Conclusion provisoire • On vide petit à petit le module propriétaire du SI • On déplace des fonctionnalités vers de nouveaux modules  On ajoute des logiciels, on complexifie !  • Mais : • On prépare la suite : • On se familiarise avec de nouvelles solutions • On étoffe la palette des compétences (RH) • On y voit plus clair, peut-être : • Chaque composant est spécialisé (plus ou moins) • Le workflow est en surplomb des modules  Vision globale • On rend les experts données autonomes • En travaillant près des données • En leur donnant outils et interfaces • Nos informaticiens n’ont pas eu à se convertir au Web sémantique ! A suivre…

×