O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Prenez le train de la Transition bibliographique - Journée Systèmes & Données du 06/11/2018

82 visualizações

Publicada em

Prenez le train de la Transition bibliographique
Des données à FRBRiser : destinations et correspondances
Intervention conjointe lors de la journée Systèmes & Données du 06 novembre 2018
Etienne Cavalié (BnF)
François Pichenot (Médiathèque et archives de Roubaix)
Marianne Giloux (Abes)

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Prenez le train de la Transition bibliographique - Journée Systèmes & Données du 06/11/2018

  1. 1. Prenez le train de la Transition bibliographique Des données à FRBRiser : destinations et correspondances Etienne Cavalié (BnF) Marianne Giloux (Abes) François Pichenot (Médiathèque et archives de Roubaix) Journée Systèmes & Données - 06/11/2018
  2. 2. Plan • Introduction • FRBRiser des données : o outils et méthodes (Abes & BnF) o modalités d’affichage et de récupération o conséquences : la qualité des données • Mise en place d’une stratégie d’alignement : l'exemple de la Médiathèque de Roubaix
  3. 3. Outils & méthodes (BnF) • Un corpus de départ de 320.000 notices d’autorité Titre • Un ensemble d’algorithmes testés dans le cadre du projet data.bnf.fr • Une équipe dédiée à la reprise de l’existant • 2016 : RobotDonnées, plate-forme de traitement par corpus • 2017-2018 : o validation d’une méthode de traitement o corpus : les auteurs français de textes du XXe siècle o 380.000 auteurs o > 1 million d’oeuvres générées
  4. 4. Processus de calcul des oeuvres (BnF)
  5. 5. Processus de calcul des oeuvres (BnF) “NNA” : Numéro de Notice d’Auteur
  6. 6. Processus de calcul des oeuvres (BnF)
  7. 7. Outils & méthodes (BnF) • Début 2019 : chargement d’oeuvres par lots dans data.bnf.fr • Refonte de l’interface de data.bnf.fr • data.bnf.fr comme espace d’expérimentation • Des notices d’autorité élémentaires dans data.bnf.fr ! • 2e semestre 2019 : chargement d’oeuvres par lots dans le catalogue BnF
  8. 8. Outils & méthodes (Abes) Deux contextes, trois approches différentes Les thèses de doctorat • Une production frbrisée (STAR – TEF) - 2006 • Une interface publique frbrisée (Theses.fr)- 2011 Sudoc • Une expérimentation - 2012 • Une production automatisée • Pas d’interface publique
  9. 9. Outils & méthodes (Abes) Les thèses de doctorat Le contexte •Apparition des premières thèses électroniques, besoin de signalement, de diffusion, d’archivage pérenne… •2006 : Recommandation TEF jeu de métadonnées - modélisation de ces métadonnées s’appuyant sur le modèle FRBR et format XML •2007 : ouverture de l’application STAR s’appuyant sur la recommandation TEF L’Objectif •Mettre en place un portail des thèses soutenues en France (theses.fr) quelque soit la source de signalement (STAR/STEP/Sudoc) et le type de document : thèses imprimées, microfichées, électroniques, éditions commerciales…
  10. 10. Outils & méthodes (Abes) TEF (STAR)
  11. 11. Outils & méthodes (Abes) TEF (STAR)
  12. 12. Outils & méthodes (Abes) TEF (STAR)
  13. 13. Outils & méthodes (Abes)
  14. 14. Outils & méthodes (Abes)
  15. 15. Outils & méthodes (Abes) Theses.fr Oui, les données sont organisées selon le modèle FRBR • Processus de chargement avec une finalité de regroupement des “n” notices du Sudoc décrivant la thèse • La granularité de theses.fr est l’oeuvre • L’utilisateur peut retrouver tous les documents relatifs à une thèse Non, les données ne sont pas organisées selon le modèle FRBR • Regroupement sur une même oeuvre de la thèse version de soutenance et de la thèse remaniée pour simplifier la recherche et l’affichage à l’utilisateur
  16. 16. Outils & méthodes (Abes) Theses.fr
  17. 17. Outils & méthodes (Abes) L’expérimentation Sudoc Le contexte (2012-2014) • Fin de vie annoncée du système informatique (CBS) hébergeant le Sudoc • Exploiter les algorithmes de regroupements de données développés dans le CBS par OCLC (service existant) • Pas de développements informatiques effectués en interne • Pas d’interface de recherche publique • Travailler sur les seules consignes de catalogage L’objectif • Expérimenter afin de commencer à anticiper ce que pourrait être le futur système
  18. 18. Outils & méthodes (Abes) L’expérimentation Sudoc • adaptant le service aux spécificités du Sudoc ⇒ en étant le + conforme possible au modèle FRBR ⇒ en s’appuyant sur les évolutions d’Unimarc • regroupant les notices bibliographiques selon des calculs de comparaison basés sur des clés titre-auteur ⇒ pour obtenir un corpus de d’œuvres + des liens de type Manifestation → Œuvre (enrichissant les données existantes) • menée dans l’environnement de production sur la totalité des données du catalogue ⇒ dans la limite de pertinence des résultats (évalués sur échantillons)
  19. 19. Outils & méthodes (Abes) L’expérimentation Sudoc Réalisations • Mise en production le 23 octobre 2017 • Au 22 octobre 2018 : → ~1,5 M de “pré-notices d’œuvre” (dites notices de regroupement) créées → ~4,4 M liens créés entre notices bibliographiques et notices de regroupement (pour 16,5 M notices bibliographiques) • Fonctionnement en base de production (en mode “vitrine”) • Enrichissement quotidien par calculs sur toutes les mises à jour du catalogue (300 à 600 notices de regroupement mises à jour)
  20. 20. Outils & méthodes (Abes) L’expérimentation Sudoc Des limites sur les données • Traitement impossible des agrégats sans titre d’ensemble • Traitement trop peu pertinent des ressources continues • Pas de notice de regroupement générée pour une notice bibliographique seule à représenter une oeuvre Des limites sur le modèle • pas de réelles notices d’oeuvre, notices de “pré-oeuvre” • Le niveau de l’expression n’est pas traité • Il n’y a pas de mécanisme d’héritage : o les accès “créateur de l’oeuvre”, les accès sujets, les résumés restent présents dans les notices bibliographiques o Ces données sont dupliquées dans les notices de regroupement
  21. 21. Outils & méthodes (Abes) L’expérimentation Sudoc
  22. 22. Outils & méthodes (Abes) L’expérimentation Sudoc
  23. 23. Outils & méthodes (Abes) L’expérimentation Sudoc
  24. 24. Outils & méthodes (Abes) L’expérimentation Sudoc
  25. 25. Outils & méthodes (Abes) L’expérimentation Sudoc
  26. 26. Modalités d’affichage et de récupération (BnF) • La refonte de data.bnf.fr : phase 1 o une mise en page plus aérée o les oeuvres au coeur du dispositif • Oeuvres calculées et notices d’autorité élémentaires : les reconnaître, les retrouver • Chargements dans le catalogue par lots • Questionner le taux de complétude • Quel processus d’actualisation ?
  27. 27. Refonte de data.bnf.fr
  28. 28. Refonte de data.bnf.fr
  29. 29. Refonte de data.bnf.fr
  30. 30. Refonte de data.bnf.fr
  31. 31. Refonte de data.bnf.fr Oeuvres calculées • affichage : fond rouge, lien d’explications • URI : pas d’ARK, “/temp-work/”, hachage • RDF : <uri> prov:wasGeneratedBy <http://data.bnf.fr>
  32. 32. Notices élémentaires Notices élémentaires d’auteurs • entrée d’index • Pas de page d’auteur • RDF disponible marqueur de fiabilité
  33. 33. Notices élémentaires dans data.bnf.fr
  34. 34. Quelles données pour quelle FRBRisation (BnF) • Impact sur l’évaluation de la qualité du catalogue o les infos de date : contenu et cohérence o les infos de titre : contenu et structuration o les infos auteur : homonymes et codes fonction o les infos de langue… • Autres explorations à venir : o les oeuvres autres que textuelles o les oeuvres étrangères o les oeuvres avant 1900 o les expressions
  35. 35. Modalités d’affichage et de récupération (Abes) • theses.fr o Interface de consultation o Export RDF o une API permettant de récupérer les résultats d’une requête • 3 formats disponibles : XML, JSON et ATOM.
  36. 36. http://www.theses.fr/2000CLF20021.rdf
  37. 37. Modalités d’affichage et de récupération (Abes) • TEF (STAR) o Réservoir OAI-PMH - 2 formats : DC et TEF o TEF est converti en Unimarc pour chargement dans le Sudoc • Expérimentation Sudoc o pas d’exposition publique, affichage dans l’outil de catalogage seulement (WiniBW) o Pas de modifications possible o Pas de récupération dans les SIGB
  38. 38. Vers la qualité des données (Abes) Les thèses de doctorat • Les statistiques d’utilisation de theses.fr • Les demandes à l’assistance AbesStp o Réclamations quand il manque des manifestations (reproductions sur d’autres supports, édition imprimées…) • 2015 : Mise à disposition d’AlgoSudoc
  39. 39. Vers la qualité des données (Abes) Expérimentation Sudoc • Pour évaluer : ouverture d’un fichier collaboratif + AbesStp : +/- 250 retours A permis de détecter : • Ce que l’algo pourrait faire de mieux o Ajout de données dans les notices Tr (NNT, PPNs qui ont permis la création de la notice...) o Amélioration de la clé titre-auteur (de 22 à 32 caractères) • si nécessaire intégration d’une table de mots vides o Contextualiser les codes de fonction o Limiter aux seules notices localisées
  40. 40. Vers la qualité des données (Abes) Expérimentation Sudoc A permis de détecter : • Des limites sur les données (au regard des descriptions et recommandations actuelles) ⇒ Mise à jour de nouvelles consignes de catalogage • Des erreurs de catalogage ⇒ Correction des notices et recalcul automatique la nuit suivante ⇒ nouveau regroupement visible dès le lendemain
  41. 41. Vers la qualité des données (Abes) Expérimentation Sudoc • Réflexions : o Exclure de l’algorithme certaines notices ? (aberrations de certains regroupements pour des titres en latin ou en grec par exemple) o Intégration des agrégats (?) o Ouverture à la validation des notices par les catalogueurs (?)
  42. 42. Mise en place d’une stratégie d’alignement : l'exemple de la Médiathèque de Roubaix
  43. 43. Mise en place d’une stratégie d’alignement : exemple de Roubaix Problématique : Les agences nationales effectuent un travail de FRBRisation de leurs données. Comment bénéficier de ce travail lorsqu’on est une bibliothèque publique de taille moyenne, sans ressources humaines et techniques importantes à déployer sur le sujet ?
  44. 44. Mise en place d’une stratégie d’alignement : exemple de Roubaix Exemple de la Médiathèque de Roubaix : Mise en place d’une stratégie d’alignement et de récupération des métadonnées provenant d’une agence nationale (BnF)
  45. 45. Mise en place d’une stratégie d’alignement : exemple de Roubaix Etape 1 : début de la décennie 2010, le temps du questionnement
  46. 46. Mise en place d’une stratégie d’alignement : exemple de Roubaix Trois enjeux : • limiter au maximum le temps consacré au catalogage • disposer des données de la meilleure qualité possible • être en mesure de se raccrocher au train de la transition bibliographique
  47. 47. Mise en place d’une stratégie d’alignement : exemple de Roubaix Etape 2 : à partir de 2015, premières mises en oeuvre
  48. 48. Mise en place d’une stratégie d’alignement : exemple de Roubaix 2015 : mise en place d’un outil d’alignement et de récupération de données de la BnF (vendangeur) • un outil qui permet à la fois d’aligner... • … et de récupérer et maintenir les métadonnées
  49. 49. Mise en place d’une stratégie d’alignement : exemple de Roubaix LDR 02199cam1 2200481 i 450 001 302808 003 http://www.mediathequederoubaix.fr/ark:/20179/KH302808 ... 010 $a978-2-35925-108-1$bbr.$d23 EUR 073 0$a9782359251081 ... 200 1$aFace à Gaïa$bTexte imprimé$ehuit conférences sur le nouveau régime climatique$fBruno Latour... 330 $aLe philosophe propose ici une réflexion sur l'interaction de l'humain avec la nature et ses éléments (l'air, les océans, les glaciers, le climat, le sol). Il étudie l'entrée de l'humanité dans une géohistoire où la nature, rendue instable, représente désormais un être dont il est difficile de prévoir les manifestations, figurée ici sous les traits de Gaïa, la déesse mère de la mythologie grecque. Electre 2018 ... 700 1$312012722$61263037$79401116748$aLatour$bBruno$f1947-....$4070 801 3$aFR$bElectre$c20180619$gAFNOR
  50. 50. Mise en place d’une stratégie d’alignement : exemple de Roubaix LDR 02199cam1 2200481 i 450 001 304069 003 http://www.mediathequederoubaix.fr/ark:/20179/KH304069 010 $a978-2-35925-108-1$bbr.$d23 EUR 033 $ahttp://catalogue.bnf.fr/ark:/12148/cb44456612v 035 $aFRBNF444566120000001 073 0$a9782359251081 ... 200 1$aFace à Gaïa$bTexte imprimé$ehuit conférences sur le nouveau régime climatique$fBruno Latour ... 330 $aLe philosophe propose ici une réflexion sur l'interaction de l'humain avec la nature et ses éléments (l'air, les océans, les glaciers, le climat, le sol). Il étudie l'entrée de l'humanité dans une géohistoire où la nature, rendue instable, représente désormais un être dont il est difficile de prévoir les manifestations, figurée ici sous les traits de Gaïa, la déesse mère de la mythologie grecque. Electre 2018 ... 700 $312012722$933063$oISNI0000000121472849$aLatour$bBruno$f1947-....$4070 801 0$aFR$bFR-751131015$c20151123$gAFNOR$hFRBNF444566120000001$2intermrc
  51. 51. Mise en place d’une stratégie d’alignement : exemple de Roubaix LDR 02265cx a2200301 4500 001 33063 010 $a0000000121472849 033 $ahttp://catalogue.bnf.fr/ark:/12148/cb12012722c 035 $aFRBNF12012722 ... 200 $7ba0yba0y$8fre$aLatour$bBruno$f1947-.... ... 801 $aFR$bFR-751131015$c20120110 ... 999 $a12012722
  52. 52. Mise en place d’une stratégie d’alignement : exemple de Roubaix La mise en place du vendangeur implique une bonne connaissance des ses données, notamment : • pour décider si l’ensemble des notices locales doivent être remplacées (par exemple : à Roubaix, choix de ne pas toucher aux notices liées à des documents patrimoniaux) • pour protéger certains champs (par exemple : résumés, indexation, …)
  53. 53. Mise en place d’une stratégie d’alignement : exemple de Roubaix LDR 01652cam a2200361 4500 001 214822 003 http://www.mediathequederoubaix.fr/ark:/20179/KH214822 010 $a978-2-914216-83-8$bCart.$d14.00 EUR 033 $ahttp://catalogue.bnf.fr/ark:/12148/cb414756389 035 $aFRBNF414756380000005 073 0$a9782914216838 ... 200 1$aCrapauds sur le pot$bTexte imprimé$fJean-Michel Zurletti ... 330 $aUn album pour apprendre aux plus petits la propreté. Les illustrations sont faites de collages. 339 $aa 609 0$aLivres de bébé 609 0$aEnfants$xEducation à la propreté$2rameau 686 $a809$2Cadre de classement de la Bibliographie nationale française 700 $313759593$969986$aZurletti$bJean-Michel$f1960-....$4070 801 0$aFR$bFR-751131015$c20090505$gAFNOR$hFRBNF414756380000005$2intermrc
  54. 54. Mise en place d’une stratégie d’alignement : exemple de Roubaix Bilan de la mise en place du vendangeur : • Des taux d’alignement très disparates :
  55. 55. Mise en place d’une stratégie d’alignement : exemple de Roubaix Bilan de la mise en place du vendangeur (suite) : • Des problèmes de génération de doublons parmi les autorités
  56. 56. Mise en place d’une stratégie d’alignement : exemple de Roubaix Etape 3 : l’arrivée du sauveur ? (2018)
  57. 57. Mise en place d’une stratégie d’alignement : exemple de Roubaix Tests menés sur BiblioStratus en 2018, avec l’espoir : • d’améliorer les taux d’alignements, en particulier sur l’audiovisuel et les enregistrements sonores • de résoudre les problèmes liées aux doublons d’autorités
  58. 58. Traitement des données bibliographiques :
  59. 59. Fichier en entrée (données bibliographiques)
  60. 60. Fichier en sortie (données bibliographiques)
  61. 61. Traitement des données autorités :
  62. 62. Fichier en entrée (données autorités)
  63. 63. Fichier en sortie (données autorités)
  64. 64. Mise en place d’une stratégie d’alignement : exemple de Roubaix Premiers bilans vis-à-vis de BiblioStratus : • des corpus sur lesquels le taux d’alignement a significativement augmenté • échec sur les enregistrements sonores et l’audiovisuel (mais évolutions du service SRU de la BnF laisse entrevoir des améliorations) • de gros progrès sur les autorités
  65. 65. Mise en place d’une stratégie d’alignement : exemple de Roubaix La suite ? comment faire bénéficier les utilisateurs de ces nouvelles données ?
  66. 66. Merci de votre attention

×