Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
metadata_pour_dirbu_mars2011
1. Métadonnées urbi et orbi Mécanismes et enjeux du Web de données, de l'échelle locale à l'échelle du Web y. nicolas : abes :: formation enssib ::: dirbu 31 mars 2011
3. Métadonnées = ? Information structurée et réutilisable sur (…) Exemples Une page de titre papier est structurée, mais n’est pas réutilisable Une notice MARC = un ensemble de métadonnées 3
18. Les métadonnées de thèse,c’est… toute information structurée … … qui concerne de près ou de loin la thèse peu importe la structure peu importe le format peut importe le type d’entité dont on parle : Document Personne Organisme Concept 14
33. souciDilemme de l’interopérabilité Riche et seul Réduire la richesse de ses métadonnées pour les mettre au niveau d’autres métadonnées Dublin Core Conserver la richesse de ses métadonnées mais sans pouvoir se faire comprendre MARC TEF EAD Sociable mais pauvre
34. souciAgréger des données hétérogènes Difficile de mixer des notices On juxtapose On fusionne parfois On n’agrège pas vraiment
35. souciFrontières institutionnelles Institutions comme mères possessives des métadonnées Conflit d’intérêt chez chacune Produire, gérer, publier les données Exploiter les données, construire des outils l’outil et des interfaces l’interface Lutte pour le monopole entre elles Qui agrège les données des uns et des autres ? Coordination lourde et lente
42. Les choix techniques peuventrésoudre certainsproblèmespolitiques Bibi, 31 mars 2011
43. souciFrontières interprofessionnelles Faire cohabiter voire interagir les données Vaudeville : Calames : bibliothécaires et chercheurs Sudoc : bibliothécaires et éditeurs ou agrégateurs STAR et STEP (thèses en cours) : bibliothécaires et gestionnaires (scolarité, recherche) Theses.fr : public et privé Etc.
44. souciLes données prisonnières des outils Les données et les traitements sur les données doivent survivre aux outils « Résultats fusionnés » = travail dissimulé sur les données
46. Un autre CCfr ? Inspection en cours Proposition : Un opérateur agrège, traite, enrichit les données et les renvoie aux producteurs Un autre opérateur construit une interface Web et des Web services Qui veut construit d’autres interfaces, ad hoc, de niche, expérimentales, mashups …
48. souciQualité des données Ouverture des donnéesvsSoin des données Dilemme ? Cerclevertueux ? Qu’est-ceque de bonnesdonnées ?
49. Data quality is multidimensional, and involves data management, modelling and analysis, quality control and assurance, storage and presentation. (..) data quality is related to use and cannot be assessed independently of the user. Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
50. souciQualité des données Bonnesdonnées = Bonnes à quoi ? Maissi les donnéessontouvertes, on ignore leur usage ! Aporie Jusqu’oùaller ? QuellesconsignesdansSudoc, Calames, STAR ? Miser sur le contenutextuel ? Miser sur les liens aux référentielset à d’autresdonnéesfiables et stables ?
52. RDF Standard W3C Existe depuis 1998, mais décolle aujourd’hui Resource Description Framework Cadre général pour décrire n’importe quoi Tout peut être « resource » à décrire RDF, modèle universel pour intégrer toute information au Web de données 48
57. Comment publier ses métadonnées en RDF ? Mettre du RDF dans ses pages HTML RDFa (RDF dans les attributs HTML) Calames Thèses de STAR : www.theses.fr/{Numéro_national_de_Thèse} Publier un document RDF à part RDF en XML (ou autre format) Autorités Sudoc dans IdRef 53
65. Nos métadonnées et les moteurs Google Richsnippets RDFa à la Google pour Google Pas possible de parler de thèses, de documents Mais on peut parler de personnes, d’entreprises, de produits… Sindice Moteur spécialisé dans les données sémantiques Les moteurs explorent, moissonnent De plus en plus vont agréger et faire raisonner nos métadonnées Seulement le début… 55
66. RDF :: Souci en moinsDilemme de l’interopérabilité seul et sociable pauvre et riche tef:auteur rdfs:subPropertyOf dc:creator
67. RDF :: moins de souciAgréger des données hétérogènes Ne pas juxtaposer des notices Agréger des triplets RDF Et plus si affinités (inférences)
68. RDF : moins de souciFrontières institutionnellesFrontières interprofessionnelles Manque d’imaginationBiais Plus de frontières Tout le monde peut dire n’importe quoi sur n’importe quoi Pour le meilleur Pour le pire
69. RDF :: souci en moinsLes données prisonnières des outils Ni des outils Ni des formats (RDF n’est pas un format) Ni des vocabulaires Mais : Attention à la conceptualisation Attention aux faux-amis
70. Souci toujoursQualité des données Le problèmeresteentier Miser sur la qualité de nosdonnées ! AOC des données (provenance) Les machines ne font pas tout !
71. Linked data Vers un Web de données liées Credo : “Use URIs as names for things Use HTTP URIs so that people can look up those names. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) Include links to other URIs. so that they can discover more things. “ Tim Berners Lee, 2006
72. The Linking Open Data cloud Linking Open Data clouddiagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
73. DBpedia Wikipedia en RDF http://dbpedia.org/About De facto, vaste base de connaissance sur laquelle les corpus RDF se règlent. Le mapping : exemple BBC/DBPedia
81. Linked data IST.fr ? ? theses.fr Sudoc Thèses soutenues et Thèses en cours ( 2011) Autorités Sudoc Plateforme pédagogique X HAL revues. org Presses univ. de Y Calames Persée
82. Linked data IST.fr ? Les labos ! ? theses.fr Sudoc Thèses soutenues et Thèses en cours ( 2011) Autorités Sudoc Plateforme pédagogique X HAL revues. org Presses univ.s de Y Calames Référentiel des laboratoires Persée
83. Linked data IST.fr ? Les affiliations PRISMES (AMUE) locaux theses.fr Sudoc Autorités Sudoc Plateforme pédagogique X HAL revues. org Presses univ.s de Y Calames Référentiel des laboratoires Persée
84. Authentification, habilitation et données liées Problème : dans theses.fr, on veut associer des droits spécifiques aux auteurs de thèse (stats, être contacté) Comment reconnaître un utilisateur en tant qu’auteur Solution ? Authentification Shibboleth avec « être l’auteur de telle thèse » comme propriété discriminante
85. Linked data IST.fr ? Les brevets brevets theses.fr Sudoc Autorités Sudoc Plateforme pédagogique X HAL revues. org Presses univ.s de Y Calames Référentiel des laboratoires Persée + données de recherche, cahiers de laboratoire, congrès…
86. Système(s) d’information de la recherche Interconnecter nos bases Ne pas enfermer les données dans de nouveaux outils Partager ce qui peut l’être Se coordonner sans coopérer (sic)
88. Scénarios On ouvre les données et « servez-vous ! » On offre aussi des services pour faciliter la tâche C’est le sens d’IdRef
89. IdRef Une application sur mesure pour « servir » les Référentiels Sudoc et partager leurs Identifiants 2 fonctions : Chercher des autorités et y lier ses données Enrichir le référentiel d’autorités (créer, modifier) 2 moyens Se « brancher » sur l’application Web cuit Exploiter les Web Services mi-cuit Données ouvertes cru
98. Web de données = (catalogage partagé)2 Contribuer au Web de données Documentaire Scientifique Patrimonial Miser sur l’ouverture et la qualité des données Empêcher les monopoles sur les données Moins dépendre des fournisseurs de logiciels Utiliser et valoriser la force de frappe des catalogueurs