Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
A3iFormations, organisme de formations certifié qualiopi.
Données de la recherche : quel positionnement et quels rôles pour les bibliothèques?
1. DONNÉES EN PARTAGE : ENJEUX ET
ACTEURS DES DONNÉES DE LA
RECHERCHE
URFIST Toulouse
15 juin 2015
DONNÉES DE LA RECHERCHE :
QUEL POSITIONNEMENT ET
QUELS RÔLES POUR LES
BIBLIOTHÈQUES?
Pierre Naegelen
Responsable du Service des Ressources Électroniques
Service Commun de la Documentation
Université Toulouse III – Paul Sabatier
2. DONNÉES EN PARTAGE : ENJEUX ET
ACTEURS DES DONNÉES DE LA
RECHERCHE
URFIST Toulouse
15 juin 2015
DONNÉES DE LA RECHERCHE :
QUEL POSITIONNEMENT ET
QUELS RÔLES POUR LES
BIBLIOTHÈQUES?
Pierre Naegelen
Responsable du Service des Ressources Électroniques
Service Commun de la Documentation
Université Toulouse III – Paul Sabatier
Goldilocks runs from the three bears.. Arthur Mee and Holland Thompson, eds. The Book of Knowledge, 1912. Public Domain. Source : Wikimedia Commons
3. 3 RÔLES AU MOINS POUR LES BIBLIOTHEQUES :
• Analyser les statistiques de consultation de la documentation en vue
d'évaluer les besoins des chercheurs
• Etre un acteur de l'indexation des données : "médiateur de la valorisation
des données" (Catherine Morel-Pair)
• Constituer une cellule d'appui pour la gestion des données de la recherche :
l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des
Données (PGD)
QUELS RÔLES POUR LES BIBLIOTHEQUES?
4. QUELS RÔLES POUR LES BIBLIOTHEQUES?
PROJET ezPAARSE
ezPAARSE est un projet national d’analyse des logs de connexion à la
documentation électronique. EzPAARSE est issu d'un partenariat entre l'INIST-
CNRS, l'Université de Lorraine et le consortium COUPERIN
Le Service Commun de la Documentation de l'Université Toulouse III - Paul
Sabatier travaille actuellement sur l’exploitation automatisée de l’analyse des
logs :
• Construction d’une base de données relationnelle
• A terme : utilisation du langage NoSQL et du framework Hadoop
Analyser les statistiques de consultation de la
documentation en vue d'évaluer les besoins des
chercheurs
5. Analyser les statistiques de consultation de la
documentation en vue d'évaluer les besoins des
chercheurs
6. QUELS RÔLES POUR LES BIBLIOTHEQUES?
INDEXATION DES DONNEES
Modèle conceptuel FRBR considéré comme la pierre apportée par
les bibliothécaires au web de données
Norme RDA
Savoir à réinvestir dans le signalement des données
Etre un acteur de l'indexation des données :
"médiateur de la valorisation des données" (Catherine
Morel-Pair)
7. 7Philippe Le Pape, ABES
Œuvre
Expression
Manifestation
Item
FRBR
Os mistérios de Lisboa
roman (1854)
Traduction. Langue : français
Les mystères de Lisbonne.
M. Lafon, 2011. – 1 vol. (603 pages)
ISBN 978-2-7499-1404-6
Cote : 869.33 CAS
Les mystères de Lisbonne
« FRBR / RDA - Du modèle à la norme ». Par Philippe Lepape. Journée d’étude
CRFCB/ABF du 27 mai 2013
8. Un exemple de traduction de FRBR en langage RDF
Source: data.bnf.fr
9.
10. QUELS RÔLES POUR LES BIBLIOTHEQUES?
L'OPEN RESEARCH DATA PILOT (DÉCEMBRE 2013)
• L’utilisation d’un plan de gestion des données est exigée dans le
cadre de projets présentés dans le cadre du projet pilote Libre
accès aux données issues de la recherche (Open Research Data).
• Les projets prenant part au projet pilote Libre accès aux données
issues de la recherche doivent fournir une première version de leur
PGD dans les six premiers mois. (...) Puisque les PGD sont
censés évoluer tout au long du projet, des versions plus élaborées
du plan pourront être incluses en tant qu'éléments livrables
supplémentaires lors de phases ultérieures. Le PGD a pour but le
financement du cycle de vie suivi par la gestion appliquée aux
données que le projet sera amené à collecter, traiter ou générer.
• Pour les autres projets, l'élaboration d'un PGD est optionnelle
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
Le DMP évolue au
cours du temps: il
sert à gérer des flux
et non des stocks
11. QUELS RÔLES POUR LES BIBLIOTHEQUES?
L'OPEN RESEARCH DATA PILOT (DÉCEMBRE 2013)
Déposer dans un entrepôt de données de recherche et prendre des
mesures afin de rendre possible l’accès, l’exploitation, la reproduction et la
diffusion par un tiers – et ce gratuitement pour tous – des éléments
suivants:
(i) les données, y compris les métadonnées associées, nécessaires à
la validation des résultats présentés dans des publications scientifiques
le plus tôt possible ;
(ii) les autres données, y compris les métadonnées associées
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
« Données
sous-
jacentes »
12. QUELS RÔLES POUR LES BIBLIOTHEQUES?AuroreCartier,MagalieMoysanetNathalieReymonet,«Construiredesoutilspour
lagestiondesdonnéesdelarecherchedansunecommunautéd’universités»
13. QUELS RÔLES POUR LES BIBLIOTHEQUES?AuroreCartier,MagalieMoysanetNathalieReymonet,«Construiredesoutilspour
lagestiondesdonnéesdelarecherchedansunecommunautéd’universités»
14. QUELS RÔLES POUR LES BIBLIOTHEQUES?
LE MODÈLE DE PLAN DE GESTION DE DONNÉES D'APRÈS LES
LIGNES DIRECTRICES H2020 :
Titre: Référence et nom du jeu de données
1. Description du jeu de données
2. Normes et métadonnées
3. Partage des données
4. Archivage et conservation (y compris stockage et sauvegarde des
données)
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
Pour aller plus loin : Tutoriels « Le libre accès aux résultats de la
recherche dans le cadre d’Horizon 2020 » sur le site de l'INIST.
15. QUELS RÔLES POUR LES BIBLIOTHEQUES?
1. DESCRIPTION DU JEU DE DONNÉES
• Données générées ou collectées ?
• Origine des données (s'il y a collecte)
• Leur nature (typologie, format..) et leur échelle (volumétrie capacité
de stockage?)
• À qui elles pourraient être utiles ?
• Viennent-elles en appui d'une publication scientifique ?
• Les informations sur l’existence (ou la non-existence) de données
similaires
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
16. QUELS RÔLES POUR LES BIBLIOTHEQUES?
2. NORMES ET MÉTADONNÉES
Il existe des sites ressources :
1. Ressources Interdisciplinaires :
Digital Curation Center (UK)
2. Ressources par disciplines
Exemples:
BioSharing en Sciences de la vie
Huma-Num en SHS
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
17. QUELS RÔLES POUR LES BIBLIOTHEQUES?
3. PARTAGE DES DONNÉES
• Modalités de dépôt (choix de l'entrepôt: se reporter à re3data.org ou
bien utiliser Zenodo, Dryad...)
• Modalités de partage (embargo, accès restreint, identifiant pérenne)
• Les licences : l'UE recommande les licences CC-BY ou CC-O
• Les exceptions ("motifs de nature éthique, liés à la protection des
données personnelles, de la propriété intellectuelle, commerciale, à la
protection de la vie privée, et de sécurité, etc.")
Les résultats de la recherche sont partie intégrante du
Domaine public de l’information…
18. QUELS RÔLES POUR LES BIBLIOTHEQUES?
3. PARTAGE DES DONNÉES
•impératif épistémologique de réutilisation - La science se construit par
la réutilisation, la confrontation et la critique des travaux précédents.
L'exploitation et la réutilisation des données produites jouent dans la méthode
scientifique un rôle grandissant
•impératif technique d'intégration - A l'heure du Big Data, les volumes
considérables de données à entrecroiser font de l'interopérabilité des données
une nécessité.
•impératif juridique de simplification - "La forêt des termes et conditions
autour des données rend l'intégration difficile à réaliser légalement dans de
nombreux cas". (Protocol for Implementing Open Access Data de la fondation
Science Commons)
Les résultats de la recherche sont partie intégrante du
Domaine public de l’information…
19. QUELS RÔLES POUR LES BIBLIOTHEQUES?
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
20. Le Code de la Propriété Intellectuelle
Propriété littéraire et
artistique
Un droit qui existe ab initio
Droits d’auteurs
Œuvres de l’esprit
Logiciels
Droits voisins
Droits des artistes-interprètes
Propriété industrielle
un droit qui nécessite une
formalité d’enregistrement
Dessins et modèles
Créations esthétiques
Brevets
Inventions techniques
Marques
Connaissances techniques
Obtentions végétales
Protection des semi-
conducteurs
Secret de fabrique
Droit spécifique des
producteurs de bases de
données
un droit sui generis
Lorsque la vérification ou la présentation du
contenu de la base atteste d'un investissement
financier, matériel ou humain substantiel
Protection: 15 ans renouvelables à compter de
chaque investissement substantiel
La base de données bénéficie
également de la protection du
droit d’auteur lorsque celui qui a
pris l’initiative et le risque de la
constituer démontre :
un choix original des données
et/ou
une structure originale de la base
Directive communautaire
du 11 mars 1996 sur la
protection des bases
de données,
transposée par la loi du
1er juillet 1998
Le droit sui generis des bases de données conforte
la captation par les éditeurs des résultats de la
recherche
Consécration d’une « science propriétaire »
21. Un cas emblématique : le projet text2genome... 3 ans de
tractation avec les éditeurs scientifiques...
22. Implosion en février 2013 du Text and Data Mining Working Group, le groupe de
travail européen qui réfléchissait à une modification du cadre légal du Text and
Data Mining. Due à l'attitude des principaux éditeurs scientifiques qui
refusaient de faire évoluer le système hors du cadre des licences éditoriales.
23. LIBER: Déclaration de la Haye (mai 2015)
• la propriété intellectuelle n’a pas été
conçue pour réguler la circulation des
faits, des données et des idées, mais a
comme objectif principal la promotion de
l’activité de recherche ;
• les personnes devraient avoir la liberté
d’analyser et d’explorer sans craindre la
surveillance ou les répercussions ;
• les licences et les conditions des
contrats ne devraient pas limiter
l’utilisation des faits, des données et
des idées ;
• l’éthique autour de l’utilisation des
techniques d’exploration des contenus
devra continuer à évoluer pour répondre
aux changements de la technologie ;
• l’innovation et la recherche commerciale
basées sur l’utilisation des faits, des
données, et des idées ne devraient pas
être limitées par le droit de la propriété
intellectuelle.
24. ENJEU: si un cadre juridique n’est pas trouvé, c’est le producteur
de la base de données qui imposera ses conditions via sa propre
licence ad hoc…
25. Licence
Champ d’application : contenu ou
métadonnées (MD) ?
Creative Commons (sauf CC0)
MD pour la version 4.0, compatible avec le droit sui
generis des bases de données)
NB: les versions 1.0 à 3.0 ne sont pas compatibles
avec le droit des bases de données
CC0 Contenu ou MD
Licence Ouverte/Open
Licence
Contenu ou MD
ODbL (Open Database
License)
MD
ODC-By (Open Data
Commons Attribution
License)
MD
PDDL (Public Domain
Dedication and Licence)
MD
Principales licences facilitant la diffusion des données de la recherche
26. Outil d’aide au choix d’une licence
FAIL ! L'outil de l’INRIA propose des licences CC
antérieures à la version 4.0, donc non compatibles avec
le droit des bases de données…
27. Principes de Panton de l’OKF (Open Knowledge Foundation)
"Furthermore, in science it is STRONGLY recommended that data, especially
where publicly funded, be explicitly placed in the public domain via the
use of the Public Domain Dedication and Licence or Creative Commons
Zero Waiver. This is in keeping with the public funding of much scientific
research and the general ethos of sharing and re-use within the scientific
community. Explicit dedication of data underlying published science into the
public domain via PDDL or CCZero is strongly recommended and ensures
compliance with both the Science Commons Protocol for Implementing Open
Access Data and the Open Knowledge/Data Definition.“
Débat : quelle licence privilégier ?
28. QUELS RÔLES POUR LES BIBLIOTHEQUES?
4. ARCHIVAGE ET CONSERVATION (Y COMPRIS STOCKAGE ET
SAUVEGARDE DES DONNÉES)
A l’échelon national
• PAC= Plateforme d'Archivage du CINES
• Huma-Num en SHS (CINES opérateur)
• CNES
A l’échelon européen :
Projet européen Eudat (European Data Infrastructure)
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
29. QUELS RÔLES POUR LES BIBLIOTHEQUES?
4. ARCHIVAGE ET CONSERVATION
Modèle OAIS
Open Archival
Information System
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
Source: « Le modèle de référence OAIS » .
Par Pierre Couchet. ArchivEngines [Blog]
30. QUELS RÔLES POUR LES BIBLIOTHEQUES?
IL EXISTE DES OUTILS EN LIGNE POUR ÉLABORER DES DMP
• DMP Online du Digital Curation Center (DCC, UK): élaborer un DMP en
remplissant un formulaire en ligne (checklist)
• Data Management Planning Tool de l'University of California Curation Center
(UCC): élaborer son DMP à partir de "templates", autrement dit d'autres DMP
existants
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
31. QUELS RÔLES POUR LES BIBLIOTHEQUES?
SI ON RESUME...
Le PGD vise à archiver les jeux de données des chercheurs. Il fait
appel à :
• des compétences informatiques,
• des compétences archivistiques, documentaires (MD, catalogage,
identification),
• des compétences juridiques
Constituer une cellule d'appui pour la gestion des
données de la recherche : l'élaboration d'un Digital
Management Plan
33. Merci de votre attention !
pierre.naegelen@univ-tlse3.fr
Notas do Editor
Il était une fois une maman ours, un papa ours et un petit ours qui habitaient une belle maison au fond de la forêt. Un jour, maman ours prépara une soupe délicieuse. Comme elle était trop chaude, les trois ours partirent se promener.
Qui se présente à ce moment devant la maison ? Boucle d’Or. Elle est très fatiguée, alors elle décide d’entrer pour se reposer un peu.
Boucle d’Or ne le sait pas encore, mais quand elle sera plus grande, elle sera chercheuse au CNRS. Elle a déjà la fibre scientifique : elle teste tout ce qu’elle voit et elle compare les objets, les évalue et les classe par ordre de grandeur. Elle s’assoit dans une grande chaise, trop haute, une chaise moyenne, un peu cassée et une petite chaise, qu’elle trouve parfaite. Elle goûte la soupe du grand bol, qu’elle trouve trop chaude, puis la soupe du bol moyen, qu’elle trouve trop salée, puis la soupe du petit bol, qu’elle trouve parfaite. A ce stade, notre scientifique en herbe voit trois lits et elle ne peut s’empêcher de réitérer l’expérience : elle s’allonge dans le grand lit qu’elle trouve trop dur, dans le lit moyen qu’elle trouve trop mou, puis dans le petit lit qui se trouve être parfait.
Dans une certaine mesure, les trois ours n’existent que dans le regard de Boucle d’Or : ce sont ses hypothèses qui donnent corps à l’idée des trois ours, c’est son regard qui établit un ordre de hiérarchie entre les ours ou entre les objets. Les hypothèses de Boucle d’Or s’agrègent en trois masses : small data pour le petit ours, medium data pour la maman ours et big data pour le papa ours.
A la fin de l’histoire, Boucle d’Or s’endort dans le petit lit du petit ours. Les trois ours sont revenus de leur promenade et réveillent Boucle d’Or, qui, apeurée, s’enfuit. Il y a plusieurs façons d’interpréter cette fin.
Ou bien il est possible que le réveil que les trois ours infligent à Boucle d’Or ait une signification d’ordre épistémologique. Elle signifierait le passage à une nouvelle méthode expérimentale: désormais la méthode scientifique ne consiste plus à tester des hypothèses par des expériences; les données prennent le pouvoir. La nouvelle manière de faire de la science part de données sans hypothèse et sans modèle, et, comme le dit le journaliste Chris Anderson, « avec suffisamment de données, les chiffres parlent d'eux-mêmes ».
Ou bien encore, sans que cela soit contradictoire avec la précédente hypothèse, Boucle d’Or est punie pour sa désinvolture, car elle s’est assoupie en oubliant de conserver quelque part dans un coin de sa mémoire la somme des données d’expérience accumulées.
Mais cette dernière hypothèse est infirmée par le fait que l’histoire de Boucle d’Or a perduré à travers le temps . Il faut donc supposer que, après s’être enfuie dans les bois, Boucle d’Or a rencontré un conteur qui a gardé trace de son expérience. C’est grâce au récit de ce conteur ou de ce compteur, que la description de l’expérience de Boucle d’Or et les données sous-jacentes non seulement ne se sont pas perdus, mais ont été disséminés, partagés et finalement réutilisés, comme je viens de le faire. Le conteur/compteur, c’est le bibliothécaire.