2e partie de la formation "Open Science et données de la recherche" proposée les 28 avril et 12 mai 2016 aux écoles doctorales LASH et DESPEG (Université de Nice Sophia-Antipolis)
Réalisée et assurée par Mathieu Saby, SCD de Nice Sophia-Antipolis
Plan:
- Les données de la recherche et leur gestion
- Produire ou réutiliser des données
- Stocker ses données en sécurité
- Organiser ses données
- Documenter ses données
- Enjeux juridiques et éthiques
- Partager et diffuser ses données
- Stocker et archiver après le projet
- Contacts sur la gestion des données
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
Gérer et diffuser ses données: principes et bonnes pratiques
1. Gérer et diffuser ses données:
principes et bonnes pratiques
1
Formation doctorale LASH et DESPEG
2e partie de la formation Open science et données de la
recherche co-organisée par l’URFIST de Nice et le SCD de l’UNS
Mathieu Saby
SCD-BU UNS
donnees-scd@unice.fr
2. Plan
1. Les données de la recherche et leur gestion
2. Produire ou réutiliser des données
3. Stocker ses données en sécurité
4. Organiser ses données
5. Documenter ses données
6. Enjeux juridiques et éthiques
7. Partager et diffuser ses données
8. Stocker et archiver après le projet
9. Contacts sur la gestion des données
2Mathieu Saby - avril/mai 2016
3. 1. Les données de la recherche et
leur gestion. De quoi parle-t-on?
3Mathieu Saby - avril/mai 2016
4. Les données de la recherche en bref
Définition élastique
❑Au sens strict: éléments discrets, structurés et
analysables statistiquement, porteurs d'informations
sur des faits ou objets du monde réel
❑Au sens large: tous les "matériaux" analysés ou
interprétés lors d'une recherche
4Mathieu Saby - avril/mai 2016
5. Les données de la recherche en bref
Production et utilisation croissante
Mouvement général d'ouverture
❑à des fins de validation et de réutilisation
❑soutenu par des financeurs de la recherche (dont
l'UE), des éditeurs, des universités, des
organismes internationaux...
5Mathieu Saby - avril/mai 2016
6. Les données de la recherche en bref
Différents modes de création
Expérience (en laboratoire, sur le terrain…)
Observation (par questionnaire, enquête, mesure,
captation, recueil de traces...)
Simulation ou modélisation numérique
Extraction à partir de sources
6Mathieu Saby - avril/mai 2016
7. Les données de la recherche en bref
Différentes formes
7Mathieu Saby - avril/mai 2016
8. Les données de la recherche en bref
Différents supports
Nativement numérique
Analogique (livres, cassettes, photos, objets…)
Numérisation de support analogique
8Mathieu Saby - avril/mai 2016
9. Peut-on parler de "données" en SHS?
Dans vos recherches ou votre discipline, pensez-
vous produire ou réutiliser des données?
9Mathieu Saby - avril/mai 2016
10. Peut-on parler de "données" en SHS?
■ Dimension empirique variable selon les
disciplines et les approches méthodologiques
■ Vocabulaire riche pour désigner les
matériaux de recherche : sources, corpus,
traces, enquêtes… et parfois seulement
« données »
■ Reproductibilité non revendiquée dans
certaines disciplines
■ Les données « brutes » sont souvent déjà
une « interprétation » du réel
10Mathieu Saby - avril/mai 2016
11. Peut-on parler de "données" en SHS?
Mais les approches numériques peuvent
renouveler plus ou moins profondément la manière
d'appréhender les matériaux de recherche
Quelques exemples français dans différentes
disciplines:
Cf. Myriam Posner (2015). Humanities data: a necessary contradiction
11Mathieu Saby - avril/mai 2016
Labex Transfers (plusieurs projets)
Médialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne à l'oeuvre
Colostrum
Criminocorpus
12. Peut-on parler de "données" en SHS?
■ Tournant numérique soutenu par des
infrastructures et des réseaux, en France
❑ Humanum
❑ Progedo
❑ OpenEdition
❑ Persée
❑ Maisons des Sciences de l'Homme
❑ Réseaux disciplinaires
■ Mais aussi en Europe et à l’étranger
12Mathieu Saby - avril/mai 2016
13. La gestion des données de la recherche
Une expression barbare…
Mais chaque chercheur fait de la
gestion des données comme
Monsieur Jourdain de la prose!
13Mathieu Saby - avril/mai 2016
il y a plus de quarante ans que je dis de la prose sans
que j’en susse rien, et je vous suis le plus obligé du
monde de m’avoir appris cela.
14. La gestion des données de la recherche
Ensemble de pratiques, parfois quotidiennes
parfois plus exceptionnelles, menées par les
chercheurs et/ou par du personnel spécialisé, pour
faciliter:
❑pendant le projet: l'exploitation et la sécurisation des
données
❑après la fin du projet: leur préservation, leur partage
et leur réutilisation
14Mathieu Saby - avril/mai 2016
15. Le cycle de vie des données
15Mathieu Saby - avril/mai 2016
Pendant le projet
Après le projet
Préservation
des données
Réutilisation
des donnéesSociété
Autres
projets de
recherche
Création ou
collecte de
données brutes
+
Utilisation de
données
existantes
Traitement,
analyse,
interprétation
des données
Publication
(article, livre,
thèse)
+
Partage des
données
Planification
du projet
+
Planification
de la gestion
des données
16. Les plans de gestion de données
Besoin d'expliciter et de formaliser la gestion des
données
❑ Exemple: la base de données linguistique CLAPI (et
site de méthodologie associée Corinte)
16Mathieu Saby - avril/mai 2016
17. Les plans de gestion de données
■ DMP (Data Management Plan)
■ Outil pour planifier la gestion des données et la
rendre plus efficace
■ Pas exigé lors d’un doctorat, mais démarche qui
peut être inspirante
17Mathieu Saby - avril/mai 2016
18. Les plans de gestion de données
■ Document formel précisant la manière dont
seront produites, traitées, décrites, diffusées et
conservées les données au cours et à l’issue du
projet
❑ Pratique
❑ Synthétique
❑ Prospectif
❑ Évolutif
18Mathieu Saby - avril/mai 2016
19. Les plans de gestion de données
Une utilité pour le projet lui-même
■ D’autant plus utile que les données sont
❑ Nombreuses, variées, complexes
❑ Uniques
❑ Couteuses ou difficiles à produire
❑ Sensibles
❑ Utiles à d’autres personnes
■ Et que le projet est
❑ Collaboratif
❑ Long
19Mathieu Saby - avril/mai 2016
20. Les plans de gestion de données
Une utilité administrative:
■ Répondre aux exigences de certains financeurs
❑ Systématique aux USA et Royaume-Uni, mais très
rare en France
❑ Agences de financements publiques et fondations
❑ Universités et organismes de recherche
❑ Union Européenne (projet pilote, pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avril/mai 2016
21. Les plans de gestion de données
■ Pas de modèle unique, mais des éléments et
rubriques qui se recoupent souvent
■ Pour rédiger un PGD:
❑ Modèle imposé par le financeur
❑ A défaut, adopter un modèle existant en l’adaptant
au besoin
❑ Des outils informatiques : DMPonline; DMPTool
21Mathieu Saby - avril/mai 2016
22. Les plans de gestion de données
■ Un modèle britannique (Digital curation center, V.4, 2014)
❑ Informations administratives
❑ Collecte des données, organisation
❑ Documentation et métadonnées
❑ Ethique et cadre légal
❑ Stockage, sauvegarde, sécurité
❑ Archivage
❑ Partage des données
❑ Responsabilités et moyens
22Mathieu Saby - avril/mai 2016
Après le projet
23. Les plans de gestion de données
■ Un modèle français (Paris Diderot et Paris Descartes, 2015)
❑ Informations relatives au projet
❑ Responsabilité des données : répartition des rôles
❑ Ressources nécessaires à la mise en œuvre
❑ Pour chaque jeu de données
■ Description du jeu de données
■ Stockage, accès et sécurité des données
■ Documentation et organisation des données
■ Dissémination du jeux de données (après le projet)
❑ Sélection et archivage
23Mathieu Saby - avril/mai 2016
24. 2. Produire ou réutiliser des données
24Mathieu Saby - avril/mai 2016
25. Réutiliser des données existantes
■ Le projet peut-il réutiliser des données
existantes ?
■ Intérêt et limites ?
■ Conditions d'accès ?
■ Coût ?
25Mathieu Saby - avril/mai 2016
26. Produire des données
■ Des données seront-elles produites ?
■ Elément central ou secondaire du projet ?
■ Combien de "jeux de données" ou d'ensembles
distincts ?
■ Quel degré de reproductibilité des données ?
■ Quel intérêt pour la recherche ou des acteurs
de la société ?
26Mathieu Saby - avril/mai 2016
27. Réutiliser des données existantes
■ Plusieurs sources possibles
❑ Autres projets de recherche
❑ Organismes privés
❑ Données publiques
Accès libre et gratuit : France, étranger, institutions internationales
Accès restreint: Réseau Quételet (statistiques publiques et grandes
enquêtes)
Accès payant: certaines données INSEE ou IGN…
Institutions culturelles (musées, bibliothèques, archives) : situation
variable
27Mathieu Saby - avril/mai 2016
28. Produire des données
■ Mode de création ou de collecte
■ Type de données
■ Support
28Mathieu Saby - avril/mai 2016
29. Produire des données
■ Étapes et niveaux d’élaboration des données
au cours du projet ?
■ Ces étapes sont-elles documentées et
reproductibles (matériel, logiciels, méthodes,
algorithmes, code informatique) ?
29Mathieu Saby - avril/mai 2016
30. Produire des données
■ Exemple de projet (histoire maritime)
Navigocorpus
❑ 1 / archives
30Mathieu Saby - avril/mai 2016
DEDIEU, Jean-Pierre, MARZAGALLI, Silvia. Partage d'expérience. Navigocorpus. Un corpus de sources pour l'histoire de la navigation à
l'époque moderne.Lettre de l'INSHS, 2013, p. 23-25.
31. Produire des données
■ Exemple de projet : Navigocorpus
❑2/ codage et saisie dans une base de données
accessible en ligne
31Mathieu Saby - avril/mai 2016
32. Produire des données
■ Exemple de projet : Navigocorpus
❑3/ données analysées et visualisées
32Mathieu Saby - avril/mai 2016
MARZAGALLI, Silvia, “Navigocorpus database and eighteenth-century French world maritime networks”, in César Ducruet (ed.),
Maritime Networks. Spatial structures and time dynamics, New York, Routledge, 2016, p. 92-111.
33. Produire des données
33Mathieu Saby - avril/mai 2016
■ Formats de fichiers
❑ Qui doit pouvoir les lire? Pour combien de temps
■ Pour un usage à long terme, privilégier des
formats ouverts
❑ Utilisables librement et gratuitement
❑ Bien documentés
❑ Non liés à un logiciel spécifique
FACILE - Service de validation de formats du CINES
Formats conseillés par Data Archive (UK)
34. Produire des données
Ex. de formats à la pérennité garantie
34Mathieu Saby - avril/mai 2016
("PDF/A"
uniquement)
Sert de cadre base à de très
nombreux formats, avec des
extensions diverses
POR
(Fichier SPSS
portable)
35. Produire des données
Ex. de formats courants sans pérennité garantie
35Mathieu Saby - avril/mai 2016
Fichiers propriétaires SPSS,
STATA, SAS, NVIVO, Altas.ti etc.
36. 3. Stocker ses données en sécurité
36Mathieu Saby - avril/mai 2016
37. Des risques à évaluer
37Mathieu Saby - avril/mai 2016
D'après vous, quels risques pèsent sur les
données pendant un projet?
38. Des risques à évaluer
38Mathieu Saby - avril/mai 2016
Perte (vol, destruction, défaillance matérielle ou logicielle, virus, mauvaise
organisation, erreur de manipulation)
Déterioration (défaillance ou logicielle, virus, erreur humaine)
Lecture impossible (obsolescence du format ou du matériel)
Compréhension impossible (mauvaise organisation, perte du contexte
ou de la documentation associée)
Accès non autorisé (sécurisation insuffisante, piratage, erreur humaine)
40. Des risques à évaluer
40Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des différentes
solutions?
41. Stockage adapté
■ Usages désirés : partage des données avec
partenaires internes ou externes, stockage,
sauvegarde, ou publication
■ Caractéristiques des données : données
publiques/confidentielles/secrètes? Quel
dommage causerait leur perte ou leur diffusion?
■ Capacités
■ Tarifs
41Mathieu Saby - avril/mai 2016
42. Stockage adapté
42Mathieu Saby - avril/mai 2016
Supports de stockage Risques Avantages
Réseau sécurisé (université,
laboratoire)
Pannes de serveur, erreur
humaine
sécurité, sauvegarde
automatique
Disque dur d'ordinateur
personnel ou professionnel
Pannes, vol, erreur
humaine
Cloud commercial, dont cloud
proposé par l’université
(OneDrive)
Vol de mot de passe.
Disparition des sociétés.
Cadre juridique parfois
flou.
partage facilité
synchronisation
automatique avec PC
Supports externes (clé USB,
disque externe, CDROM,
DVDROM)
Détérioration des
supports, perte, vol
43. Sauvegarde méthodique
■ Même en cas de stockage adapté, nécessité de
sauvegardes régulières et fréquentes
■ Utile pour se protéger de ses propres erreurs
■ Idéalement 2 sauvegardes, sur supports
différents, dont une stockée physiquement à
distance (ex: cloud + disque externe)
43Mathieu Saby - avril/mai 2016
44. Protection
■ Mots de passe fiables. À ne jamais partager
■ Éviter les ordinateurs inconnus
■ Pour les données sensibles non cryptées, éviter
❑ Les supports amovibles
❑ Le cloud
❑ Les transferts par courriel
44Mathieu Saby - avril/mai 2016
45. Cryptage
■ Crypter les données les plus sensibles
❑ Logiciels de chiffrement: Ex : FileVault (Mac),
Veracrypt (Mac et PC), CryptSync (PC)
❑ Cloud chiffré: Tresorit, Securesafe, Synch.com,
Spideroak
❑ Attention aux effets secondaires du cryptage (perte
définitive des fichiers…)
45Mathieu Saby - avril/mai 2016
46. Des risques à évaluer
46Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des différentes
solutions?
49. Organiser sa documentation
49Mathieu Saby - avril/mai 2016
■ Utiliser Zotero ou un autre un gestionnaire de
références, pour sa bibliographie et ses sources
Ex: http://www.boiteaoutils.info/2012/11/gerer-la-
documentation-ii-une-approcha/
50. Organiser ses dossiers
50Mathieu Saby - avril/mai 2016
■ Organisation hiérarchique
■ Isoler et ne pas retoucher les données brutes
■ Pour faciliter
❑ L'exploitation des informations
❑ Les sauvegardes
❑ Le partage
❑ L'archivage après le projet
51. Organiser ses dossiers
51Mathieu Saby - avril/mai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
■ Exemple fictif
52. Organiser ses dossiers
52Mathieu Saby - avril/mai 2016
Plusieurs options:
❑ Type de matériel (données, publications,
documents administratifs, gestion de projet…)
❑ Activité de recherche (état de l’art, enquête,
questionnaire…)
❑ Différents jeux de données
❑ Étapes de traitement des données
❑ Étape du projet
❑ Chronologie
❑ Géographie
53. Nommer et versionner ses fichiers
53Mathieu Saby - avril/mai 2016
■ Garantir la lecture sur différentes machines
❑ Noms relativement brefs
❑ Pas de caractères spéciaux ni accentués
❑ Pas d’espaces ni de ponctuation
❑ Utiliser: azA-Z0-9_-
55. Nommer et versionner ses fichiers
55Mathieu Saby - avril/mai 2016
■ Eléments de construction possibles:
❑ Sujet
❑ Type de données (questionnaire, test…)
❑ Variable mesurée
❑ Date et/ou heure
❑ Numérotation (saisir des 0 initiaux pour les tris)
❑ Etat de traitement des données
❑ Numéro ou nom d’instrument
❑ Versions (v01.2, v03.4… et « FINAL » pour le
document validé pour diffusion)
56. Quelques outils pratiques
56Mathieu Saby - avril/mai 2016
■ Renommer en masse des fichiers: Bulk Rename Utility
(Windows), Advanced Renamer (Windows), Automator (Mac)…
Ex: http://data.blogspot.fr/2016/02/using-bulk-rename-utility-in-digital.html
■ Comparer des fichiers: WinMerge
Ex: http://data.blogspot.fr/2016/02/using-winmerge-to-manage-files-and.html
57. Organiser les données au sein d’un fichier
57Mathieu Saby - avril/mai 2016
Quel sont les problèmes dans ce fichier?
Ex de conseils détaillés : http://data.research.cornell.edu/content/tabular-
data
59. Des questions à anticiper
59Mathieu Saby - avril/mai 2016
■ Objectif(s) ?
❑ Utilisation pendant le projet
❑ Réutilisation et la réplicabilité
❑ Diffusion et l'archivage
■ Public(s) visé(s)?
❑ Chercheurs membres du projet
❑ Chercheurs spécialistes
❑ Autres chercheurs
❑ Etudiants
❑ Autre public
❑ Ordinateur!
60. Différents niveaux de documentation
60Mathieu Saby - avril/mai 2016
■ Garder une trace...
❑ De leur signification
❑ De leur contexte de création
❑ Des traitements et analyses effectuées
■ Quel niveau ?
❑ Ensemble des données du projet
❑ Chaque jeu de données
❑ Variables d'un jeu de données
■ Informations minimales ou explications
détaillées?
61. Pratiques variables selon les disciplines
61Mathieu Saby - avril/mai 2016
Quel type de documentation serait nécessaire
pour réutiliser vos données ?
62. Pratiques variables selon les disciplines
62Mathieu Saby - avril/mai 2016
■ Documents généraux
❑Protocoles, méthodes
❑Documents administratifs
■ Recueil des données
❑Carnets de laboratoire, carnets de terrain
❑Consentement des participants
❑Questionnaire, grille d’entretien
■ Traitement et analyse des données
❑Fichier "readme"
❑Instructions de codage des réponses (codebook)
❑Dictionnaires de données
63. Pratiques variables selon les disciplines
63Mathieu Saby - avril/mai 2016
Ex: documents exigés pour déposer une
enquête qualitative en SHS dans BeQuali
https://cdsp.sciences-po.fr/page.php?&idRubrique=depot&lang=FR
64. Redocumenter les données a posteriori
64Mathieu Saby - avril/mai 2016
■ Parfois nécessaire pour faciliter leur
compréhension
■ Ex: « Enquêtes sur l’enquête » réalisés par
BeQuali
65. Une bonne pratique simple
65Mathieu Saby - avril/mai 2016
■ Fichier texte "readme.txt"
❑ Pour l'ensemble du projet
❑ Pour chaque fichier ou ensemble de fichiers
■ Informations sur
❑ les règles de nommage et d'organisation
❑ le contenu d'un ensemble de fichiers
❑ le contenu d'un fichier (entêtes des colonnes…)
❑ les logiciels ou codes informatiques nécessaires
pour les lire
❑ précautions à prendre pour la réutilisation
❑ la personne à contacter pour plus d'informations
Ex de modèles (très détaillé) à l'université de Cornell
Ex réel : https://zenodo.org/record/49583 ;
66. Préparer la création de métadonnées
66Mathieu Saby - avril/mai 2016
■ Métadonnée : information structurée et
lisible informatiquement, portant sur une
ressource quelconque (numérique ou
physique)
■ En général créées par des archivistes, des
documentalistes, ou des logiciels
■ Souvent à partir d'informations conservées
sous forme moins structurée
❑ Ex: Guide du déposant du réseau Quételet
67. Préparer la création de métadonnées
67Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148
Date de publication
Numéro d’identification
Type de document
Mode d’accès
Déposant
Licence
Catégories
Liens à des
publications
Titre
Auteur
Métadonnées sur chaque fichier:
Nom, date, taille
Description
■ Pour les humains…
68. Préparer la création de métadonnées
68Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148/export/xd
■ Pour les machines…
69. Préparer la création de métadonnées
69Mathieu Saby - avril/mai 2016
■ Un schéma de métadonnées simple mais
très utilisé: Dublin Core (15 éléments)
■ De nombreux schémas spécialisés parfois
utilisés en complément:
❑ Version enrichie du Dublin Core
❑ Data Documentation Initiative (DDI) : surtout en
sciences sociales
❑ Propres à un type de document (images, sons,
vidéos), une discipline, etc.
71. Le statut des données de la recherche
71Mathieu Saby - avril/mai 2016
■ Qui est propriétaire des données?
■ Peut-on les vendre? contrôler leur utilisation?
■ Peut-on réutiliser les données produites par
d'autres? A quelles conditions?
72. Le statut des données de la recherche
72Mathieu Saby - avril/mai 2016
■ Analyse parfois délicate. Pas de règle juridique
unique applicable aux données en général
■ Ex : que peut-on faire de ces données? Quels
principes juridiques invoquent leurs auteurs?
❑ http://www.limc-france.fr/presentation (Conditions d'utilisation)
❑ https://criminocorpus.org/fr/ (DROITS en pied de page)
❑ http://dx.doi.org/10.7910/DVN/28674 (onglet TERMS)
❑ http://clapi.ish-lyon.cnrs.fr/ (Conditions d'utilisation)
73. Le statut des données de la recherche
73Mathieu Saby - avril/mai 2016
■ Questions à poser avant de réutiliser, traiter,
créer, diffuser tout document, donnée ou
information :
❑ protection par la propriété intellectuelle ?
❑ protection particulières pour certaines données?
74. Sécuriser les usages par une licence
■ En fonction du degré de réutilisation souhaité
❑ Licence ad hoc: si données particulièrement
complexes ou demandant une protection spéciale
❑ Licence CC (Creative Commons)
❑ Outil pour choisir une licence CC
❑ Idéalement CC-BY v 4 (simple obligation de créditer l'auteur)
❑ « Renonciation » CC-0. Réutilisation maximale. Idéale
en absence de droit d'auteur clair sur les données
❑ Autres licences : OBDL, Licence Ouverte, etc.
❑ Pour les logiciels : GPLv3, MIT, BSD, CeCILL...
74Mathieu Saby - avril/mai 2016
75. Les principaux cas de figure (très simplifié)
75Mathieu Saby - avril/mai 2016
Pas de protection par la
propriété intellectuelle
Diffusion et réutilisation libre
Protection par la propriété intellectuelle
Diffusion et réutilisation limités (par défaut)
Protection particulière
notamment pour des
données concernant
Idées, faits, données brutes, sauf si
bénéficient d'une protection particulière
Oeuvres entrées dans le domaine public
Informations publiques (issues de documents
produits ou reçus par l'administration), sauf
documents soumis à la PI ou informations
bénéficiant d'une protection particulière
Oeuvres non entrées dans le
domaine public (textes, images,
sons, vidéos, logiciels, etc.)
Bases de données ("recueil
d'oeuvres, de données ou d'autres
éléments indépendants, disposés de
manière systématique ou méthodique,
et individuellement accessibles par
des moyens électroniques ou par tout
autre moyen.")
droit sui generis des bases de
données
+
droit d'auteur sur la base elle-même
+
droit d'auteur sur ses éléments
La vie privée de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les intérêts de l'Etat
Respecter:
le droit moral pour les oeuvres entrées dans le
domaine public
l'équivalent du droit moral pour les
informations publiques
Autorisation requise (et
éventuellement rémunération):
des détenteurs des les droits
d'auteurs et éventuels "droits
voisins"
Autorisation requise (et
éventuellement rémunération):
des détenteurs des les droits d'auteurs
et "droits voisins" sur les oeuvres
incluses de la base
des détenteurs des droits d'auteurs sur
la structure de la base
du "producteur" de la base (s'il fait
jouer son droit), sauf pour une
extraction non substantielle
Procédures spécifiques
Déclaration à la CNIL ou au CIL
Demande d'autorisation à la CNIL
Organismes spécifiques
76. Les principaux cas de figure
76Mathieu Saby - avril/mai 2016
■ Références principales
❑ Code de la propriété intellectuelle
https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00
0006069414
❑ Code des relations entre le public et l'administration (livre III)
https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00
0031366350
❑ Loi 1978-17 Informatique et liberté
https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT0
00000886460
77. Le traitement des données personnelles
■ Données personnelles
❑ Toutes les données permettant d’identifier une
personne physique, directement ou indirectement
■ Protection renforcée pour les données
sensibles ou à risque
■ Définition large du "traitement »
❑ Collecte, enregistrement, organisation, conservation,
modification, utilisation, communication,
interconnexion…
■ Les traitements doivent être déclarées à la
CNIL et doivent parfois être autorisés
explicitement
77Mathieu Saby - avril/mai 2016
78. Le traitement des données personnelles
78Mathieu Saby - avril/mai 2016
■ Principes à respecter pour tout traitement:
❑ Finalité explicite, précise et légitime
❑ Collecte loyale et licite
❑ Données adéquates à la finalité
❑ Limiter la conservation des données
❑ Sécuriser les données
❑ Respecter les droits des personnes: consentement,
accès, rectification, opposition
79. Le traitement des données personnelles
■ Conseil pratique pour limiter les formalités: ne
pas recueillir plus de données personnelles qu’il
n’est nécessaire
❑ Ex : ville et non adresse précise. Tranche d’âge et non
âge précis…
79Mathieu Saby - avril/mai 2016
80. Le traitement des données personnelles
80Mathieu Saby - avril/mai 2016
Pour en savoir plus, interlocuteur local et
intermédiaire entre le chercheur et la CNIL : le
Correspondant Informatique et libertés de
l’université
81. Un droit en évolution
81Mathieu Saby - avril/mai 2016
■ Principe récent (2013) : la recherche a pour
mission « L'organisation de l'accès libre aux
données scientifiques » (Code de la recherche : article L112‐1)
■ Projet de loi République numérique, art. 17
« II. - Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des
dotations de l'État, des collectivités territoriales, des établissements publics, des subventions d'agences de
financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit
spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur,
l'établissement ou l'organisme de recherche, leur réutilisation est libre.
« III. - L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la
recherche rendues publiques dans le cadre de sa publication.
« IV. - Les dispositions du présent article sont d'ordre public et toute clause contraire à celles-ci est réputée
non écrite. »
82. Un droit en évolution
82Mathieu Saby - avril/mai 2016
■ Vers une autorisation de la fouille de texte et de
données (Text and data mining)?
❑ Forte demande des chercheurs
❑ Gouvernement opposé
❑ Assemblée nationale favorable
❑ Sénat favorable, mais de manière plus limité
83. Enjeux éthiques
83Mathieu Saby - avril/mai 2016
■ Quels risques la collecte, le traitement et/ou
la diffusion des données font peser sur
❑ les personnes
❑ les entreprises
❑ le patrimoine
❑ l'environnement?
84. Enjeux éthiques
84Mathieu Saby - avril/mai 2016
■ La diffusion des données nuit-elle aux
relations entre le chercheur et les participants
à ses recherches?
■ La réutilisation des données d'un autre
chercheur est-elle un pillage ou un hommage?
85. Enjeux éthiques
85Mathieu Saby - avril/mai 2016
■ Certaines données ne seront jamais partagées
■ Mais des solutions existent pour contourner les
obstacles:
❑ recueil de consentements
❑ suppression des informations sensibles
❑ anonymisation
❑ limitation du public
❑ accès restreint voire environnement contrôlé
❑ licences restrictives
❑ embargo
86. 7. Partager et diffuser ses données
86Mathieu Saby - avril/mai 2016
87. Des questions à anticiper
■ Quelles données diffuser ?
■ Quand ?
■ Comment ?
■ À qui ?
■ Gratuitement ou pas ?
■ Sous quelles conditions ?
■ En permettant quel usage ?
■ Sous quelle forme ?
■ Avec quelles informations complémentaires ?
87Mathieu Saby - avril/mai 2016
88. Comment et où diffuser ses données
88Mathieu Saby - avril/mai 2016
■ Toutes les données sont dans la publication
■ Partage à la demande
■ Site du laboratoire ou du chercheur
❑ Ex: http://piketty.pse.ens.fr/fr/capital21c
■ Site de l’éditeur (« matériel
d’accompagnement »)
❑ Ex : Revue Sociologie
■ Site du projet
❑ Ex: Navigocorpus
■ Entrepôt de données (préférable)
89. Les entrepôts de données
■ Plus de 1500 sur le registre Re3data
■ Critères de choix essentiels d'un entrepôt
❑ Reconnaissance par une communauté disciplinaire
(cf. listes des groupe Nature et PLOS ONE )
❑ Type et taille des fichiers acceptés
❑ Nature des métadonnées autorisées
❑ Possibilité de versionner les fichiers
❑ Attribution d’identifiants uniques pérennes (DOI,
Handle, ARK...)
❑ Possibilité d’accès restreint ou d’embargo
❑ Fiabilité, garantie de pérennité de l’entrepôt
❑ Certification
❑ Prix
89Mathieu Saby - avril/mai 2016
90. Les entrepôts de données
■ Plusieurs types : spécialisés, disciplinaires,
institutionnels, généralistes
❑ Ex. français: Ortholang (linguistique), MediHAL
(images, sons, vidéos)
❑ Ex. internationaux : Dryad (biologie,
environnement), ICPSR (sciences sociales)
■ Principaux entrepôts généralistes
internationaux:
❑ Figshare (privé, lié à un groupe de presse)
❑ Zenodo (public, lié au CERN)
90Mathieu Saby - avril/mai 2016
91. Les entrepôts de données: exemple d'utilisation
91Mathieu Saby - avril/mai 2016
Fichier son
https://hal.archives-ouvertes.fr/medihal-01242449
Thèse
Etude, analyse et modélisation physique de la
production de la parole avec applications aux
troubles liés à une surdité profonde
https://tel.archives-ouvertes.fr/tel-01269639
92. Les entrepôts de données: exemple d'utilisation
92Mathieu Saby - avril/mai 2016
Fichier de données
https://zenodo.org/record/29239
Thèse
Identification des indices acoustiques utilisés
lors de la compréhension de la parole dégradée
p. 183-5
https://tel.archives-ouvertes.fr/tel-01266326
93. Citer et être citer
93Mathieu Saby - avril/mai 2016
■ Bonnes pratiques
❑ Citer les données comme tout autre document (dans
le corps du texte et en note)
❑ Citer également les publications associées aux données
❑ Donner les informations nécessaires pour permettre la
citation de ses données
■ Une citation doit permettre
❑ L’identification des données → titre, date, version, éditeur,
identifiant pérenne
❑ L’attribution à leurs auteurs → nom des auteurs
❑ Une lecture par des machines → identifiant pérenne
94. Citer et être citer
94Mathieu Saby - avril/mai 2016
■ Réflexion internationale en cours
❑ Consortium DataCite
❑ Joint Declaration of Data Citation Principles
■ Structuration et éléments importants
❑ Le format précis (ordre des éléments, ponctuation) peut
varier selon les exigences des revues et des disciplines.
❑ Ex. : Auteur (Année), Titre, Entrepôt de données,
Version (facultatif), Type de ressource (facultatif).
Identifiant
❑ Un outil utile pour formater les citations (de données et
de publications): http://crosscite.org/citeproc/
95. Décrire ses données dans un "data paper"
95Mathieu Saby - avril/mai 2016
■ Pour faciliter leur réutilisation
■ Publication dans une revue scientifique ordinaire
■ Ou dans un "Data journal" publiant des articles
scientifiques (revus par les pairs) décrivant des
jeux de données
❑ généraliste :
■ Scientific Data
■ Research Ideas and Outcomes
❑ displinaire :
■ Journal of open archeology data
■ Journal of Open Psychology Data
■ Journal of open humanities data
■ Research Data Journal for the Humanities and Social Sciences
96. 8. Stocker et archiver après le projet
96Mathieu Saby - avril/mai 2016
97. Une problématique spécifique
■ Les entrepôts de données ne résolvent pas tous
les problèmes:
❑ Toutes les données ne peuvent pas être diffusées
dans un entrepôt de données
❑ Sauf exception les entrepôts de données ne
garantissent pas un archivage durable des données
❑ On diffuse donc dans un entrepôt une copie des
données, en sauvegardant l’original ailleurs
97Mathieu Saby - avril/mai 2016
98. Des choix à faire
98Mathieu Saby - avril/mai 2016
■ Quelles données conserver?
❑ A minima les données sur lesquelles se fondent les
analyses présentées dans les publications ou la
thèse
❑ Eventuellement d'autres données (non exploitées
complètement dans les publications)
■ Dans quelle version (brutes, traitées,
analysées, anonymisées…) ?
■ Dans quel format?
■ Pour combien de temps?
99. Du stockage à l’archivage pérenne
■ Stockage sécurisé
❑ Intégrité des fichiers garantie à moyen ou long terme
■ Archivage pérenne
❑ Intégrité des fichiers garantie long terme (>30 ans)
❑ Lisibilité des fichiers garantie long terme
■ Migrations de formats
■ Émulations
❑ Utilisabilité des fichiers garantie long terme
■ Documentation poussée sur les données et leur contexte
99Mathieu Saby - avril/mai 2016
100. Du stockage à l’archivage pérenne
■ L’archivage pérenne
❑ Est assuré par des professionnels
❑ Peut être complexe et coûteux à organiser
❑ Ne concerne pas forcément toutes les données
❑ Doit être anticipé
100Mathieu Saby - avril/mai 2016
101. Deux outils d’Humanum: Nakala et Nakalona
■ Outils proposés par Humanum
❑ Nakala (Stockage sécurisé, facilite l’archivage
pérenne, exposition de métadonnées, mais pas
d’interface)
❑ Nakalona (Nakala+interface de consultation)
■ Exemple d’utilisation: Les archives du Centre Franco-
Égyptien d’Étude des Temples de Karnak
■ Bénéficiaires:
❑ projets importants en SHS (collaboratifs)
❑ Pas pour les données d’une thèse ordinaire
101Mathieu Saby - avril/mai 2016
102. L’archivage pérenne
■ Mission du CINES
■ Archive notamment:
❑ Thèses électroniques et articles déposés dans HAL
❑ Données de projets importants en SHS, par
l’intermédiaire d’Humanum: http://www.huma-
num.fr/services-et-outils/archiver
❑ Données de grandes enquêtes qualitatives : BeQuali
http://bequali.fr/
102Mathieu Saby - avril/mai 2016
103. Contacts sur la gestion des données
■ Formations: URFIST de Nice
■ Conseils et accompagnement: Bibliothèque
universitaire (donnees-scd@unice.fr)
■ Données personnelles : Correspondant
informatique et liberté
103Mathieu Saby - avril/mai 2016
104. Crédits
104Mathieu Saby - avril/mai 2016
Icônes par Freepik, disponibles sur www.flaticon.com
Costume de scène du Bourgeois Gentilhomme (domaine Public), disponible sur
https://commons.wikimedia.org/wiki/File:Le-bourgeois-gentilhomme.jpg