SlideShare uma empresa Scribd logo
1 de 104
Baixar para ler offline
Gérer et diffuser ses données:
principes et bonnes pratiques
1
Formation doctorale LASH et DESPEG
2e partie de la formation Open science et données de la
recherche co-organisée par l’URFIST de Nice et le SCD de l’UNS
Mathieu Saby
SCD-BU UNS
donnees-scd@unice.fr
Plan
1. Les données de la recherche et leur gestion
2. Produire ou réutiliser des données
3. Stocker ses données en sécurité
4. Organiser ses données
5. Documenter ses données
6. Enjeux juridiques et éthiques
7. Partager et diffuser ses données
8. Stocker et archiver après le projet
9. Contacts sur la gestion des données
2Mathieu Saby - avril/mai 2016
1. Les données de la recherche et
leur gestion. De quoi parle-t-on?
3Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Définition élastique
❑Au sens strict: éléments discrets, structurés et
analysables statistiquement, porteurs d'informations
sur des faits ou objets du monde réel
❑Au sens large: tous les "matériaux" analysés ou
interprétés lors d'une recherche
4Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Production et utilisation croissante
Mouvement général d'ouverture
❑à des fins de validation et de réutilisation
❑soutenu par des financeurs de la recherche (dont
l'UE), des éditeurs, des universités, des
organismes internationaux...
5Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Différents modes de création
Expérience (en laboratoire, sur le terrain…)
Observation (par questionnaire, enquête, mesure,
captation, recueil de traces...)
Simulation ou modélisation numérique
Extraction à partir de sources
6Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Différentes formes
7Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Différents supports
Nativement numérique
Analogique (livres, cassettes, photos, objets…)
Numérisation de support analogique
8Mathieu Saby - avril/mai 2016
Peut-on parler de "données" en SHS?
Dans vos recherches ou votre discipline, pensez-
vous produire ou réutiliser des données?
9Mathieu Saby - avril/mai 2016
Peut-on parler de "données" en SHS?
■ Dimension empirique variable selon les
disciplines et les approches méthodologiques
■ Vocabulaire riche pour désigner les
matériaux de recherche : sources, corpus,
traces, enquêtes… et parfois seulement
« données »
■ Reproductibilité non revendiquée dans
certaines disciplines
■ Les données « brutes » sont souvent déjà
une « interprétation » du réel
10Mathieu Saby - avril/mai 2016
Peut-on parler de "données" en SHS?
Mais les approches numériques peuvent
renouveler plus ou moins profondément la manière
d'appréhender les matériaux de recherche
Quelques exemples français dans différentes
disciplines:
Cf. Myriam Posner (2015). Humanities data: a necessary contradiction
11Mathieu Saby - avril/mai 2016
Labex Transfers (plusieurs projets)
Médialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne à l'oeuvre
Colostrum
Criminocorpus
Peut-on parler de "données" en SHS?
■ Tournant numérique soutenu par des
infrastructures et des réseaux, en France
❑ Humanum
❑ Progedo
❑ OpenEdition
❑ Persée
❑ Maisons des Sciences de l'Homme
❑ Réseaux disciplinaires
■ Mais aussi en Europe et à l’étranger
12Mathieu Saby - avril/mai 2016
La gestion des données de la recherche
Une expression barbare…
Mais chaque chercheur fait de la
gestion des données comme
Monsieur Jourdain de la prose!
13Mathieu Saby - avril/mai 2016
il y a plus de quarante ans que je dis de la prose sans
que j’en susse rien, et je vous suis le plus obligé du
monde de m’avoir appris cela.
La gestion des données de la recherche
Ensemble de pratiques, parfois quotidiennes
parfois plus exceptionnelles, menées par les
chercheurs et/ou par du personnel spécialisé, pour
faciliter:
❑pendant le projet: l'exploitation et la sécurisation des
données
❑après la fin du projet: leur préservation, leur partage
et leur réutilisation
14Mathieu Saby - avril/mai 2016
Le cycle de vie des données
15Mathieu Saby - avril/mai 2016
Pendant le projet
Après le projet
Préservation
des données
Réutilisation
des donnéesSociété
Autres
projets de
recherche
Création ou
collecte de
données brutes
+
Utilisation de
données
existantes
Traitement,
analyse,
interprétation
des données
Publication
(article, livre,
thèse)
+
Partage des
données
Planification
du projet
+
Planification
de la gestion
des données
Les plans de gestion de données
Besoin d'expliciter et de formaliser la gestion des
données
❑ Exemple: la base de données linguistique CLAPI (et
site de méthodologie associée Corinte)
16Mathieu Saby - avril/mai 2016
Les plans de gestion de données
■ DMP (Data Management Plan)
■ Outil pour planifier la gestion des données et la
rendre plus efficace
■ Pas exigé lors d’un doctorat, mais démarche qui
peut être inspirante
17Mathieu Saby - avril/mai 2016
Les plans de gestion de données
■ Document formel précisant la manière dont
seront produites, traitées, décrites, diffusées et
conservées les données au cours et à l’issue du
projet
❑ Pratique
❑ Synthétique
❑ Prospectif
❑ Évolutif
18Mathieu Saby - avril/mai 2016
Les plans de gestion de données
Une utilité pour le projet lui-même
■ D’autant plus utile que les données sont
❑ Nombreuses, variées, complexes
❑ Uniques
❑ Couteuses ou difficiles à produire
❑ Sensibles
❑ Utiles à d’autres personnes
■ Et que le projet est
❑ Collaboratif
❑ Long
19Mathieu Saby - avril/mai 2016
Les plans de gestion de données
Une utilité administrative:
■ Répondre aux exigences de certains financeurs
❑ Systématique aux USA et Royaume-Uni, mais très
rare en France
❑ Agences de financements publiques et fondations
❑ Universités et organismes de recherche
❑ Union Européenne (projet pilote, pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avril/mai 2016
Les plans de gestion de données
■ Pas de modèle unique, mais des éléments et
rubriques qui se recoupent souvent
■ Pour rédiger un PGD:
❑ Modèle imposé par le financeur
❑ A défaut, adopter un modèle existant en l’adaptant
au besoin
❑ Des outils informatiques : DMPonline; DMPTool
21Mathieu Saby - avril/mai 2016
Les plans de gestion de données
■ Un modèle britannique (Digital curation center, V.4, 2014)
❑ Informations administratives
❑ Collecte des données, organisation
❑ Documentation et métadonnées
❑ Ethique et cadre légal
❑ Stockage, sauvegarde, sécurité
❑ Archivage
❑ Partage des données
❑ Responsabilités et moyens
22Mathieu Saby - avril/mai 2016
Après le projet
Les plans de gestion de données
■ Un modèle français (Paris Diderot et Paris Descartes, 2015)
❑ Informations relatives au projet
❑ Responsabilité des données : répartition des rôles
❑ Ressources nécessaires à la mise en œuvre
❑ Pour chaque jeu de données
■ Description du jeu de données
■ Stockage, accès et sécurité des données
■ Documentation et organisation des données
■ Dissémination du jeux de données (après le projet)
❑ Sélection et archivage
23Mathieu Saby - avril/mai 2016
2. Produire ou réutiliser des données
24Mathieu Saby - avril/mai 2016
Réutiliser des données existantes
■ Le projet peut-il réutiliser des données
existantes ?
■ Intérêt et limites ?
■ Conditions d'accès ?
■ Coût ?
25Mathieu Saby - avril/mai 2016
Produire des données
■ Des données seront-elles produites ?
■ Elément central ou secondaire du projet ?
■ Combien de "jeux de données" ou d'ensembles
distincts ?
■ Quel degré de reproductibilité des données ?
■ Quel intérêt pour la recherche ou des acteurs
de la société ?
26Mathieu Saby - avril/mai 2016
Réutiliser des données existantes
■ Plusieurs sources possibles
❑ Autres projets de recherche
❑ Organismes privés
❑ Données publiques
Accès libre et gratuit : France, étranger, institutions internationales
Accès restreint: Réseau Quételet (statistiques publiques et grandes
enquêtes)
Accès payant: certaines données INSEE ou IGN…
Institutions culturelles (musées, bibliothèques, archives) : situation
variable
27Mathieu Saby - avril/mai 2016
Produire des données
■ Mode de création ou de collecte
■ Type de données
■ Support
28Mathieu Saby - avril/mai 2016
Produire des données
■ Étapes et niveaux d’élaboration des données
au cours du projet ?
■ Ces étapes sont-elles documentées et
reproductibles (matériel, logiciels, méthodes,
algorithmes, code informatique) ?
29Mathieu Saby - avril/mai 2016
Produire des données
■ Exemple de projet (histoire maritime)
Navigocorpus
❑ 1 / archives
30Mathieu Saby - avril/mai 2016
DEDIEU, Jean-Pierre, MARZAGALLI, Silvia. Partage d'expérience. Navigocorpus. Un corpus de sources pour l'histoire de la navigation à
l'époque moderne.Lettre de l'INSHS, 2013, p. 23-25.
Produire des données
■ Exemple de projet : Navigocorpus
❑2/ codage et saisie dans une base de données
accessible en ligne
31Mathieu Saby - avril/mai 2016
Produire des données
■ Exemple de projet : Navigocorpus
❑3/ données analysées et visualisées
32Mathieu Saby - avril/mai 2016
MARZAGALLI, Silvia, “Navigocorpus database and eighteenth-century French world maritime networks”, in César Ducruet (ed.),
Maritime Networks. Spatial structures and time dynamics, New York, Routledge, 2016, p. 92-111.
Produire des données
33Mathieu Saby - avril/mai 2016
■ Formats de fichiers
❑ Qui doit pouvoir les lire? Pour combien de temps
■ Pour un usage à long terme, privilégier des
formats ouverts
❑ Utilisables librement et gratuitement
❑ Bien documentés
❑ Non liés à un logiciel spécifique
FACILE - Service de validation de formats du CINES
Formats conseillés par Data Archive (UK)
Produire des données
Ex. de formats à la pérennité garantie
34Mathieu Saby - avril/mai 2016
("PDF/A"
uniquement)
Sert de cadre base à de très
nombreux formats, avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des données
Ex. de formats courants sans pérennité garantie
35Mathieu Saby - avril/mai 2016
Fichiers propriétaires SPSS,
STATA, SAS, NVIVO, Altas.ti etc.
3. Stocker ses données en sécurité
36Mathieu Saby - avril/mai 2016
Des risques à évaluer
37Mathieu Saby - avril/mai 2016
D'après vous, quels risques pèsent sur les
données pendant un projet?
Des risques à évaluer
38Mathieu Saby - avril/mai 2016
Perte (vol, destruction, défaillance matérielle ou logicielle, virus, mauvaise
organisation, erreur de manipulation)
Déterioration (défaillance ou logicielle, virus, erreur humaine)
Lecture impossible (obsolescence du format ou du matériel)
Compréhension impossible (mauvaise organisation, perte du contexte
ou de la documentation associée)
Accès non autorisé (sécurisation insuffisante, piratage, erreur humaine)
Bonnes pratiques
■ Stockage et sauvegarde sécurisée
■ Organisation adéquate
■ Documentation adéquate
39Mathieu Saby - avril/mai 2016
Des risques à évaluer
40Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des différentes
solutions?
Stockage adapté
■ Usages désirés : partage des données avec
partenaires internes ou externes, stockage,
sauvegarde, ou publication
■ Caractéristiques des données : données
publiques/confidentielles/secrètes? Quel
dommage causerait leur perte ou leur diffusion?
■ Capacités
■ Tarifs
41Mathieu Saby - avril/mai 2016
Stockage adapté
42Mathieu Saby - avril/mai 2016
Supports de stockage Risques Avantages
Réseau sécurisé (université,
laboratoire)
Pannes de serveur, erreur
humaine
sécurité, sauvegarde
automatique
Disque dur d'ordinateur
personnel ou professionnel
Pannes, vol, erreur
humaine
Cloud commercial, dont cloud
proposé par l’université
(OneDrive)
Vol de mot de passe.
Disparition des sociétés.
Cadre juridique parfois
flou.
partage facilité
synchronisation
automatique avec PC
Supports externes (clé USB,
disque externe, CDROM,
DVDROM)
Détérioration des
supports, perte, vol
Sauvegarde méthodique
■ Même en cas de stockage adapté, nécessité de
sauvegardes régulières et fréquentes
■ Utile pour se protéger de ses propres erreurs
■ Idéalement 2 sauvegardes, sur supports
différents, dont une stockée physiquement à
distance (ex: cloud + disque externe)
43Mathieu Saby - avril/mai 2016
Protection
■ Mots de passe fiables. À ne jamais partager
■ Éviter les ordinateurs inconnus
■ Pour les données sensibles non cryptées, éviter
❑ Les supports amovibles
❑ Le cloud
❑ Les transferts par courriel
44Mathieu Saby - avril/mai 2016
Cryptage
■ Crypter les données les plus sensibles
❑ Logiciels de chiffrement: Ex : FileVault (Mac),
Veracrypt (Mac et PC), CryptSync (PC)
❑ Cloud chiffré: Tresorit, Securesafe, Synch.com,
Spideroak
❑ Attention aux effets secondaires du cryptage (perte
définitive des fichiers…)
45Mathieu Saby - avril/mai 2016
Des risques à évaluer
46Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des différentes
solutions?
4. Organiser ses données
47Mathieu Saby - avril/mai 2016
Les principes
48Mathieu Saby - avril/mai 2016
■ Adopter des règles
■ Les expliciter
■ Les appliquer
Organiser sa documentation
49Mathieu Saby - avril/mai 2016
■ Utiliser Zotero ou un autre un gestionnaire de
références, pour sa bibliographie et ses sources
Ex: http://www.boiteaoutils.info/2012/11/gerer-la-
documentation-ii-une-approcha/
Organiser ses dossiers
50Mathieu Saby - avril/mai 2016
■ Organisation hiérarchique
■ Isoler et ne pas retoucher les données brutes
■ Pour faciliter
❑ L'exploitation des informations
❑ Les sauvegardes
❑ Le partage
❑ L'archivage après le projet
Organiser ses dossiers
51Mathieu Saby - avril/mai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
■ Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avril/mai 2016
 Plusieurs options:
❑ Type de matériel (données, publications,
documents administratifs, gestion de projet…)
❑ Activité de recherche (état de l’art, enquête,
questionnaire…)
❑ Différents jeux de données
❑ Étapes de traitement des données
❑ Étape du projet
❑ Chronologie
❑ Géographie
Nommer et versionner ses fichiers
53Mathieu Saby - avril/mai 2016
■ Garantir la lecture sur différentes machines
❑ Noms relativement brefs
❑ Pas de caractères spéciaux ni accentués
❑ Pas d’espaces ni de ponctuation
❑ Utiliser: azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avril/mai 2016
■ Noms uniques, cohérents et informatifs
Exemple: ensembles de fichiers fictifs
❑ 2012-03-07_SujetA_Audio.mp3
❑ 2012-03-07_SujetA_Transcription-brut.docx
❑ 2012-03-07_SujetA_Transcription-relu.docx
❑ 2012-03-07_SujetA_Transcription-anonyme.docx
❑ 2012-04-22_SujetB_Audio.mp3
❑ 2012-04-22_SujetB_Transcription-brut.docx
❑ Grille-entretien.docx
❑ Analyse_v01.docx
❑ Analyse_v02.docx
❑ Readme.txt
Nommer et versionner ses fichiers
55Mathieu Saby - avril/mai 2016
■ Eléments de construction possibles:
❑ Sujet
❑ Type de données (questionnaire, test…)
❑ Variable mesurée
❑ Date et/ou heure
❑ Numérotation (saisir des 0 initiaux pour les tris)
❑ Etat de traitement des données
❑ Numéro ou nom d’instrument
❑ Versions (v01.2, v03.4… et « FINAL » pour le
document validé pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avril/mai 2016
■ Renommer en masse des fichiers: Bulk Rename Utility
(Windows), Advanced Renamer (Windows), Automator (Mac)…
Ex: http://data.blogspot.fr/2016/02/using-bulk-rename-utility-in-digital.html
■ Comparer des fichiers: WinMerge
Ex: http://data.blogspot.fr/2016/02/using-winmerge-to-manage-files-and.html
Organiser les données au sein d’un fichier
57Mathieu Saby - avril/mai 2016
Quel sont les problèmes dans ce fichier?
Ex de conseils détaillés : http://data.research.cornell.edu/content/tabular-
data
5. Documenter ses données
58Mathieu Saby - avril/mai 2016
Des questions à anticiper
59Mathieu Saby - avril/mai 2016
■ Objectif(s) ?
❑ Utilisation pendant le projet
❑ Réutilisation et la réplicabilité
❑ Diffusion et l'archivage
■ Public(s) visé(s)?
❑ Chercheurs membres du projet
❑ Chercheurs spécialistes
❑ Autres chercheurs
❑ Etudiants
❑ Autre public
❑ Ordinateur!
Différents niveaux de documentation
60Mathieu Saby - avril/mai 2016
■ Garder une trace...
❑ De leur signification
❑ De leur contexte de création
❑ Des traitements et analyses effectuées
■ Quel niveau ?
❑ Ensemble des données du projet
❑ Chaque jeu de données
❑ Variables d'un jeu de données
■ Informations minimales ou explications
détaillées?
Pratiques variables selon les disciplines
61Mathieu Saby - avril/mai 2016
Quel type de documentation serait nécessaire
pour réutiliser vos données ?
Pratiques variables selon les disciplines
62Mathieu Saby - avril/mai 2016
■ Documents généraux
❑Protocoles, méthodes
❑Documents administratifs
■ Recueil des données
❑Carnets de laboratoire, carnets de terrain
❑Consentement des participants
❑Questionnaire, grille d’entretien
■ Traitement et analyse des données
❑Fichier "readme"
❑Instructions de codage des réponses (codebook)
❑Dictionnaires de données
Pratiques variables selon les disciplines
63Mathieu Saby - avril/mai 2016
Ex: documents exigés pour déposer une
enquête qualitative en SHS dans BeQuali
https://cdsp.sciences-po.fr/page.php?&idRubrique=depot&lang=FR
Redocumenter les données a posteriori
64Mathieu Saby - avril/mai 2016
■ Parfois nécessaire pour faciliter leur
compréhension
■ Ex: « Enquêtes sur l’enquête » réalisés par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avril/mai 2016
■ Fichier texte "readme.txt"
❑ Pour l'ensemble du projet
❑ Pour chaque fichier ou ensemble de fichiers
■ Informations sur
❑ les règles de nommage et d'organisation
❑ le contenu d'un ensemble de fichiers
❑ le contenu d'un fichier (entêtes des colonnes…)
❑ les logiciels ou codes informatiques nécessaires
pour les lire
❑ précautions à prendre pour la réutilisation
❑ la personne à contacter pour plus d'informations
Ex de modèles (très détaillé) à l'université de Cornell
Ex réel : https://zenodo.org/record/49583 ;
Préparer la création de métadonnées
66Mathieu Saby - avril/mai 2016
■ Métadonnée : information structurée et
lisible informatiquement, portant sur une
ressource quelconque (numérique ou
physique)
■ En général créées par des archivistes, des
documentalistes, ou des logiciels
■ Souvent à partir d'informations conservées
sous forme moins structurée
❑ Ex: Guide du déposant du réseau Quételet
Préparer la création de métadonnées
67Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148
Date de publication
Numéro d’identification
Type de document
Mode d’accès
Déposant
Licence
Catégories
Liens à des
publications
Titre
Auteur
Métadonnées sur chaque fichier:
Nom, date, taille
Description
■ Pour les humains…
Préparer la création de métadonnées
68Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148/export/xd
■ Pour les machines…
Préparer la création de métadonnées
69Mathieu Saby - avril/mai 2016
■ Un schéma de métadonnées simple mais
très utilisé: Dublin Core (15 éléments)
■ De nombreux schémas spécialisés parfois
utilisés en complément:
❑ Version enrichie du Dublin Core
❑ Data Documentation Initiative (DDI) : surtout en
sciences sociales
❑ Propres à un type de document (images, sons,
vidéos), une discipline, etc.
6. Enjeux juridiques et éthiques
70Mathieu Saby - avril/mai 2016
Le statut des données de la recherche
71Mathieu Saby - avril/mai 2016
■ Qui est propriétaire des données?
■ Peut-on les vendre? contrôler leur utilisation?
■ Peut-on réutiliser les données produites par
d'autres? A quelles conditions?
Le statut des données de la recherche
72Mathieu Saby - avril/mai 2016
■ Analyse parfois délicate. Pas de règle juridique
unique applicable aux données en général
■ Ex : que peut-on faire de ces données? Quels
principes juridiques invoquent leurs auteurs?
❑ http://www.limc-france.fr/presentation (Conditions d'utilisation)
❑ https://criminocorpus.org/fr/ (DROITS en pied de page)
❑ http://dx.doi.org/10.7910/DVN/28674 (onglet TERMS)
❑ http://clapi.ish-lyon.cnrs.fr/ (Conditions d'utilisation)
Le statut des données de la recherche
73Mathieu Saby - avril/mai 2016
■ Questions à poser avant de réutiliser, traiter,
créer, diffuser tout document, donnée ou
information :
❑ protection par la propriété intellectuelle ?
❑ protection particulières pour certaines données?
Sécuriser les usages par une licence
■ En fonction du degré de réutilisation souhaité
❑ Licence ad hoc: si données particulièrement
complexes ou demandant une protection spéciale
❑ Licence CC (Creative Commons)
❑ Outil pour choisir une licence CC
❑ Idéalement CC-BY v 4 (simple obligation de créditer l'auteur)
❑ « Renonciation » CC-0. Réutilisation maximale. Idéale
en absence de droit d'auteur clair sur les données
❑ Autres licences : OBDL, Licence Ouverte, etc.
❑ Pour les logiciels : GPLv3, MIT, BSD, CeCILL...
74Mathieu Saby - avril/mai 2016
Les principaux cas de figure (très simplifié)
75Mathieu Saby - avril/mai 2016
Pas de protection par la
propriété intellectuelle
Diffusion et réutilisation libre
Protection par la propriété intellectuelle
Diffusion et réutilisation limités (par défaut)
Protection particulière
notamment pour des
données concernant
Idées, faits, données brutes, sauf si
bénéficient d'une protection particulière
Oeuvres entrées dans le domaine public
Informations publiques (issues de documents
produits ou reçus par l'administration), sauf
documents soumis à la PI ou informations
bénéficiant d'une protection particulière
Oeuvres non entrées dans le
domaine public (textes, images,
sons, vidéos, logiciels, etc.)
Bases de données ("recueil
d'oeuvres, de données ou d'autres
éléments indépendants, disposés de
manière systématique ou méthodique,
et individuellement accessibles par
des moyens électroniques ou par tout
autre moyen.")
droit sui generis des bases de
données
+
droit d'auteur sur la base elle-même
+
droit d'auteur sur ses éléments
La vie privée de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les intérêts de l'Etat
Respecter:
le droit moral pour les oeuvres entrées dans le
domaine public
l'équivalent du droit moral pour les
informations publiques
Autorisation requise (et
éventuellement rémunération):
des détenteurs des les droits
d'auteurs et éventuels "droits
voisins"
Autorisation requise (et
éventuellement rémunération):
des détenteurs des les droits d'auteurs
et "droits voisins" sur les oeuvres
incluses de la base
des détenteurs des droits d'auteurs sur
la structure de la base
du "producteur" de la base (s'il fait
jouer son droit), sauf pour une
extraction non substantielle
Procédures spécifiques
Déclaration à la CNIL ou au CIL
Demande d'autorisation à la CNIL
Organismes spécifiques
Les principaux cas de figure
76Mathieu Saby - avril/mai 2016
■ Références principales
❑ Code de la propriété intellectuelle
https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00
0006069414
❑ Code des relations entre le public et l'administration (livre III)
https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00
0031366350
❑ Loi 1978-17 Informatique et liberté
https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT0
00000886460
Le traitement des données personnelles
■ Données personnelles
❑ Toutes les données permettant d’identifier une
personne physique, directement ou indirectement
■ Protection renforcée pour les données
sensibles ou à risque
■ Définition large du "traitement »
❑ Collecte, enregistrement, organisation, conservation,
modification, utilisation, communication,
interconnexion…
■ Les traitements doivent être déclarées à la
CNIL et doivent parfois être autorisés
explicitement
77Mathieu Saby - avril/mai 2016
Le traitement des données personnelles
78Mathieu Saby - avril/mai 2016
■ Principes à respecter pour tout traitement:
❑ Finalité explicite, précise et légitime
❑ Collecte loyale et licite
❑ Données adéquates à la finalité
❑ Limiter la conservation des données
❑ Sécuriser les données
❑ Respecter les droits des personnes: consentement,
accès, rectification, opposition
Le traitement des données personnelles
■ Conseil pratique pour limiter les formalités: ne
pas recueillir plus de données personnelles qu’il
n’est nécessaire
❑ Ex : ville et non adresse précise. Tranche d’âge et non
âge précis…
79Mathieu Saby - avril/mai 2016
Le traitement des données personnelles
80Mathieu Saby - avril/mai 2016
Pour en savoir plus, interlocuteur local et
intermédiaire entre le chercheur et la CNIL : le
Correspondant Informatique et libertés de
l’université
Un droit en évolution
81Mathieu Saby - avril/mai 2016
■ Principe récent (2013) : la recherche a pour
mission « L'organisation de l'accès libre aux
données scientifiques » (Code de la recherche : article L112‐1)
■ Projet de loi République numérique, art. 17
« II. - Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des
dotations de l'État, des collectivités territoriales, des établissements publics, des subventions d'agences de
financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit
spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur,
l'établissement ou l'organisme de recherche, leur réutilisation est libre.
« III. - L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la
recherche rendues publiques dans le cadre de sa publication.
« IV. - Les dispositions du présent article sont d'ordre public et toute clause contraire à celles-ci est réputée
non écrite. »
Un droit en évolution
82Mathieu Saby - avril/mai 2016
■ Vers une autorisation de la fouille de texte et de
données (Text and data mining)?
❑ Forte demande des chercheurs
❑ Gouvernement opposé
❑ Assemblée nationale favorable
❑ Sénat favorable, mais de manière plus limité
Enjeux éthiques
83Mathieu Saby - avril/mai 2016
■ Quels risques la collecte, le traitement et/ou
la diffusion des données font peser sur
❑ les personnes
❑ les entreprises
❑ le patrimoine
❑ l'environnement?
Enjeux éthiques
84Mathieu Saby - avril/mai 2016
■ La diffusion des données nuit-elle aux
relations entre le chercheur et les participants
à ses recherches?
■ La réutilisation des données d'un autre
chercheur est-elle un pillage ou un hommage?
Enjeux éthiques
85Mathieu Saby - avril/mai 2016
■ Certaines données ne seront jamais partagées
■ Mais des solutions existent pour contourner les
obstacles:
❑ recueil de consentements
❑ suppression des informations sensibles
❑ anonymisation
❑ limitation du public
❑ accès restreint voire environnement contrôlé
❑ licences restrictives
❑ embargo
7. Partager et diffuser ses données
86Mathieu Saby - avril/mai 2016
Des questions à anticiper
■ Quelles données diffuser ?
■ Quand ?
■ Comment ?
■ À qui ?
■ Gratuitement ou pas ?
■ Sous quelles conditions ?
■ En permettant quel usage ?
■ Sous quelle forme ?
■ Avec quelles informations complémentaires ?
87Mathieu Saby - avril/mai 2016
Comment et où diffuser ses données
88Mathieu Saby - avril/mai 2016
■ Toutes les données sont dans la publication
■ Partage à la demande
■ Site du laboratoire ou du chercheur
❑ Ex: http://piketty.pse.ens.fr/fr/capital21c
■ Site de l’éditeur (« matériel
d’accompagnement »)
❑ Ex : Revue Sociologie
■ Site du projet
❑ Ex: Navigocorpus
■ Entrepôt de données (préférable)
Les entrepôts de données
■ Plus de 1500 sur le registre Re3data
■ Critères de choix essentiels d'un entrepôt
❑ Reconnaissance par une communauté disciplinaire
(cf. listes des groupe Nature et PLOS ONE )
❑ Type et taille des fichiers acceptés
❑ Nature des métadonnées autorisées
❑ Possibilité de versionner les fichiers
❑ Attribution d’identifiants uniques pérennes (DOI,
Handle, ARK...)
❑ Possibilité d’accès restreint ou d’embargo
❑ Fiabilité, garantie de pérennité de l’entrepôt
❑ Certification
❑ Prix
89Mathieu Saby - avril/mai 2016
Les entrepôts de données
■ Plusieurs types : spécialisés, disciplinaires,
institutionnels, généralistes
❑ Ex. français: Ortholang (linguistique), MediHAL
(images, sons, vidéos)
❑ Ex. internationaux : Dryad (biologie,
environnement), ICPSR (sciences sociales)
■ Principaux entrepôts généralistes
internationaux:
❑ Figshare (privé, lié à un groupe de presse)
❑ Zenodo (public, lié au CERN)
90Mathieu Saby - avril/mai 2016
Les entrepôts de données: exemple d'utilisation
91Mathieu Saby - avril/mai 2016
Fichier son
https://hal.archives-ouvertes.fr/medihal-01242449
Thèse
Etude, analyse et modélisation physique de la
production de la parole avec applications aux
troubles liés à une surdité profonde
https://tel.archives-ouvertes.fr/tel-01269639
Les entrepôts de données: exemple d'utilisation
92Mathieu Saby - avril/mai 2016
Fichier de données
https://zenodo.org/record/29239
Thèse
Identification des indices acoustiques utilisés
lors de la compréhension de la parole dégradée
p. 183-5
https://tel.archives-ouvertes.fr/tel-01266326
Citer et être citer
93Mathieu Saby - avril/mai 2016
■ Bonnes pratiques
❑ Citer les données comme tout autre document (dans
le corps du texte et en note)
❑ Citer également les publications associées aux données
❑ Donner les informations nécessaires pour permettre la
citation de ses données
■ Une citation doit permettre
❑ L’identification des données → titre, date, version, éditeur,
identifiant pérenne
❑ L’attribution à leurs auteurs → nom des auteurs
❑ Une lecture par des machines → identifiant pérenne
Citer et être citer
94Mathieu Saby - avril/mai 2016
■ Réflexion internationale en cours
❑ Consortium DataCite
❑ Joint Declaration of Data Citation Principles
■ Structuration et éléments importants
❑ Le format précis (ordre des éléments, ponctuation) peut
varier selon les exigences des revues et des disciplines.
❑ Ex. : Auteur (Année), Titre, Entrepôt de données,
Version (facultatif), Type de ressource (facultatif).
Identifiant
❑ Un outil utile pour formater les citations (de données et
de publications): http://crosscite.org/citeproc/
Décrire ses données dans un "data paper"
95Mathieu Saby - avril/mai 2016
■ Pour faciliter leur réutilisation
■ Publication dans une revue scientifique ordinaire
■ Ou dans un "Data journal" publiant des articles
scientifiques (revus par les pairs) décrivant des
jeux de données
❑ généraliste :
■ Scientific Data
■ Research Ideas and Outcomes
❑ displinaire :
■ Journal of open archeology data
■ Journal of Open Psychology Data
■ Journal of open humanities data
■ Research Data Journal for the Humanities and Social Sciences
8. Stocker et archiver après le projet
96Mathieu Saby - avril/mai 2016
Une problématique spécifique
■ Les entrepôts de données ne résolvent pas tous
les problèmes:
❑ Toutes les données ne peuvent pas être diffusées
dans un entrepôt de données
❑ Sauf exception les entrepôts de données ne
garantissent pas un archivage durable des données
❑ On diffuse donc dans un entrepôt une copie des
données, en sauvegardant l’original ailleurs
97Mathieu Saby - avril/mai 2016
Des choix à faire
98Mathieu Saby - avril/mai 2016
■ Quelles données conserver?
❑ A minima les données sur lesquelles se fondent les
analyses présentées dans les publications ou la
thèse
❑ Eventuellement d'autres données (non exploitées
complètement dans les publications)
■ Dans quelle version (brutes, traitées,
analysées, anonymisées…) ?
■ Dans quel format?
■ Pour combien de temps?
Du stockage à l’archivage pérenne
■ Stockage sécurisé
❑ Intégrité des fichiers garantie à moyen ou long terme
■ Archivage pérenne
❑ Intégrité des fichiers garantie long terme (>30 ans)
❑ Lisibilité des fichiers garantie long terme
■ Migrations de formats
■ Émulations
❑ Utilisabilité des fichiers garantie long terme
■ Documentation poussée sur les données et leur contexte
99Mathieu Saby - avril/mai 2016
Du stockage à l’archivage pérenne
■ L’archivage pérenne
❑ Est assuré par des professionnels
❑ Peut être complexe et coûteux à organiser
❑ Ne concerne pas forcément toutes les données
❑ Doit être anticipé
100Mathieu Saby - avril/mai 2016
Deux outils d’Humanum: Nakala et Nakalona
■ Outils proposés par Humanum
❑ Nakala (Stockage sécurisé, facilite l’archivage
pérenne, exposition de métadonnées, mais pas
d’interface)
❑ Nakalona (Nakala+interface de consultation)
■ Exemple d’utilisation: Les archives du Centre Franco-
Égyptien d’Étude des Temples de Karnak
■ Bénéficiaires:
❑ projets importants en SHS (collaboratifs)
❑ Pas pour les données d’une thèse ordinaire
101Mathieu Saby - avril/mai 2016
L’archivage pérenne
■ Mission du CINES
■ Archive notamment:
❑ Thèses électroniques et articles déposés dans HAL
❑ Données de projets importants en SHS, par
l’intermédiaire d’Humanum: http://www.huma-
num.fr/services-et-outils/archiver
❑ Données de grandes enquêtes qualitatives : BeQuali
http://bequali.fr/
102Mathieu Saby - avril/mai 2016
Contacts sur la gestion des données
■ Formations: URFIST de Nice
■ Conseils et accompagnement: Bibliothèque
universitaire (donnees-scd@unice.fr)
■ Données personnelles : Correspondant
informatique et liberté
103Mathieu Saby - avril/mai 2016
Crédits
104Mathieu Saby - avril/mai 2016
Icônes par Freepik, disponibles sur www.flaticon.com
Costume de scène du Bourgeois Gentilhomme (domaine Public), disponible sur
https://commons.wikimedia.org/wiki/File:Le-bourgeois-gentilhomme.jpg

Mais conteúdo relacionado

Mais procurados

gestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiquegestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiqueOussama Yoshiki
 
Exercices uml-corrige
Exercices uml-corrigeExercices uml-corrige
Exercices uml-corrigeAmineMouhout1
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFEDonia Hammami
 
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)Ardesi Midi-Pyrénées
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Rapport gestion de stock.pdf
Rapport gestion de stock.pdfRapport gestion de stock.pdf
Rapport gestion de stock.pdfAchrafAntri2
 
Projet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileProjet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileRim ENNOUR
 
Cahier des Charges Infrastructure Informatique
Cahier des Charges Infrastructure InformatiqueCahier des Charges Infrastructure Informatique
Cahier des Charges Infrastructure InformatiqueDATANYWARE.com
 
Diapo : la veille informationnelle
Diapo : la veille informationnelleDiapo : la veille informationnelle
Diapo : la veille informationnellesarah1721
 
Plan cahier-des-charges
Plan cahier-des-chargesPlan cahier-des-charges
Plan cahier-des-chargeswalouziz
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Jean-Baptiste Dayez
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Riadh K.
 
100527 Gestion électronique des documents
100527 Gestion électronique des documents100527 Gestion électronique des documents
100527 Gestion électronique des documentsCOMPETITIC
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 
Gestion des documents
Gestion des documentsGestion des documents
Gestion des documentsnaziha harrag
 

Mais procurados (20)

gestion de magasin vente matériels informatique
gestion de magasin vente matériels informatiquegestion de magasin vente matériels informatique
gestion de magasin vente matériels informatique
 
Exercices uml-corrige
Exercices uml-corrigeExercices uml-corrige
Exercices uml-corrige
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
Veille et curation
Veille et curationVeille et curation
Veille et curation
 
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
Réussir son analyse des besoins dans la conduite d'un projet informatique (2007)
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Rapport gestion de stock.pdf
Rapport gestion de stock.pdfRapport gestion de stock.pdf
Rapport gestion de stock.pdf
 
Dématérialisation et archivage
Dématérialisation et archivageDématérialisation et archivage
Dématérialisation et archivage
 
Projet Fin D'étude Application Mobile
Projet Fin D'étude Application MobileProjet Fin D'étude Application Mobile
Projet Fin D'étude Application Mobile
 
Outils de veille
Outils de veilleOutils de veille
Outils de veille
 
Gestion documentaire AFNOR
Gestion documentaire AFNORGestion documentaire AFNOR
Gestion documentaire AFNOR
 
Cahier des Charges Infrastructure Informatique
Cahier des Charges Infrastructure InformatiqueCahier des Charges Infrastructure Informatique
Cahier des Charges Infrastructure Informatique
 
Diapo : la veille informationnelle
Diapo : la veille informationnelleDiapo : la veille informationnelle
Diapo : la veille informationnelle
 
Plan cahier-des-charges
Plan cahier-des-chargesPlan cahier-des-charges
Plan cahier-des-charges
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
 
100527 Gestion électronique des documents
100527 Gestion électronique des documents100527 Gestion électronique des documents
100527 Gestion électronique des documents
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
Gestion des documents
Gestion des documentsGestion des documents
Gestion des documents
 

Semelhante a Gérer et diffuser ses données: principes et bonnes pratiques

Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheMathieu Saby
 
Fouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesFouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesÉrudit
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Lesticetlart Invisu
 
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...pascal aventurier
 
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUETROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUEei4idi
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017Bertrand Tavitian
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?ABES
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
 
IST et Documentation du point de vue du MESR : continuité et nouvel élan
IST et Documentation du point de vue du MESR : continuité et nouvel élanIST et Documentation du point de vue du MESR : continuité et nouvel élan
IST et Documentation du point de vue du MESR : continuité et nouvel élanABES
 
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
Didactique de l’Information-Documentation, des modèles, des  concepts et un p...Didactique de l’Information-Documentation, des modèles, des  concepts et un p...
Didactique de l’Information-Documentation, des modèles, des concepts et un p...FADBEN
 
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...ABES
 

Semelhante a Gérer et diffuser ses données: principes et bonnes pratiques (20)

Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la recherche
 
Stage pgd 2021-04-07
Stage pgd 2021-04-07Stage pgd 2021-04-07
Stage pgd 2021-04-07
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
 
Fouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériquesFouille de textes et cartographie thématique des corpus numériques
Fouille de textes et cartographie thématique des corpus numériques
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
Données ouvertes de la recherche : nouvelles pratiques de publication et de p...
 
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUETROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
TROUVER & EXPLOITER L’INFORMATION SCIENTIFIQUE ET TECHNIQUE
 
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
 
Presentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonusPresentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonus
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?
 
Duchesne Medialab Mai09
Duchesne Medialab Mai09Duchesne Medialab Mai09
Duchesne Medialab Mai09
 
Estampages_EfA_dec2016
Estampages_EfA_dec2016Estampages_EfA_dec2016
Estampages_EfA_dec2016
 
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Données de la recherche : quel positionnement et quels rôles pour les bibliot...
Données de la recherche : quel positionnement et quels rôles pour les bibliot...
 
Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213
 
IST et Documentation du point de vue du MESR : continuité et nouvel élan
IST et Documentation du point de vue du MESR : continuité et nouvel élanIST et Documentation du point de vue du MESR : continuité et nouvel élan
IST et Documentation du point de vue du MESR : continuité et nouvel élan
 
121203 04 mistral_doc
121203 04 mistral_doc121203 04 mistral_doc
121203 04 mistral_doc
 
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
Didactique de l’Information-Documentation, des modèles, des  concepts et un p...Didactique de l’Information-Documentation, des modèles, des  concepts et un p...
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
 
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...
Jabes 2019 - Session plénière "Baromètre de la science ouverte et ScanR, mote...
 

Mais de Mathieu Saby

Science ouverte et appels à projets
Science ouverte et appels à projetsScience ouverte et appels à projets
Science ouverte et appels à projetsMathieu Saby
 
Programmer dans Openrefine avec GREL
Programmer dans Openrefine avec GRELProgrammer dans Openrefine avec GREL
Programmer dans Openrefine avec GRELMathieu Saby
 
Usage des expressions régulières dans Openrefine
Usage des expressions régulières dans OpenrefineUsage des expressions régulières dans Openrefine
Usage des expressions régulières dans OpenrefineMathieu Saby
 
Analyse de données JSON dans Openrefine
Analyse de données JSON dans OpenrefineAnalyse de données JSON dans Openrefine
Analyse de données JSON dans OpenrefineMathieu Saby
 
Aide mémoire Openrefine 3.3 béta
Aide mémoire Openrefine 3.3 béta Aide mémoire Openrefine 3.3 béta
Aide mémoire Openrefine 3.3 béta Mathieu Saby
 
Nettoyer et transformer ses données avec Openrefine : partie 2
Nettoyer et transformer ses données avec Openrefine : partie 2Nettoyer et transformer ses données avec Openrefine : partie 2
Nettoyer et transformer ses données avec Openrefine : partie 2Mathieu Saby
 
Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Mathieu Saby
 
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...Mathieu Saby
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineMathieu Saby
 

Mais de Mathieu Saby (9)

Science ouverte et appels à projets
Science ouverte et appels à projetsScience ouverte et appels à projets
Science ouverte et appels à projets
 
Programmer dans Openrefine avec GREL
Programmer dans Openrefine avec GRELProgrammer dans Openrefine avec GREL
Programmer dans Openrefine avec GREL
 
Usage des expressions régulières dans Openrefine
Usage des expressions régulières dans OpenrefineUsage des expressions régulières dans Openrefine
Usage des expressions régulières dans Openrefine
 
Analyse de données JSON dans Openrefine
Analyse de données JSON dans OpenrefineAnalyse de données JSON dans Openrefine
Analyse de données JSON dans Openrefine
 
Aide mémoire Openrefine 3.3 béta
Aide mémoire Openrefine 3.3 béta Aide mémoire Openrefine 3.3 béta
Aide mémoire Openrefine 3.3 béta
 
Nettoyer et transformer ses données avec Openrefine : partie 2
Nettoyer et transformer ses données avec Openrefine : partie 2Nettoyer et transformer ses données avec Openrefine : partie 2
Nettoyer et transformer ses données avec Openrefine : partie 2
 
Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1Nettoyer et transformer ses données avec Openrefine : partie 1
Nettoyer et transformer ses données avec Openrefine : partie 1
 
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefine
 

Último

Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationpapediallo3
 
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...NaimDoumissi
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneTxaruka
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxJCAC
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfbdp12
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfSylvianeBachy
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film françaisTxaruka
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursStagiaireLearningmat
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film françaisTxaruka
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Gabriel Gay-Para
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 37
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxMartin M Flynn
 

Último (18)

Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'information
 
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
Potentiel du Maroc en Produits du Terroir et Stratégie Adoptée pour le dévelo...
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024Bulletin des bibliotheques Burkina Faso mars 2024
Bulletin des bibliotheques Burkina Faso mars 2024
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Chana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienneChana Orloff.pptx Sculptrice franco-ukranienne
Chana Orloff.pptx Sculptrice franco-ukranienne
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptxPrésentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
Présentation - Initiatives - CECOSDA - OIF - Fact Checking.pptx
 
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdfLa Base unique départementale - Quel bilan, au bout de 5 ans .pdf
La Base unique départementale - Quel bilan, au bout de 5 ans .pdf
 
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdfVulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
Vulnérabilité numérique d’usage : un enjeu pour l’aide à la réussitepdf
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx   Film     françaisPas de vagues.  pptx   Film     français
Pas de vagues. pptx Film français
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Apprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceursApprendre avec des top et nano influenceurs
Apprendre avec des top et nano influenceurs
 
Pas de vagues. pptx Film français
Pas de vagues.  pptx      Film   françaisPas de vagues.  pptx      Film   français
Pas de vagues. pptx Film français
 
Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)Faut-il avoir peur de la technique ? (G. Gay-Para)
Faut-il avoir peur de la technique ? (G. Gay-Para)
 
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
Bibdoc 2024 - L’Éducation aux Médias et à l’Information face à l’intelligence...
 
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptxDIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
DIGNITAS INFINITA - DIGNITÉ HUMAINE; déclaration du dicastère .pptx
 

Gérer et diffuser ses données: principes et bonnes pratiques

  • 1. Gérer et diffuser ses données: principes et bonnes pratiques 1 Formation doctorale LASH et DESPEG 2e partie de la formation Open science et données de la recherche co-organisée par l’URFIST de Nice et le SCD de l’UNS Mathieu Saby SCD-BU UNS donnees-scd@unice.fr
  • 2. Plan 1. Les données de la recherche et leur gestion 2. Produire ou réutiliser des données 3. Stocker ses données en sécurité 4. Organiser ses données 5. Documenter ses données 6. Enjeux juridiques et éthiques 7. Partager et diffuser ses données 8. Stocker et archiver après le projet 9. Contacts sur la gestion des données 2Mathieu Saby - avril/mai 2016
  • 3. 1. Les données de la recherche et leur gestion. De quoi parle-t-on? 3Mathieu Saby - avril/mai 2016
  • 4. Les données de la recherche en bref Définition élastique ❑Au sens strict: éléments discrets, structurés et analysables statistiquement, porteurs d'informations sur des faits ou objets du monde réel ❑Au sens large: tous les "matériaux" analysés ou interprétés lors d'une recherche 4Mathieu Saby - avril/mai 2016
  • 5. Les données de la recherche en bref Production et utilisation croissante Mouvement général d'ouverture ❑à des fins de validation et de réutilisation ❑soutenu par des financeurs de la recherche (dont l'UE), des éditeurs, des universités, des organismes internationaux... 5Mathieu Saby - avril/mai 2016
  • 6. Les données de la recherche en bref Différents modes de création Expérience (en laboratoire, sur le terrain…) Observation (par questionnaire, enquête, mesure, captation, recueil de traces...) Simulation ou modélisation numérique Extraction à partir de sources 6Mathieu Saby - avril/mai 2016
  • 7. Les données de la recherche en bref Différentes formes 7Mathieu Saby - avril/mai 2016
  • 8. Les données de la recherche en bref Différents supports Nativement numérique Analogique (livres, cassettes, photos, objets…) Numérisation de support analogique 8Mathieu Saby - avril/mai 2016
  • 9. Peut-on parler de "données" en SHS? Dans vos recherches ou votre discipline, pensez- vous produire ou réutiliser des données? 9Mathieu Saby - avril/mai 2016
  • 10. Peut-on parler de "données" en SHS? ■ Dimension empirique variable selon les disciplines et les approches méthodologiques ■ Vocabulaire riche pour désigner les matériaux de recherche : sources, corpus, traces, enquêtes… et parfois seulement « données » ■ Reproductibilité non revendiquée dans certaines disciplines ■ Les données « brutes » sont souvent déjà une « interprétation » du réel 10Mathieu Saby - avril/mai 2016
  • 11. Peut-on parler de "données" en SHS? Mais les approches numériques peuvent renouveler plus ou moins profondément la manière d'appréhender les matériaux de recherche Quelques exemples français dans différentes disciplines: Cf. Myriam Posner (2015). Humanities data: a necessary contradiction 11Mathieu Saby - avril/mai 2016 Labex Transfers (plusieurs projets) Médialab (idem) Labex Obvil (idem) Symogih (idem) Labex Arts-H2H (idem) Biblissima (idem) Montaigne à l'oeuvre Colostrum Criminocorpus
  • 12. Peut-on parler de "données" en SHS? ■ Tournant numérique soutenu par des infrastructures et des réseaux, en France ❑ Humanum ❑ Progedo ❑ OpenEdition ❑ Persée ❑ Maisons des Sciences de l'Homme ❑ Réseaux disciplinaires ■ Mais aussi en Europe et à l’étranger 12Mathieu Saby - avril/mai 2016
  • 13. La gestion des données de la recherche Une expression barbare… Mais chaque chercheur fait de la gestion des données comme Monsieur Jourdain de la prose! 13Mathieu Saby - avril/mai 2016 il y a plus de quarante ans que je dis de la prose sans que j’en susse rien, et je vous suis le plus obligé du monde de m’avoir appris cela.
  • 14. La gestion des données de la recherche Ensemble de pratiques, parfois quotidiennes parfois plus exceptionnelles, menées par les chercheurs et/ou par du personnel spécialisé, pour faciliter: ❑pendant le projet: l'exploitation et la sécurisation des données ❑après la fin du projet: leur préservation, leur partage et leur réutilisation 14Mathieu Saby - avril/mai 2016
  • 15. Le cycle de vie des données 15Mathieu Saby - avril/mai 2016 Pendant le projet Après le projet Préservation des données Réutilisation des donnéesSociété Autres projets de recherche Création ou collecte de données brutes + Utilisation de données existantes Traitement, analyse, interprétation des données Publication (article, livre, thèse) + Partage des données Planification du projet + Planification de la gestion des données
  • 16. Les plans de gestion de données Besoin d'expliciter et de formaliser la gestion des données ❑ Exemple: la base de données linguistique CLAPI (et site de méthodologie associée Corinte) 16Mathieu Saby - avril/mai 2016
  • 17. Les plans de gestion de données ■ DMP (Data Management Plan) ■ Outil pour planifier la gestion des données et la rendre plus efficace ■ Pas exigé lors d’un doctorat, mais démarche qui peut être inspirante 17Mathieu Saby - avril/mai 2016
  • 18. Les plans de gestion de données ■ Document formel précisant la manière dont seront produites, traitées, décrites, diffusées et conservées les données au cours et à l’issue du projet ❑ Pratique ❑ Synthétique ❑ Prospectif ❑ Évolutif 18Mathieu Saby - avril/mai 2016
  • 19. Les plans de gestion de données Une utilité pour le projet lui-même ■ D’autant plus utile que les données sont ❑ Nombreuses, variées, complexes ❑ Uniques ❑ Couteuses ou difficiles à produire ❑ Sensibles ❑ Utiles à d’autres personnes ■ Et que le projet est ❑ Collaboratif ❑ Long 19Mathieu Saby - avril/mai 2016
  • 20. Les plans de gestion de données Une utilité administrative: ■ Répondre aux exigences de certains financeurs ❑ Systématique aux USA et Royaume-Uni, mais très rare en France ❑ Agences de financements publiques et fondations ❑ Universités et organismes de recherche ❑ Union Européenne (projet pilote, pour certains projets du programme Horizon 2020) 20Mathieu Saby - avril/mai 2016
  • 21. Les plans de gestion de données ■ Pas de modèle unique, mais des éléments et rubriques qui se recoupent souvent ■ Pour rédiger un PGD: ❑ Modèle imposé par le financeur ❑ A défaut, adopter un modèle existant en l’adaptant au besoin ❑ Des outils informatiques : DMPonline; DMPTool 21Mathieu Saby - avril/mai 2016
  • 22. Les plans de gestion de données ■ Un modèle britannique (Digital curation center, V.4, 2014) ❑ Informations administratives ❑ Collecte des données, organisation ❑ Documentation et métadonnées ❑ Ethique et cadre légal ❑ Stockage, sauvegarde, sécurité ❑ Archivage ❑ Partage des données ❑ Responsabilités et moyens 22Mathieu Saby - avril/mai 2016 Après le projet
  • 23. Les plans de gestion de données ■ Un modèle français (Paris Diderot et Paris Descartes, 2015) ❑ Informations relatives au projet ❑ Responsabilité des données : répartition des rôles ❑ Ressources nécessaires à la mise en œuvre ❑ Pour chaque jeu de données ■ Description du jeu de données ■ Stockage, accès et sécurité des données ■ Documentation et organisation des données ■ Dissémination du jeux de données (après le projet) ❑ Sélection et archivage 23Mathieu Saby - avril/mai 2016
  • 24. 2. Produire ou réutiliser des données 24Mathieu Saby - avril/mai 2016
  • 25. Réutiliser des données existantes ■ Le projet peut-il réutiliser des données existantes ? ■ Intérêt et limites ? ■ Conditions d'accès ? ■ Coût ? 25Mathieu Saby - avril/mai 2016
  • 26. Produire des données ■ Des données seront-elles produites ? ■ Elément central ou secondaire du projet ? ■ Combien de "jeux de données" ou d'ensembles distincts ? ■ Quel degré de reproductibilité des données ? ■ Quel intérêt pour la recherche ou des acteurs de la société ? 26Mathieu Saby - avril/mai 2016
  • 27. Réutiliser des données existantes ■ Plusieurs sources possibles ❑ Autres projets de recherche ❑ Organismes privés ❑ Données publiques Accès libre et gratuit : France, étranger, institutions internationales Accès restreint: Réseau Quételet (statistiques publiques et grandes enquêtes) Accès payant: certaines données INSEE ou IGN… Institutions culturelles (musées, bibliothèques, archives) : situation variable 27Mathieu Saby - avril/mai 2016
  • 28. Produire des données ■ Mode de création ou de collecte ■ Type de données ■ Support 28Mathieu Saby - avril/mai 2016
  • 29. Produire des données ■ Étapes et niveaux d’élaboration des données au cours du projet ? ■ Ces étapes sont-elles documentées et reproductibles (matériel, logiciels, méthodes, algorithmes, code informatique) ? 29Mathieu Saby - avril/mai 2016
  • 30. Produire des données ■ Exemple de projet (histoire maritime) Navigocorpus ❑ 1 / archives 30Mathieu Saby - avril/mai 2016 DEDIEU, Jean-Pierre, MARZAGALLI, Silvia. Partage d'expérience. Navigocorpus. Un corpus de sources pour l'histoire de la navigation à l'époque moderne.Lettre de l'INSHS, 2013, p. 23-25.
  • 31. Produire des données ■ Exemple de projet : Navigocorpus ❑2/ codage et saisie dans une base de données accessible en ligne 31Mathieu Saby - avril/mai 2016
  • 32. Produire des données ■ Exemple de projet : Navigocorpus ❑3/ données analysées et visualisées 32Mathieu Saby - avril/mai 2016 MARZAGALLI, Silvia, “Navigocorpus database and eighteenth-century French world maritime networks”, in César Ducruet (ed.), Maritime Networks. Spatial structures and time dynamics, New York, Routledge, 2016, p. 92-111.
  • 33. Produire des données 33Mathieu Saby - avril/mai 2016 ■ Formats de fichiers ❑ Qui doit pouvoir les lire? Pour combien de temps ■ Pour un usage à long terme, privilégier des formats ouverts ❑ Utilisables librement et gratuitement ❑ Bien documentés ❑ Non liés à un logiciel spécifique FACILE - Service de validation de formats du CINES Formats conseillés par Data Archive (UK)
  • 34. Produire des données Ex. de formats à la pérennité garantie 34Mathieu Saby - avril/mai 2016 ("PDF/A" uniquement) Sert de cadre base à de très nombreux formats, avec des extensions diverses POR (Fichier SPSS portable)
  • 35. Produire des données Ex. de formats courants sans pérennité garantie 35Mathieu Saby - avril/mai 2016 Fichiers propriétaires SPSS, STATA, SAS, NVIVO, Altas.ti etc.
  • 36. 3. Stocker ses données en sécurité 36Mathieu Saby - avril/mai 2016
  • 37. Des risques à évaluer 37Mathieu Saby - avril/mai 2016 D'après vous, quels risques pèsent sur les données pendant un projet?
  • 38. Des risques à évaluer 38Mathieu Saby - avril/mai 2016 Perte (vol, destruction, défaillance matérielle ou logicielle, virus, mauvaise organisation, erreur de manipulation) Déterioration (défaillance ou logicielle, virus, erreur humaine) Lecture impossible (obsolescence du format ou du matériel) Compréhension impossible (mauvaise organisation, perte du contexte ou de la documentation associée) Accès non autorisé (sécurisation insuffisante, piratage, erreur humaine)
  • 39. Bonnes pratiques ■ Stockage et sauvegarde sécurisée ■ Organisation adéquate ■ Documentation adéquate 39Mathieu Saby - avril/mai 2016
  • 40. Des risques à évaluer 40Mathieu Saby - avril/mai 2016 Où stockez-vous vos données? Quels avantages et inconvénients des différentes solutions?
  • 41. Stockage adapté ■ Usages désirés : partage des données avec partenaires internes ou externes, stockage, sauvegarde, ou publication ■ Caractéristiques des données : données publiques/confidentielles/secrètes? Quel dommage causerait leur perte ou leur diffusion? ■ Capacités ■ Tarifs 41Mathieu Saby - avril/mai 2016
  • 42. Stockage adapté 42Mathieu Saby - avril/mai 2016 Supports de stockage Risques Avantages Réseau sécurisé (université, laboratoire) Pannes de serveur, erreur humaine sécurité, sauvegarde automatique Disque dur d'ordinateur personnel ou professionnel Pannes, vol, erreur humaine Cloud commercial, dont cloud proposé par l’université (OneDrive) Vol de mot de passe. Disparition des sociétés. Cadre juridique parfois flou. partage facilité synchronisation automatique avec PC Supports externes (clé USB, disque externe, CDROM, DVDROM) Détérioration des supports, perte, vol
  • 43. Sauvegarde méthodique ■ Même en cas de stockage adapté, nécessité de sauvegardes régulières et fréquentes ■ Utile pour se protéger de ses propres erreurs ■ Idéalement 2 sauvegardes, sur supports différents, dont une stockée physiquement à distance (ex: cloud + disque externe) 43Mathieu Saby - avril/mai 2016
  • 44. Protection ■ Mots de passe fiables. À ne jamais partager ■ Éviter les ordinateurs inconnus ■ Pour les données sensibles non cryptées, éviter ❑ Les supports amovibles ❑ Le cloud ❑ Les transferts par courriel 44Mathieu Saby - avril/mai 2016
  • 45. Cryptage ■ Crypter les données les plus sensibles ❑ Logiciels de chiffrement: Ex : FileVault (Mac), Veracrypt (Mac et PC), CryptSync (PC) ❑ Cloud chiffré: Tresorit, Securesafe, Synch.com, Spideroak ❑ Attention aux effets secondaires du cryptage (perte définitive des fichiers…) 45Mathieu Saby - avril/mai 2016
  • 46. Des risques à évaluer 46Mathieu Saby - avril/mai 2016 Où stockez-vous vos données? Quels avantages et inconvénients des différentes solutions?
  • 47. 4. Organiser ses données 47Mathieu Saby - avril/mai 2016
  • 48. Les principes 48Mathieu Saby - avril/mai 2016 ■ Adopter des règles ■ Les expliciter ■ Les appliquer
  • 49. Organiser sa documentation 49Mathieu Saby - avril/mai 2016 ■ Utiliser Zotero ou un autre un gestionnaire de références, pour sa bibliographie et ses sources Ex: http://www.boiteaoutils.info/2012/11/gerer-la- documentation-ii-une-approcha/
  • 50. Organiser ses dossiers 50Mathieu Saby - avril/mai 2016 ■ Organisation hiérarchique ■ Isoler et ne pas retoucher les données brutes ■ Pour faciliter ❑ L'exploitation des informations ❑ Les sauvegardes ❑ Le partage ❑ L'archivage après le projet
  • 51. Organiser ses dossiers 51Mathieu Saby - avril/mai 2016 Projet01 Administratif Planification Subventions Reunions Budget Rapports Ethique_Droit CNIL Consentements Methodes Etat_de_l_art Donnees Enquetes Experiences DonneesBrutes Analyse Resultats Publications Communications Articles 2015-Art01 2016-Art02 These Ch1 Ch2 ■ Exemple fictif
  • 52. Organiser ses dossiers 52Mathieu Saby - avril/mai 2016  Plusieurs options: ❑ Type de matériel (données, publications, documents administratifs, gestion de projet…) ❑ Activité de recherche (état de l’art, enquête, questionnaire…) ❑ Différents jeux de données ❑ Étapes de traitement des données ❑ Étape du projet ❑ Chronologie ❑ Géographie
  • 53. Nommer et versionner ses fichiers 53Mathieu Saby - avril/mai 2016 ■ Garantir la lecture sur différentes machines ❑ Noms relativement brefs ❑ Pas de caractères spéciaux ni accentués ❑ Pas d’espaces ni de ponctuation ❑ Utiliser: azA-Z0-9_-
  • 54. Nommer et versionner ses fichiers 54Mathieu Saby - avril/mai 2016 ■ Noms uniques, cohérents et informatifs Exemple: ensembles de fichiers fictifs ❑ 2012-03-07_SujetA_Audio.mp3 ❑ 2012-03-07_SujetA_Transcription-brut.docx ❑ 2012-03-07_SujetA_Transcription-relu.docx ❑ 2012-03-07_SujetA_Transcription-anonyme.docx ❑ 2012-04-22_SujetB_Audio.mp3 ❑ 2012-04-22_SujetB_Transcription-brut.docx ❑ Grille-entretien.docx ❑ Analyse_v01.docx ❑ Analyse_v02.docx ❑ Readme.txt
  • 55. Nommer et versionner ses fichiers 55Mathieu Saby - avril/mai 2016 ■ Eléments de construction possibles: ❑ Sujet ❑ Type de données (questionnaire, test…) ❑ Variable mesurée ❑ Date et/ou heure ❑ Numérotation (saisir des 0 initiaux pour les tris) ❑ Etat de traitement des données ❑ Numéro ou nom d’instrument ❑ Versions (v01.2, v03.4… et « FINAL » pour le document validé pour diffusion)
  • 56. Quelques outils pratiques 56Mathieu Saby - avril/mai 2016 ■ Renommer en masse des fichiers: Bulk Rename Utility (Windows), Advanced Renamer (Windows), Automator (Mac)… Ex: http://data.blogspot.fr/2016/02/using-bulk-rename-utility-in-digital.html ■ Comparer des fichiers: WinMerge Ex: http://data.blogspot.fr/2016/02/using-winmerge-to-manage-files-and.html
  • 57. Organiser les données au sein d’un fichier 57Mathieu Saby - avril/mai 2016 Quel sont les problèmes dans ce fichier? Ex de conseils détaillés : http://data.research.cornell.edu/content/tabular- data
  • 58. 5. Documenter ses données 58Mathieu Saby - avril/mai 2016
  • 59. Des questions à anticiper 59Mathieu Saby - avril/mai 2016 ■ Objectif(s) ? ❑ Utilisation pendant le projet ❑ Réutilisation et la réplicabilité ❑ Diffusion et l'archivage ■ Public(s) visé(s)? ❑ Chercheurs membres du projet ❑ Chercheurs spécialistes ❑ Autres chercheurs ❑ Etudiants ❑ Autre public ❑ Ordinateur!
  • 60. Différents niveaux de documentation 60Mathieu Saby - avril/mai 2016 ■ Garder une trace... ❑ De leur signification ❑ De leur contexte de création ❑ Des traitements et analyses effectuées ■ Quel niveau ? ❑ Ensemble des données du projet ❑ Chaque jeu de données ❑ Variables d'un jeu de données ■ Informations minimales ou explications détaillées?
  • 61. Pratiques variables selon les disciplines 61Mathieu Saby - avril/mai 2016 Quel type de documentation serait nécessaire pour réutiliser vos données ?
  • 62. Pratiques variables selon les disciplines 62Mathieu Saby - avril/mai 2016 ■ Documents généraux ❑Protocoles, méthodes ❑Documents administratifs ■ Recueil des données ❑Carnets de laboratoire, carnets de terrain ❑Consentement des participants ❑Questionnaire, grille d’entretien ■ Traitement et analyse des données ❑Fichier "readme" ❑Instructions de codage des réponses (codebook) ❑Dictionnaires de données
  • 63. Pratiques variables selon les disciplines 63Mathieu Saby - avril/mai 2016 Ex: documents exigés pour déposer une enquête qualitative en SHS dans BeQuali https://cdsp.sciences-po.fr/page.php?&idRubrique=depot&lang=FR
  • 64. Redocumenter les données a posteriori 64Mathieu Saby - avril/mai 2016 ■ Parfois nécessaire pour faciliter leur compréhension ■ Ex: « Enquêtes sur l’enquête » réalisés par BeQuali
  • 65. Une bonne pratique simple 65Mathieu Saby - avril/mai 2016 ■ Fichier texte "readme.txt" ❑ Pour l'ensemble du projet ❑ Pour chaque fichier ou ensemble de fichiers ■ Informations sur ❑ les règles de nommage et d'organisation ❑ le contenu d'un ensemble de fichiers ❑ le contenu d'un fichier (entêtes des colonnes…) ❑ les logiciels ou codes informatiques nécessaires pour les lire ❑ précautions à prendre pour la réutilisation ❑ la personne à contacter pour plus d'informations Ex de modèles (très détaillé) à l'université de Cornell Ex réel : https://zenodo.org/record/49583 ;
  • 66. Préparer la création de métadonnées 66Mathieu Saby - avril/mai 2016 ■ Métadonnée : information structurée et lisible informatiquement, portant sur une ressource quelconque (numérique ou physique) ■ En général créées par des archivistes, des documentalistes, ou des logiciels ■ Souvent à partir d'informations conservées sous forme moins structurée ❑ Ex: Guide du déposant du réseau Quételet
  • 67. Préparer la création de métadonnées 67Mathieu Saby - avril/mai 2016 https://zenodo.org/record/48148 Date de publication Numéro d’identification Type de document Mode d’accès Déposant Licence Catégories Liens à des publications Titre Auteur Métadonnées sur chaque fichier: Nom, date, taille Description ■ Pour les humains…
  • 68. Préparer la création de métadonnées 68Mathieu Saby - avril/mai 2016 https://zenodo.org/record/48148/export/xd ■ Pour les machines…
  • 69. Préparer la création de métadonnées 69Mathieu Saby - avril/mai 2016 ■ Un schéma de métadonnées simple mais très utilisé: Dublin Core (15 éléments) ■ De nombreux schémas spécialisés parfois utilisés en complément: ❑ Version enrichie du Dublin Core ❑ Data Documentation Initiative (DDI) : surtout en sciences sociales ❑ Propres à un type de document (images, sons, vidéos), une discipline, etc.
  • 70. 6. Enjeux juridiques et éthiques 70Mathieu Saby - avril/mai 2016
  • 71. Le statut des données de la recherche 71Mathieu Saby - avril/mai 2016 ■ Qui est propriétaire des données? ■ Peut-on les vendre? contrôler leur utilisation? ■ Peut-on réutiliser les données produites par d'autres? A quelles conditions?
  • 72. Le statut des données de la recherche 72Mathieu Saby - avril/mai 2016 ■ Analyse parfois délicate. Pas de règle juridique unique applicable aux données en général ■ Ex : que peut-on faire de ces données? Quels principes juridiques invoquent leurs auteurs? ❑ http://www.limc-france.fr/presentation (Conditions d'utilisation) ❑ https://criminocorpus.org/fr/ (DROITS en pied de page) ❑ http://dx.doi.org/10.7910/DVN/28674 (onglet TERMS) ❑ http://clapi.ish-lyon.cnrs.fr/ (Conditions d'utilisation)
  • 73. Le statut des données de la recherche 73Mathieu Saby - avril/mai 2016 ■ Questions à poser avant de réutiliser, traiter, créer, diffuser tout document, donnée ou information : ❑ protection par la propriété intellectuelle ? ❑ protection particulières pour certaines données?
  • 74. Sécuriser les usages par une licence ■ En fonction du degré de réutilisation souhaité ❑ Licence ad hoc: si données particulièrement complexes ou demandant une protection spéciale ❑ Licence CC (Creative Commons) ❑ Outil pour choisir une licence CC ❑ Idéalement CC-BY v 4 (simple obligation de créditer l'auteur) ❑ « Renonciation » CC-0. Réutilisation maximale. Idéale en absence de droit d'auteur clair sur les données ❑ Autres licences : OBDL, Licence Ouverte, etc. ❑ Pour les logiciels : GPLv3, MIT, BSD, CeCILL... 74Mathieu Saby - avril/mai 2016
  • 75. Les principaux cas de figure (très simplifié) 75Mathieu Saby - avril/mai 2016 Pas de protection par la propriété intellectuelle Diffusion et réutilisation libre Protection par la propriété intellectuelle Diffusion et réutilisation limités (par défaut) Protection particulière notamment pour des données concernant Idées, faits, données brutes, sauf si bénéficient d'une protection particulière Oeuvres entrées dans le domaine public Informations publiques (issues de documents produits ou reçus par l'administration), sauf documents soumis à la PI ou informations bénéficiant d'une protection particulière Oeuvres non entrées dans le domaine public (textes, images, sons, vidéos, logiciels, etc.) Bases de données ("recueil d'oeuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen.") droit sui generis des bases de données + droit d'auteur sur la base elle-même + droit d'auteur sur ses éléments La vie privée de personnes physiques Le secret statistique Les secrets commerciaux ou industriels Les intérêts de l'Etat Respecter: le droit moral pour les oeuvres entrées dans le domaine public l'équivalent du droit moral pour les informations publiques Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et éventuels "droits voisins" Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et "droits voisins" sur les oeuvres incluses de la base des détenteurs des droits d'auteurs sur la structure de la base du "producteur" de la base (s'il fait jouer son droit), sauf pour une extraction non substantielle Procédures spécifiques Déclaration à la CNIL ou au CIL Demande d'autorisation à la CNIL Organismes spécifiques
  • 76. Les principaux cas de figure 76Mathieu Saby - avril/mai 2016 ■ Références principales ❑ Code de la propriété intellectuelle https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00 0006069414 ❑ Code des relations entre le public et l'administration (livre III) https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00 0031366350 ❑ Loi 1978-17 Informatique et liberté https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT0 00000886460
  • 77. Le traitement des données personnelles ■ Données personnelles ❑ Toutes les données permettant d’identifier une personne physique, directement ou indirectement ■ Protection renforcée pour les données sensibles ou à risque ■ Définition large du "traitement » ❑ Collecte, enregistrement, organisation, conservation, modification, utilisation, communication, interconnexion… ■ Les traitements doivent être déclarées à la CNIL et doivent parfois être autorisés explicitement 77Mathieu Saby - avril/mai 2016
  • 78. Le traitement des données personnelles 78Mathieu Saby - avril/mai 2016 ■ Principes à respecter pour tout traitement: ❑ Finalité explicite, précise et légitime ❑ Collecte loyale et licite ❑ Données adéquates à la finalité ❑ Limiter la conservation des données ❑ Sécuriser les données ❑ Respecter les droits des personnes: consentement, accès, rectification, opposition
  • 79. Le traitement des données personnelles ■ Conseil pratique pour limiter les formalités: ne pas recueillir plus de données personnelles qu’il n’est nécessaire ❑ Ex : ville et non adresse précise. Tranche d’âge et non âge précis… 79Mathieu Saby - avril/mai 2016
  • 80. Le traitement des données personnelles 80Mathieu Saby - avril/mai 2016 Pour en savoir plus, interlocuteur local et intermédiaire entre le chercheur et la CNIL : le Correspondant Informatique et libertés de l’université
  • 81. Un droit en évolution 81Mathieu Saby - avril/mai 2016 ■ Principe récent (2013) : la recherche a pour mission « L'organisation de l'accès libre aux données scientifiques » (Code de la recherche : article L112‐1) ■ Projet de loi République numérique, art. 17 « II. - Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l'État, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. « III. - L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. « IV. - Les dispositions du présent article sont d'ordre public et toute clause contraire à celles-ci est réputée non écrite. »
  • 82. Un droit en évolution 82Mathieu Saby - avril/mai 2016 ■ Vers une autorisation de la fouille de texte et de données (Text and data mining)? ❑ Forte demande des chercheurs ❑ Gouvernement opposé ❑ Assemblée nationale favorable ❑ Sénat favorable, mais de manière plus limité
  • 83. Enjeux éthiques 83Mathieu Saby - avril/mai 2016 ■ Quels risques la collecte, le traitement et/ou la diffusion des données font peser sur ❑ les personnes ❑ les entreprises ❑ le patrimoine ❑ l'environnement?
  • 84. Enjeux éthiques 84Mathieu Saby - avril/mai 2016 ■ La diffusion des données nuit-elle aux relations entre le chercheur et les participants à ses recherches? ■ La réutilisation des données d'un autre chercheur est-elle un pillage ou un hommage?
  • 85. Enjeux éthiques 85Mathieu Saby - avril/mai 2016 ■ Certaines données ne seront jamais partagées ■ Mais des solutions existent pour contourner les obstacles: ❑ recueil de consentements ❑ suppression des informations sensibles ❑ anonymisation ❑ limitation du public ❑ accès restreint voire environnement contrôlé ❑ licences restrictives ❑ embargo
  • 86. 7. Partager et diffuser ses données 86Mathieu Saby - avril/mai 2016
  • 87. Des questions à anticiper ■ Quelles données diffuser ? ■ Quand ? ■ Comment ? ■ À qui ? ■ Gratuitement ou pas ? ■ Sous quelles conditions ? ■ En permettant quel usage ? ■ Sous quelle forme ? ■ Avec quelles informations complémentaires ? 87Mathieu Saby - avril/mai 2016
  • 88. Comment et où diffuser ses données 88Mathieu Saby - avril/mai 2016 ■ Toutes les données sont dans la publication ■ Partage à la demande ■ Site du laboratoire ou du chercheur ❑ Ex: http://piketty.pse.ens.fr/fr/capital21c ■ Site de l’éditeur (« matériel d’accompagnement ») ❑ Ex : Revue Sociologie ■ Site du projet ❑ Ex: Navigocorpus ■ Entrepôt de données (préférable)
  • 89. Les entrepôts de données ■ Plus de 1500 sur le registre Re3data ■ Critères de choix essentiels d'un entrepôt ❑ Reconnaissance par une communauté disciplinaire (cf. listes des groupe Nature et PLOS ONE ) ❑ Type et taille des fichiers acceptés ❑ Nature des métadonnées autorisées ❑ Possibilité de versionner les fichiers ❑ Attribution d’identifiants uniques pérennes (DOI, Handle, ARK...) ❑ Possibilité d’accès restreint ou d’embargo ❑ Fiabilité, garantie de pérennité de l’entrepôt ❑ Certification ❑ Prix 89Mathieu Saby - avril/mai 2016
  • 90. Les entrepôts de données ■ Plusieurs types : spécialisés, disciplinaires, institutionnels, généralistes ❑ Ex. français: Ortholang (linguistique), MediHAL (images, sons, vidéos) ❑ Ex. internationaux : Dryad (biologie, environnement), ICPSR (sciences sociales) ■ Principaux entrepôts généralistes internationaux: ❑ Figshare (privé, lié à un groupe de presse) ❑ Zenodo (public, lié au CERN) 90Mathieu Saby - avril/mai 2016
  • 91. Les entrepôts de données: exemple d'utilisation 91Mathieu Saby - avril/mai 2016 Fichier son https://hal.archives-ouvertes.fr/medihal-01242449 Thèse Etude, analyse et modélisation physique de la production de la parole avec applications aux troubles liés à une surdité profonde https://tel.archives-ouvertes.fr/tel-01269639
  • 92. Les entrepôts de données: exemple d'utilisation 92Mathieu Saby - avril/mai 2016 Fichier de données https://zenodo.org/record/29239 Thèse Identification des indices acoustiques utilisés lors de la compréhension de la parole dégradée p. 183-5 https://tel.archives-ouvertes.fr/tel-01266326
  • 93. Citer et être citer 93Mathieu Saby - avril/mai 2016 ■ Bonnes pratiques ❑ Citer les données comme tout autre document (dans le corps du texte et en note) ❑ Citer également les publications associées aux données ❑ Donner les informations nécessaires pour permettre la citation de ses données ■ Une citation doit permettre ❑ L’identification des données → titre, date, version, éditeur, identifiant pérenne ❑ L’attribution à leurs auteurs → nom des auteurs ❑ Une lecture par des machines → identifiant pérenne
  • 94. Citer et être citer 94Mathieu Saby - avril/mai 2016 ■ Réflexion internationale en cours ❑ Consortium DataCite ❑ Joint Declaration of Data Citation Principles ■ Structuration et éléments importants ❑ Le format précis (ordre des éléments, ponctuation) peut varier selon les exigences des revues et des disciplines. ❑ Ex. : Auteur (Année), Titre, Entrepôt de données, Version (facultatif), Type de ressource (facultatif). Identifiant ❑ Un outil utile pour formater les citations (de données et de publications): http://crosscite.org/citeproc/
  • 95. Décrire ses données dans un "data paper" 95Mathieu Saby - avril/mai 2016 ■ Pour faciliter leur réutilisation ■ Publication dans une revue scientifique ordinaire ■ Ou dans un "Data journal" publiant des articles scientifiques (revus par les pairs) décrivant des jeux de données ❑ généraliste : ■ Scientific Data ■ Research Ideas and Outcomes ❑ displinaire : ■ Journal of open archeology data ■ Journal of Open Psychology Data ■ Journal of open humanities data ■ Research Data Journal for the Humanities and Social Sciences
  • 96. 8. Stocker et archiver après le projet 96Mathieu Saby - avril/mai 2016
  • 97. Une problématique spécifique ■ Les entrepôts de données ne résolvent pas tous les problèmes: ❑ Toutes les données ne peuvent pas être diffusées dans un entrepôt de données ❑ Sauf exception les entrepôts de données ne garantissent pas un archivage durable des données ❑ On diffuse donc dans un entrepôt une copie des données, en sauvegardant l’original ailleurs 97Mathieu Saby - avril/mai 2016
  • 98. Des choix à faire 98Mathieu Saby - avril/mai 2016 ■ Quelles données conserver? ❑ A minima les données sur lesquelles se fondent les analyses présentées dans les publications ou la thèse ❑ Eventuellement d'autres données (non exploitées complètement dans les publications) ■ Dans quelle version (brutes, traitées, analysées, anonymisées…) ? ■ Dans quel format? ■ Pour combien de temps?
  • 99. Du stockage à l’archivage pérenne ■ Stockage sécurisé ❑ Intégrité des fichiers garantie à moyen ou long terme ■ Archivage pérenne ❑ Intégrité des fichiers garantie long terme (>30 ans) ❑ Lisibilité des fichiers garantie long terme ■ Migrations de formats ■ Émulations ❑ Utilisabilité des fichiers garantie long terme ■ Documentation poussée sur les données et leur contexte 99Mathieu Saby - avril/mai 2016
  • 100. Du stockage à l’archivage pérenne ■ L’archivage pérenne ❑ Est assuré par des professionnels ❑ Peut être complexe et coûteux à organiser ❑ Ne concerne pas forcément toutes les données ❑ Doit être anticipé 100Mathieu Saby - avril/mai 2016
  • 101. Deux outils d’Humanum: Nakala et Nakalona ■ Outils proposés par Humanum ❑ Nakala (Stockage sécurisé, facilite l’archivage pérenne, exposition de métadonnées, mais pas d’interface) ❑ Nakalona (Nakala+interface de consultation) ■ Exemple d’utilisation: Les archives du Centre Franco- Égyptien d’Étude des Temples de Karnak ■ Bénéficiaires: ❑ projets importants en SHS (collaboratifs) ❑ Pas pour les données d’une thèse ordinaire 101Mathieu Saby - avril/mai 2016
  • 102. L’archivage pérenne ■ Mission du CINES ■ Archive notamment: ❑ Thèses électroniques et articles déposés dans HAL ❑ Données de projets importants en SHS, par l’intermédiaire d’Humanum: http://www.huma- num.fr/services-et-outils/archiver ❑ Données de grandes enquêtes qualitatives : BeQuali http://bequali.fr/ 102Mathieu Saby - avril/mai 2016
  • 103. Contacts sur la gestion des données ■ Formations: URFIST de Nice ■ Conseils et accompagnement: Bibliothèque universitaire (donnees-scd@unice.fr) ■ Données personnelles : Correspondant informatique et liberté 103Mathieu Saby - avril/mai 2016
  • 104. Crédits 104Mathieu Saby - avril/mai 2016 Icônes par Freepik, disponibles sur www.flaticon.com Costume de scène du Bourgeois Gentilhomme (domaine Public), disponible sur https://commons.wikimedia.org/wiki/File:Le-bourgeois-gentilhomme.jpg