1. Dans les coulisses de l’open data
AAF, le 17 juin 2017
Samuel Goëta
Telecom Paristech / datactivist
2. Ouvrir les coulisses de l’open data
● Open data souvent présenté comme le vecteur de transformations majeures
de la transparence de l’action publique, d’un renouvellement de l’innovation
numérique ou des pratiques administratives.
● La plupart des analyses, y compris dans la littérature académique,
s’intéressent essentiellement à la réutilisation, à ce qui passe après
l’ouverture, une fois que les données sont réutilisées.
● Apport de la thèse : un regard en coulisses. Comprendre en amont comment
les politiques d’open data sont apparues et dans quelles conditions elles ont
été mises en oeuvre concrètement.
3. Questionnements
Le travail des données
Quel travail invisible se déroule-t-il en amont des projets d’open data ?
Comment concrètement les données sont-elles ouvertes ?
L’ouverture des données est-elle aussi peu couteuse pour les administrations que
de nombreux acteurs s’emploient à le dire ?
Genèse de l’open data
D’où viennent les principes de l’open data ? Qui les a formulés ?
Quels aspects de l’ouverture des données sont-ils encore en débat ?
Comment ces principes ont-ils été traduits concrètement et localement dans des
politiques publiques ?
Que sont les données ?
Peut-on faire circuler des données brutes, telles que collectées ?
4. Comment enquêter ?
Le travail des données
Ethnographie s’appuyant sur l’analyse d’entretiens, d’observations de réunions et
de l’étude de documents
Enquête conduite dans une variété d’institutions françaises
- des collectivités locales : Rennes, Montpellier, ville de Paris, région IDF
- Etalab et son réseau de correspondants
- une entreprise
- une institution internationale
Genèse de l’open data
Enquête s’appuie des sources publiques en ligne : archives du web et de listes de
diffusion publiques
Retracé la trajectoire d’Etalab en m’appuyant sur deux entretiens qui m’ont permis
de compléter les sources publiques
5. Organisation de la thèse
Chapitre 1. L'invention de l'open data : retour sur six moments de définition
Chapitre 2. Vers une administration des données : la trajectoire d'Etalab
Chapitre 3. L'identification : la découverte progressive et collective des données
Chapitre 4. Les frictions de l'identification : quelques "bonnes raisons
organisationnelles" de ne pas ouvrir des données
Chapitre 5. Transformations et transmutations : la fabrique des données brutes
Chapitre 6. L'instauration des publics de données
6. Les données comme source du savoir
Les limites de cette approche
- Le savoir et la sagesse ne découlent
pas nécessairement de données :
que faire de la philosophie par
exemple ?
- On appelle données à peu près tout
ce qui circule dans un ordinateur,
sont-elles nécessairement la source
du savoir ?
7. Les données : ce qui va de soi
Latin : dare (donner) > datum (donné) > data (donnés)
Ce qui est évident, va de soi, est accepté sans discussion
Facts are ontological, evidence is epistemological, data is rhetorical. A
datum may also be a fact, just as a fact may be evidence. But, from its
first vernacular formulation, the existence of a datum has been
independent of any consideration of corresponding ontological truth.
When a fact is proven false, it ceases to be a fact. False data is data
nonetheless.
Rosenberg, 2013
8. Vers une définition des données
Data are commonly understood to be the
raw material produced by abstracting the
world into categories, measures and
other representational forms – numbers,
characters, symbols, images, sounds,
electromagnetic waves, bits – that
constitute the building blocks from which
information and knowledge are created.
=> enregistrabilité => briques de base
(“buildings blocks”)
9. Data or capta, données ou obtenues
Technically, then, what we understand as
data are actually capta (derived from the
Latin capere, meaning ‘to take’); those
units of data that have been selected
and harvested from the sum of all
potential data.
[Source]
« Décidément, on ne devrait jamais
parler de “données”, mais toujours
d’“obtenues”. » - Bruno Latour, 1993
10. Données, données…quelles données ?
● Données quantitatives : enregistrées sous forme de nombres
● Données qualitatives : non numérique => texte, image, vidéo, son,
musique…
● Données structurées : dotées d’un modèle
● Données semi-structurées : pas de modèle prédéfini. Structure irrégulière,
implicite… mais données organisées néanmoins, ensemble raisonnable de
champs
● Données non structurées : pas de structure commune identifiable
11. Données, données…quelles données ?
● Données capturées : observation, enquête, expérimentation, prise de
notes, senseurs… => intention de générer des données
● Données échappées : sous-produit d’un engin ou d’un système dont la
fonction première est autre
● Données transitoires : échappées qui ne sont jamais examinées,
transformées ou analysées
● Données primaires : générées par un chercheur dans un cadre
expérimental
● Données secondaires : mises à disposition d’autrui pour être réutilisées
● Données tertiaires : données dérivées : décomptes, catégories, résultats
statistiques
12. Tension entre deux modèles de
l’ouverture
Des critères techniques sur le processus de l’ouverture qui réclame la mise à
disposition de l’ensemble des données publiques
Des critères politiques sur le contenu des données, désignant des données
essentielles, à ouvrir en priorité
13. L’entrée en politique des données brutes
de l’administration
Principes de l’open data ont mis en lumière
les données brutes
→ création d’institutions comme Etalab : en
charge non seulement de leur ouverture mais
progressivement de leur circulation et de leur
exploitation.
Données brutes : une demande inédite.
Agents souvent renvoyés vers services
statistiques ou des fichiers au format PDF.
Les données brutes ne sont pas une illusion
mais une chose complexe et fragile à
fabriquer.
14. Les “bonnes raisons organisationnelles”
de ne pas ouvrir des données
Métaphore du Database Hugging Disorder
(DbHd) de Hans Rosling
On trouve rarement des données reconnues
comme telles et prêtes à leur ouverture
Pour parvenir à l’ouverture de ces données brutes,
les responsables de projets d’open data doivent
les façonner en les identifiant, en les extrayant, en
les convertissant dans un nouveau format ou en
éditant ce qui pourrait être considéré comme une
erreur ou une anomalie.
15. Des publics qui n’apparaissent pas
automatiquement
Politiques d’open data baties sur l’existence de
publics de données, usagers capables d’exploiter
et de restituer ces données sous une forme
intelligible pour un plus large public
Or, les publics n’apparaissent pas
automatiquement. Ils doivent souvent être
instaurés.
Un autre pan du travail invisible de l’ouverture
des données : faire exister les publics de données.
Quelques instruments étudiés : métadonnées,
outils de visualisation, hackathons
16. Des questions ?
Me contacter : samuel@datactivi.st
Lire la thèse : https://pastel.archives-ouvertes.fr/tel-01458098