L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
Confidentialité des données michel béra
1. Michel BERA
Professeur du Conservatoire national des arts et métiers
Chaire de modélisation statistique du risque, département IMATH
Mardi 9 juillet 2014
Université d’été de l’Institut des actuaires
Confidentialité des données
2.
3. Ce dont je ne parlerai pas (extraits)
• La data science -> voir exposé suivant!
• Le juridique -> voir la conférence au Groupe Big Data de
Fabrice Naftalski (partner, E&Y)
• La CNIL : de nombreuses actions sur les données
personnelles sont parfaitement interdites, mais peu le
savent (ex : arrêt pages jaunes, banque avec filiale
assurantielle captive, données génétiques)
• L’audit demandé à l’Institut des données de santé par le
rapport Bras (2013) : Gouvernance et utilisation des
données de santé
4. Le « Snowden Point »
(6 juin 2013)
• C’est un « tipping point » (point de basculement
sociologique)
• Brutalement toute la « population » se rend
compte que des données massives sont
collectées et utilisées à des fins commerciales,
voire mystérieuses (militaires, etc.)
• Besoin de protection, de « confidentialité des
données » : sorte d’approche Amish face aux
données..
5. Esther Dyson (USA)
• Toute personne devrait être en mesure de
« négocier » librement la mise à disposition par
elle des données qui la concerne (PC Forum -
1995 ?)
• C’était avant la « découverte » de la théorie des
réseaux sociaux! (Barabasi, Linked)
• Problème du « banc de poissons »
• Problème de la mutualisation
• Problème de la cohorte (permet la « preuve »)
6. De quoi peut-on parler : de la protection des
données personnelles (1)
• Première question: que font les américains?
• rechercher des solutions « technologiques » (ici
data science) – cf Rapport Obama (mai14)
• construire (et breveter) des méthodes
scientifiques
– La k-anonymisation (Latanya Sweeney, Professor of
Government and Technology in Residence at Harvard
University) – 2002
– La K-indistinguability (micro-aggregation) : clusters -> Defays
– Le floutage (confidentialité différentielle) Cynthia Dwork
• Mettre en place des standards mondiaux (ex : MIT Open
PDS)
7. De quoi peut-on parler : de la protection des
données personnelles (2)
• Seconde question: que font les français?
• chercher des solutions « technologiques » : ex :
La « bulle » du CASD : Antoine Frachot/GENES
• Construire des algorithmes de cryptage (FOIN :
Fonction d’occultation des informations
nominatives) – Catherine Quantin
• Les systèmes souverains d’hébergement de
données et de puissance de calcul (ex :
Cloudwatt, Thalès)
• Définir et gérer des stratégies « open data »
8. Un focus sur les données de santé US
• Gros travail sur les notions de « statistical de-
identification » (HIPAA – Health Insurance
Portability and Accountability Act)
• Papiers « terrifiants » réguliers en grand public:
– En génomique (ré-identification)
– En données de comportement (géolocalisation, 5
points pour identifier à 95% une personne, etc.)
– Attaques de ré-identification (Laura Sweeney again)
– etc.
9. Conclusion
• Le modèle français peut faire école européenne a
minimis (CNIL et al.)
• Il est sot de se priver d’avancées extraordinaires pour le
bien-être des peuples par un excès de précautions/
floutage/anonymisation (ex : sida)
• Principe d’un ordre de travail sur les données, qui rend
la main à l’homme en final : Data Driven -> Evidence
Based -> commission d’experts statuant sur les
recommandations de la machine, pour que l’homme
reste au centre
• Application à la confidentialité des données
personnelles : le « data driven open data » (DDOD)