1. Données personnelles,
enjeux et pouvoirs
1
Olivier Ertzscheid. Enseignant-chercheur.
Nantes Université.
Septembre 2022
www.affordance.info
2. Une (toute petite) histoire (très
subjective) des données.
[Et quelques réflexions pour aller
dans le sens d’un intérêt commun] 2
3. Before Data.
• Il n’y avait que des bits.
• Bruce Schneier : « l’histoire d’internet est celle d'un
accident fortuit résultant d'un désintérêt commercial
initial, d'une négligence gouvernementale et militaire et de
l'inclinaison des ingénieurs à construire des systèmes
ouverts simples et faciles. »
• Années 72 : projet SAFARI (interconnexion)
• Années 2000 : le temps des cerises des données.
• 1997 la Communauté européenne s'inquiète des risques de
l'hyperconnectivité
• « recommandation 6c » sur la société de l’information
• être attentif et étudier « les conséquences d’une connexion
permanente, le besoin de se déconnecter parfois et le droit de
restreindre l’accès à certains moments » tout comme « la
restriction et la négociation des intrusions ».
• 20 ans plus tard (2017) : droit à la déconnexion introduit
dans la loi française.
• Ce qui compte c’est le temps passé « devant » l’écran et pas ce
qui se passe « derrière » ou « dans » les écrans.
• De l’interconnexion au droit à la déconnexion.
3
4. Années circa 2010 . Data Deluge.
• 2010 Eric Schmidt (CEO Google) : davantage de données
sont générées aujourd’hui toutes les 48h qu’entre l’aube de
l’humanité et l’année 2003.
• DATA MINING
• (Uber en 2009) : Le travail des données.
• Digital Labor. Tâcheronnage. Travail à la tâche.
• Les données et les algos ne sont plus à notre service via des
plateformes mais les plateformes nous mettent (mettent les
travailleurs) au service des algos pour traiter des données.
• 1 fracture :
• Mouvements Open Data VS patrimonialisation des données (droit
de vendre ses données comme on vendrait un rein)
• Application « Tadata »
(https://affordance.framasoft.org/2020/10/tadata-ou-la-
prostitution-comme-business-model/).
• Cible public jeunes, peu éduqués, précaires, étudiant.e.s …
• Des grands scandales
• Lanceur d’alerte (Snowden NSA 2013) : les états nous écoutent.
• Cambridge Analytica (2015) : les plateformes nous écoutent au
service de partis et peuvent « orienter » nos votes.
4
5. Années circa 2020 : DataSets [Jeux de données]
• Mouvements de conscientisation,
d’émancipation
• https://onestla.tech/page/a-propos/
• Question des jeux de données (datasets) :
• servent à l’entraînement (deep learning, machine
learning) de programmes qui remplissent des
objectifs (« IA »)
• Mais sont aussi truffés de biais (humains et
algorithmiques, racistes, sexistes …) et très
complexes à auditer.
• Ce ne sont plus les algos qui sont stratégiques /
secrets mais les jeux de données.
• Ethique automatisation : algos ET données
devraient être "transparents à l'inspection,
prévisibles pour ceux qu’ils gouvernent, et
robustes contre toute manipulation" (Bostrom et
Yudowski dans "The Ethics of Artificial
Intelligence").
5
7. Contextualiser [et politiser] la question des
données
• Données et / ou obtenu.e.s
• [Bruno Latour] toute donnée est le produit d’un processus qui voit des acteurs la mettre en forme en
fonction de leurs expériences, en fonction des usages et des usagers qu’ils imaginent aussi.
• Croire que les données sont intrinsèquement quantitatives — évidentes, neutres sur le plan des valeurs et
indépendantes de l’observateur — exclut la possibilité de les concevoir comme qualitatives, co-
dépendamment constituées. [Johanna Drucker]
7
8. La donnée qui voulait être plus grosse que le
monde en capacité de la traiter
• Big Data : How Big is Too Big ?
• « La tendance des données d'entraînement ingérées depuis Internet à encoder des visions du monde
hégémoniques, la tendance des LM (modèles de langage) à amplifier les biais et autres problèmes dans les
données d'entraînement, et la tendance des chercheurs et d'autres personnes à confondre les gains de
performance induits par les LM avec une réelle compréhension du langage naturel – [toutes ces tendances]
présentent des risques réels de dommages, lorsque ces technologies sont déployées.
• (…) Nous constatons que le mélange de biais humains et de langage apparemment cohérent
augmente le potentiel de biais d'automatisation, de mauvaise utilisation délibérée et d'amplification
d'une vision hégémonique du monde(…)
• Chercheurs proposent une nouvelle éthique autour de la recherche en Big Data
• 1. évaluer d'abord les coûts environnementaux et financiers
• 2. investir des ressources dans la conservation et la documentation minutieuse des ensembles de données plutôt
que d'ingérer tout ce qui se trouve sur le web,
• 3. effectuer des exercices de pré-développement pour évaluer comment l'approche prévue s'inscrit dans les objectifs de
recherche et de développement et soutient les valeurs des parties prenantes
• 4. et encourager les directions de recherche au-delà des modèles linguistiques toujours plus grands.
• https://affordance.framasoft.org/2021/04/perroquets-stochastiques-attaque-typographique/
8
9. Renoncer (ici aussi) à un extractivisme
mortifère. Kate Crawford
• « Atlas de l’IA » Kate Crawford
• « l’IA n’est ni intelligente ni artificielle. Elle n’est qu’une
industrie du calcul intensive et extractive qui sert les
intérêts dominants. Une technologie de pouvoir qui « à la
fois reflète et produit les relations sociales et la
compréhension du monde. »
• "Les modèles permettant de comprendre et de tenir les
systèmes responsables ont longtemps reposé sur des idéaux
de transparence… Le fait de pouvoir voir un système est
parfois assimilé au fait de pouvoir savoir comment il
fonctionne et comment le gouverner. Mais cette tendance a
de sérieuses limites. Dans le cas de l’IA, il n’y a pas de boîte
noire unique à ouvrir, pas de secret à révéler, mais une
multitude de systèmes de pouvoir entrelacés. La
transparence totale est donc un objectif impossible à
atteindre. Nous parviendrons à mieux comprendre le rôle
de l’IA dans le monde en nous intéressant à ses
architectures matérielles, à ses environnements
contextuels et aux politiques qui la façonnent, et en
retraçant la manière dont ils sont reliés. »
9
10. Données et conditions de travail
• Données sont des obtenues mais devraient aussi pouvoir être des conditions.
• Définition DARES : « Les conditions de travail recouvrent les aspects matériels
(contraintes physiques, moyens, conditions sanitaires, etc.), organisationnels (temps
de travail, rythme de travail, autonomie et marge de manœuvre, etc.), et psychosociaux
(relations avec les clients, la hiérarchie et les collègues, sentiment d'utilité, etc.) »
• Aspects matériels sont organisés par les plateformes.
• Aspects organisationnels organisés par algos.
• Aspects psychosociaux ne sont souvent mesurés qu’au travers de la collecte de
données (métriques qui sont autant de coups de trique).
• Nos conditions de travail attentionnel.
• L’essentiel des données et d’ailleurs recueilli (obtenu) dans le cadre des CGU.
• C’est cette conditionnalité qu’il faut inverser dans le sens de l’intérêt commun (et
cela passe par la défense des droits et intérêts des particuliers).
10
11. De la semaine de 35h à la semaine de 35 gigas
[de données] ?
• Temps de travail => temps
« donné » fait de données
• Vêtement de travail (montres
connectées, puces RFID sous-
cutanées, balises GPS,
smartphones et applications
installées)
11
13. Automatisation des inégalités.
• Politiquement
• Jen Schradie "The Revolution That Wasn't : How Digital Activism Favors
Conservatives" (Harvard University Press).
• "les classes plus aisées sont plus présentes en ligne que les classes populaires.
• Elles disposent de meilleures organisations, plus accoutumées à la bureaucratie.
• Enfin, les conservateurs, comme les membres du Tea Party, ont un message plus
simple et abordent moins de sujets que les groupes de gauche. Ils ont l’impression
que les médias mainstream ne relaient pas assez leur parole, ce qui les incite
d’autant plus à se doter de leurs propres instruments de communication. L’idéal de
liberté se partage plus facilement sur les réseaux sociaux que celui d’égalité. Au vu
du contexte actuel, je pense donc que le discours de droite sera d’autant plus
dominant sur les réseaux pendant la pandémie."
• Sociologiquement et économiquement
• Cathy O'Neil (Weapons of Math Destruction, 2016)
• Safiya Umoja Noble (Algorithms Of Oppression, 2018)
• Virginia Eubanks (Automating Inequality, 2018)
13