Conférence dans la cadre de l'école d'été en architecture de l'information. Moteurs et réseaux sociaux : quelle clef de voûte pour une architecture de l'information ?
1. Gestion des données personnelles Lyon-Montréal. 13 Mai 2011 Olivier Ertzscheid // Maître de conférences // Sciences de l’information et de la communication // Université de Nantes // IUT La Roche sur Yon Site : http://www.affordance.info Moteurs et réseaux sociaux Quelle clef de voûte pour une architecture de l’information ?
7. Plus qu’interconnectées, des données réunifiées 1995 2005 2011 Web public Web privé Web « invisible » Web personnel (Desktop) Web intime (Mail) indexé non-indexé Dérive des continents documentaires, des « gisements de données » Web public Web privé Web personnel (Desktop) Web intime (Mail) Web extime (blogs) Web public Web privé Web personnel (Desktop) Web intime (Mail) Web extime (blogs)
10. Architecture de l’information ? « L’architecture de l’information, c’est ce qui reste une fois l’information ôtée. » du système de la navigation de la recherche de l’infrastructure des données
11.
12. Degré zéro de l’architecture de l’info Navigation Données Serveurs & Datacenters Services
13. Architecture de l’info 1.0 Architecture de l’info 2.0 Le portail du visible La clé vers l’invisible Données Données ???
17. Architecture de l’information Entre design ... (services, navigation, etc.) Et industrie lourde (infrastructures, datacenters, gisements de données etc.)
24. Avant, pendant, après. Des données sur tout. Des données partout. Des données pour tout. A. Mes données et leur historique (déclaratives, comport. et techniques) B. Les données de mes proches Couche Ingénieries relationnelles C. Les données de tout le monde Passage à l’échelle (statistique) Mes données et celles de mes proches (A and B) Mes données ou celles de mes proches et celles de tout le monde (A or B) and C Mes données et celles de tout le monde (A and C) Les données de mes proches et celles de tout le monde (B and C) Sur un site marchand AMAZON.COM Données « natives » « intentions d’achat », « préférences » Sur un site social FACEBOOK.COM Données « captives » Rétention « amis, groupes, réseaux » Dans 1 écosystème ouvert de sites GOOGLE / YOUTUBE / GMAIL Données natives et « moissonnées » Que possèdent-ils ?? Des données Qu’en font-ils ?? Des croisements Comment procèdent-ils ?? Par captation Que produisent-ils ? D’autres données, de la richesse et de la redocumentarisation
28. 3. « Redocumentariser » l’identité « Redocumentariser, c’est documentariser à nouveau un document ou une collection en permettant à un bénéficiaire de réarticuler les contenus sémiotiques selon son interprétation et ses usages. » Manuel Zacklad in « Eléments théoriques pour l’étude des pratiques grand public de la documentarisation : réseaux et communautés d’imaginaire » « connaissances »
31. Données personnelles ? DES DONNEES « Ensemble des informations qui permettent sous quelque forme que ce soit, directement ou non, l’identification des personnes physiques auxquelles elles se rapportent ». DES TRAITEMENTS « toute opération ou ensemble d’opérations portant sur des données à caractère personnel, quel que soit le procédé utilisé ». Collecte, enregistrement, conservation, adaptation, modification, extraction, consultation, utilisation, communication par transmission, diffusion ou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, ainsi que le verrouillage, l’effacement ou la destruction » Lionel MAUREL Techniques : Adresse IP, Cookies ... Déclaratives : mon profil facebook, date de naissance ... Navigationnelles : requêtes, types d’achats ... Comportementales (diachroniques) : historique de recherche
32. C’est la loi INFORMATION. La loi impose d’informer les personnes « fichées » que des données nominatives les concernant sont collectées DROIT DE RETRAIT. NON-DIVULGATION À DES TIERS. DATE LIMITE DE VALIDITÉ . SOURCE : LIONEL MAUREL C’est le business Pot de terre des législations nationales contre ... (jack)pot de fer de la dérégulation des marchés
36. Base de donnée des intentions (John Battelle) « We don’t need taxonomy of knowledge. We need taxonomy of desire, a marketplace of intent » Prabhakar Raghavan. Head of Research and Strategy chez Yahoo! Sept. 2008
37. Le carré magique des usages SHOPPING (digital cameras) HEALTH (Diabetes) TRAVEL (United 875) LOCAL (French Restaurant)
44. Facebook privacy policy timeline (cf http://www.eff.org/deeplinks/2010/04/facebook-timeline/) « No personal information that you submit to Thefacebook will be available to any user of the Web Site who does not belong to at least one of the groups specified by you in your privacy settings » 2 0 0 5 « Moi et les miens »
45. We understand you may not want everyone in the world to have the information you share on Facebook; that is why we give you control of your information. Our default privacy settings limit the information displayed in your profile to your school, your specified local area, and other reasonable community limitations that we tell you about. 2 0 0 6 Moi et ma communauté étendue Privauté « par défaut » 2 0 0 7 Profile information you submit to Facebook will be available to users of Facebook who belong to at least one of the networks you allow to access the information through your privacy settings (e.g., school, geography, friends of friends). Your name, school name, and profile picture thumbnail will be available in search results across the Facebook network unless you alter your privacy settings . Arrivée du « search » Arrivée de l’opt-out
46. Certain categories of information such as your name, profile photo, list of friends and pages you are a fan of , gender, geographic region, and networks you belong to are considered publicly available to everyone, including Facebook-enhanced applications, and therefore do not have privacy settings. Information set to “everyone” is publicly available information, may be accessed by everyone on the Internet (including people not logged into Facebook), is subject to indexing by third party search engines, may be associated with you outside of Facebook (such as when you visit other sites on the internet), and may be imported and exported by us and others without privacy limitations. The default privacy setting for certain types of information you post on Facebook is set to “everyone. ” You can review and change the default settings in your privacy settings Nov. 2 0 0 9 Abolition de la frontière « plateforme » Opt-out systématique et étendu Abolition pure et simple de la privauté « profilaire », « identitaire » Déc. 2 0 0 9
61. Moteur de recherche « de voisinage » Everyblock.com / http://chicago.everyblock.com/news/ Adresse / numéro de sécurité sociale / historique déménagements et changements d'adresse depuis 10 ans / Date de naissance / Casier judiciaire / Diverses amendes / Dates mariages et divorces / le nom et n° tél voisins / Montant du bien immobilier qu'il possède (sa maison), sa date d'achat et le nom de celui qui lui a vendu / la taille du "lot" ( cadastre ) sur lequel elle (sa maison) est implantée / une vue satellite de chez lui / Âge moyen des femmes et des hommes habitant dans son voisinage / Nombre de meurtres , de viols, de vols de véhicule et autres larcins dans son quartier / Composition ethnique du quartier / Niveau d'éducation et les langues parlées / les permis qu'il possède (permis de conduire mais aussi permis bateau, avion, moto, etc ...)
62. http://www.Intelius.com "Nous cherchons dans des milliards de données publiques pour vous aider à trouver ce que vous cherchez. Nous analysons des listes de vente, des commandes sur catalogue, des abonnements à des magazines, des enregistrements d'adresse, des enregistrements de propriété immobilière, des arrêts de cour (...) et toute une série d'autres enregistrements publics et de sources publiques pour vous ."
64. Changement de perspective information connaissance Documents individus DONNÉES " nous sommes en train de passer d'un web de documents connectés à un web de données connectées. " John Markoff. NY Times. 12 No. 2006 http://www.nytimes.com/2006/11/12/business/12web.html DONNÉES Traitement documentaire Traitement computationnel
65.
66. « L’antilope qui court dans les plaines d’Afrique ne peut être considérée comme un document…» « Mais si elle est capturée… et devient un objet d’études, on la considère alors comme un document. Elle devient une preuve physique. » Suzanne Briet
67. Quelle clé de voûte pour l’architecture de l’information ? ?
68. requêtes profils usages Documents informations Individus d o n n é e s d o n n é e s d o n n é e s d o n n é e s d o n n é e s d o n n é e s d o n n é e s d o n n é e s d o n n é e s
69. Quel écosystème informationnel ? Indexation Mer des pratiques Moteurs & réseaux sociaux Monétisation Océan des données Collaboration, participation, User Generated Content Résultats Technologies de la capillarité Comportements, profils Moteurs & réseaux sociaux
Pangée documentaire. Une seule et unique sphère d’indexabilité.
S’intéresser aux données, aux donnée personnelles, DANS LE CADRE de l’architecture de l’information
C’est d’abord réfléchir à ce qu’est cette architecture.
(Lectures industrielles : définition1.a) l’activité du robot de lecture, ses actes de lecture: scanner, crawler, indexer. b) les produits dérivés de cette activité, les textes de lecture en langage humain. 2.a) l’association des lectures humaines et des lectures machiniques. b) la commercialisation des lectures humaines définies comme «hits». 3.a) l’espace des lectures industrielles est le face-à-face des industries de lecture et des publics de lecteurs. b) l’industrie de la lecture entreprend la commercialisation de toutes les lectures, sous le slogan de l’ «accès à toute l’information». c) l’industrie de la lecture entreprend aussi la commercialisation des lecteurs.”)
Architecture de l’information a évoluée avec les modalités économiques de la fabrication et de l’accès à l’information.
Tout se passe « en dessous ». Et dessous y’a quoi ?
Services et « méta-services » permettant de trouver le bon service ou d’en comparer plusieurs
Et puis bien sûr l’immensité des données de la famille documentaire. Une immensité exponentielle. Dans laquelle notre « empreinte documentaire » - comme on parle de notre « empreinte carbone » - est de plus en plus élevée.
WUM : " Web Usage Mining " qui s'intéresse notamment à l'analyse des logs pour retracer des profils d'utilisateurs et s'attache également à déterminer des formes ("patterns") de navigation. WCM : " Web Content Mining " qui s'intéresse au "contenu" (pages web et résultats d'une recherche) WSM " Web Structure Mining " qui prend en compte les hyperliens (statiques ou dynamiques
Extraction facilitée par le fait que ...
QUI QUOI OU COMMENT
Machine à produire de la redocumentarisation.
Forcément si tt le monde s’intéresse à ces données ce n’est pas que par philanthropie
Prabhakar Raghavan , Head of Research and Search Strategy chez Yahoo!. Sept 2008 Deuxième phrase clé : " We don't need taxonomy of knowledge. We need taxonomy of desire ". Cela renvoie à toutes les analyses dérivées de la "base de donnée des intentions" de John Battelle. P. Raghavan parle également de la création d'une "place de marché des intentions" ( A marketplace of intent ).
Une base de donnée des intentions qui va augmenter la « prédictibilité » des recherches Et donc augmenter également leur valeur transactionnelle, leur valeur marchande. On peut donc considérer que tout le monde est content.
Tout commence par une page blanche, presque entièrement blanche, virginale et sécurisante.
Quelle vierge immaculée pourrait donc nous vouloir du mal ?
Oui mais voilà … tout paradis, tout Eden comporte sa part d’ombre. Son pêché originel …
Ce pêché, c’est l’identification. S’identifier c’est croquer la pomme, c’est mettre sa conscience, sa vigilance en sommeil durant tout le temps de sa navigation
. C’est à chaque requête déposée, donner au moins autant d’informations aux moteurs que ceux-ci nous en renvoient. D’autant que, nous l’avons vu tout à l’heure, cette identification va céder la place à des mécanismes bien rôdés de personnalisation (transparente, persistante) Au final, chaque CLIC, chaque action, chaque COMPORTEMENT, fait fonction de métadonnée dans une sorte de panoptique GLOBAL. Le tour de force des moteurs c’est d’avoir réussi à ramener le mode opératoire des métadonnée au niveau d’un processus presque inconscient (ou subconscient).
3 manières de personnaliser les choses, avec l’accord, ou à l’insu du plein gré de la personne ;-) « invisible » ou « transparente » désigne principalement la collecte des logs de navigation ainsi que celle des différentes actions menées par l’usager dans le cadre d’une session pour laquelle il s’est auparavant identifié. personnalisation « persistante » est un effet corrélé de la première : une fois que vous vous êtes identifié dans un service (webmail de Google par exemple), lorsque vous ouvrez une nouvelle fenêtre ou un nouvel onglet de navigation pour aller interroger le moteur de recherche de la même société, vous « emportez avec vous » votre identification, vous vous trouvez automatiquement identifié et donc reconnu pour les recherches que vous effectuerez sur le moteur, ce qui permet ensuite de récupérer ces éléments pour les verser dans votre profil et dans votre historique de navigation, et ce sans que vous en ayez explicitement exprimé le besoin. Cette activation « par défaut » est une clé importante dans la stratégie des moteurs. OPT OUT Le troisième type est une personnalisation participative , qui nécessite l’adhésion, la participation explicite et librement consentie des utilisateurs. Il s’agit alors d’activer volontairement la procédure d’identification pour accéder aux services de personnalisation proposés, ou bien de proposer aux utilisateurs de décrire (à l’aide de mots-clés ou de tags) les ressources qu’ils ont produites ou qu’ils souhaitent partager avec d’autres. Si l’on prend l’exemple de l’indexation collaborative de ressources (cf infra), les moteurs multiplient ainsi les chances de repérage et d’accès à des contenus en jouant à la fois sur les modes de classement les plus fréquents (par pertinence, par date ou par « popularité » - les contenus les plus accédés, les vidéos les plus vues …), ainsi que sur les mots-clés déposés par les utilisateurs eux-mêmes, leur proposant même d’évaluer l’indexation faite par le moteur (GoogleImageLabeler)
la condition sine qua non de sa réussite est le passage au premier plan de la gestion de l’historique des recherches individuelles : la pertinence et la hiérarchisation d’un ensemble de contenus hétérogènes n’a de sens qu’au regard des intérêts exprimés par chacun dans le cadre de ses recherches précédentes A la manière de l’informatique « ambiante » qui a vocation à se diluer dans l’environnement au travers d’interfaces prenant la forme d’objets quotidiens, se dessinent les contours d’une algorithmie également ambiante, c’est à dire mettant sous la coupe de la puissance calculatoire des moteurs, la moindre de nos interactions en ligne, le moindre de nos comportements connectés, la plus infime trace de nos plus éphémères conversations. Exemple : la lecture de nos mails par Google pour nous afficher des publicités contextuelles. Derrière cette algorithmie ambiante on trouve la volonté déterminée d’optimiser encore davantage la marchandisation de toute unité documentaire recensée, quelle que soit sa sphère d’appartenance d’origine (publique, prive, intime), sa nature médiatique propre (image, son, vidéo, page web, chapitre de livre, etc...), sa granularité (un extrait de livre, un billet de blog, un extrait de vidéo …) et son taux de partage sur le réseau (usage personnel uniquement, usage partagé entre « proches », usage partagé avec l’ensemble des autres utilisateurs du service). Pour cela, en plus de leur travail habituel, moteurs incitent les usages à mettre en place leurs propres métadonnées (cf GoogleBase développé en XML) GEOLOCALISATION
Donner exemple des photos d’allaitement.
Et cela aussi est une nouveauté que les moteurs vont tout faire pour intégrer, une nouveauté qu’ils vont même encourager …
Donc le web de demain sera probablement Implicite, sémantique, sémantisé, synchrone, mixé et remixé (mashups), applicatif, ubiquitaire, granulaire, collaboratif … et probablement bien d’autres choses encore. Mais quand on a dit cela, on n’a pas dit grand chose. Il reste quelques quesitons fondamentales à poser. A SE poser.
Dès lors et pour toutes ces raisons, l’homme est, pour les moteurs, un document comme les autres. Souvenez-vous de l’image de l’Antilope échaffaudée par Suzanne Briet, « Madame Documentation » …
Une autre manière de voir les choses est de considérer que cette capation « tout azimuth » de la moindre de nos traces documentaires est l’aboutissement Question de l’externalisation des mémoires documentaires est déjà ancienne. Elle prit un virage radical dans les années 80 avec l’explosion des mémoires optiques de stockage (CD et DVD-ROM). Aujourd’hui cette externalisation est « à terme ». Elle est au bout de sa logique. L’étape suivant (dans laquelle nous sommes déjà un peu engagés) c’est l’hypermnésie. Celle dont souffre Funès dans la nouvelle de Borges. Mais cette hypermnésie est aujourd’hui calculatoire, algorithmique, ambiante. Elle est massivement distribuée, ce qui lui confère cette impression de dilution, de non-dangerosité. Mais quelques acteurs disposent des moyens de l’activer et de tout rassembler. Pour l’instant ce n’est que pour nous vendre de la publicité, du temps de cerveau disponible. Mais que deviendrait cette arme hypermnésique entre les mains d’états ?
Quel écosystème informationnel voulons-nous ? Sommes nous prêts à accepter ? De quels leviers, de quels points de contrôle est-on prêts à se doter ?