2. Au programme
1. Introduction : le web, l’e-réputation, la vie, le reste
2. Le recours à la technologie : qu’est-ce que l’analyse
sémantique ?
3. Veille : bilan vs suivi
4. Méthode
5. Auto-promo éhontée
4. Web 2.0 et big data :
une révolution socio-
technique
• En passant du Web 1.0 au Web 2.0, la révolution numérique a
transformé les usages du web et la façon dont les êtres humains
interagissent les uns avec les autres
• Les internautes interagissent entre eux, publient, participent, créant
des dynamiques qui changent profondément le rapport à
l’information et à la communication
• Big data : des milliers de milliards d’adresses web
Volume estimé du seul web visible (indexé par Google)
• Nouvelles pratiques d’études et de data mining
• Enjeu : transformer la big data en smart data
5. Internet, c’est #lesgens
(révolution sociale)
• Le consommateur 2.0 s’informe et s’exprime
– Il est devenu infidèle, opportuniste, économe, zappeur, responsable et complexe
• Il a des exigences nouvelles
– Il « en veut pour son argent »
– Il refuse d’être une simple cible passive des messages marketing et publicitaires
– Il ne veut plus être sollicité n’importe comment pour n’importe quoi
• Les réseaux sociaux l’ont rendu acteur et porte-parole de sa consommation
(enquête Deloitte & Touche, US, 2007)
– 62% des internautes lisent les avis conso sur les fiches produits
– 10% des lecteurs d’avis modifient leur comportement d’achat suite à cette lecture
• L’entreprise doit s’adapter à cette évolution
– Montrer son écoute active de ces nouvelles demandes
– Les transformer en produits et services adaptés
6. Collecter sur le web,
c’est compliqué
(révolution technique)
• Un objet en perpétuelle évolution qui
produit
– de nouvelles informations (en permanence)
– de nouvelles URL / pages (très fréquemment)
– de nouveaux sites (fréquemment)
– de nouveaux domaines de 1er niveau (rarement)
• Il manque un protocole qui permettrait
d'être notifié des nouveautés sur une
thématique donnée
– Apparition d'une sorte de Google Alert ?
– Norme (W3C) ou standard (géant du Web) ?
– Même si ce protocole apparaissait, tout ne serait pas
indexé (directives robots.txt)
– Règlementation des données personnelles
• Le droit à l'oubli numérique est
théorique
– archive.org
7. Nous n’avons accès
qu’au web surfacique
Le web surfacique (ou
visible) est constitué de
toutes les pages indexées
par les moteurs de
recherche
(~50 000 000 000 de
pages ?)
10. Qu’est-ce qu’on rate ?
• 10 à 100 fois plus de volume que le Web
visible
• 90% du web profond serait accessible
gratuitement
– Bases de données spécialisées
– Sites de vente en ligne et de petites annonces
– Sites de messagerie et de chat
– Bibliothèques en ligne, articles scientifiques
• Meilleure qualité de contenu ?
– Grand nombre de sites proposés par des
professionnels dans chaque secteur
• Causes de non-indexation du contenu
– Format ou taille du document
– Site protégé par mot de passe
– Directive robots.txt
– Page orpheline...
(Ouaiiis ! J’ai casé l’image de l’iceberg !)
11. Fuck yeah Venn diagram!
• Actif d’une marque,
constitué par l’ensemble
des conversations et
opinions exprimées sur le
• Surveillance des faits
web à propos de cette
visibles sur le web autour
marque
d’un sujet
• Cela inclut les avis
• Qui fait quoi ? Qui parle de quoi ?
consommateurs laissés sur les
• Véracité : identifier des faits
nouveaux et vérifiables sur un Veille E-réputation produits, les discussions sur les
forums et réseaux sociaux
sujet bien déterminé.
(Facebook, Twitter), et de
• Identification de la source
manière générale, tout message
• Facteur de confiance dans
public concernant une marque
l’auteur de l’information
et son environnement
• Ensemble fortement hétérogène,
• Ensemble des actions que va déployer une construction intellectuelle à
marque pour investir, développer et influer partir d’éléments disparates ?
sur son e-réputation
• Stratégie qui consiste à générer des contenus et des
échanges entre les internautes et la marque
• Objectif de cette stratégie :
Community
• Enrichir les discours existants afin de
générer (ou accroître) l’image positive de
management
la marque sur le web
• Susciter un sentiment positif auprès du
public visé
13. L’analyse sémantique
• Les technologies servant à l’analyse sémantique sont
directement issues de la recherche en Intelligence
Artificielle
• Text Mining : comprendre le sens des phrases (ie en
dépassant les limites du mot clé) en séparant le bon
grain de l'ivraie
• Data Mining : classifier des documents, les
regrouper par affinité, les hiérarchiser
14. Analyse sans
sémantique
• je tenais à féliciter la caissiére Céline pour
son accueil chaleureux et souriant du samedi 16 février
malgré la foule incroyable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. FELICITATIONS
• Style SMS, fôtes d’orthographe, CAPITALISATION,
formules de politesse…
15. Analyse sans
sémantique
• je tenais a feliciter la caissiere celine pour
son accueil chaleureux et souriant du samedi 16 fevrier
malgre la foule incroyable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. felicitations
• Avantage : huître = huitre, mangé = mange…
(tolérance aux petites fautes d’accentuation)
• Inconvénient : pâté=pâte, Total=total, maïs=mais…
16. Analyse sans
sémantique
• je tenais a feliciter la caissiere celine pour
son accueil chaleureux et souriant du samedi 16 fevrier
malgre la foule incroyable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. felicitations
• Avantage : moins de mots à traiter
• Inconvénient : prépositions, négations, ponctuations
portent des informations perdues ici
17. Analyse sans
sémantique
• je tenais a feliciter la caissiere celine pour
son accueil chaleureux et souriant du samedi 16 fevrier
malgre la foule incroiable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. felicitations
• Avantage : investissement = investir = investisseur,
chine = chinois…
• Inconvénient : sourire = souris, cheval=chevalet…
18. Analyse sans
sémantique
• je tenais a feliciter la caissiere celine pour
son accueil chaleureux et souriant du samedi 16 fevrier
malgre la foule incroiable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. felicitationsa
19. Analyse sans
sémantique
• je tenais à féliciter la caissiére Céline pour
son accueil chaleureux et souriant du samedi 16 février
malgré la foule incroyable ce jour la,
elle a su faire abstraction de cela et garder le sourire et
la bonne humeur. FELICITATIONS
[ abstract, accueil, bon, caiss, celin, chaleur, fair,
felicit*2, fevri, foul, gard, humeur, incroi, jour, samed,
souri*2, su, ten ]
20. Analyse sans
sémantique
[ exploit, system ]
• …les exploiteurs du système…
…le système d’exploitation…
…des exploits systématiques…
…ce système est un exploit…
…les exploitants de ce système…
• Objectif : « meilleure » analyse sémantique !
22. Créer de
l’information
• Comment passer de la « big data » à la « smart data » ?
• La big data correspond à de très grands volumes de données,
proches de l’exhaustivité
• …mais « données » ne veut pas dire information !
• L’analyse sémantique tire de la big data une vision
globale du sens exprimé par les internautes
• Eliminer les résultats non pertinents
• Synthétiser l’information utile
• Automatiser l’analyse des documents
• Faire des stats et des infographies pour votre patron
23. Structurer l’information
L’adresser au bon
destinataire
CEO
Communication des Mouvements, mutations,
dirigeants départs de dirigeants
Direction marketing & Direction de la Direction des ressources
Direction financière Direction juridique Direction logistique/DSI
commerciale communication humaines
Déménagement, rénovation
Activité boursière CRM Gestions des brevets Publicité Politique salariale
siège social
Activité financière : levées de
Pricing Procès Brand management Politique de recrutement Infrastructure physique
fonds, achats, fusions…
Analyse comptable (bilan,
Offre commerciale Affaires & scandales Communication interne Licenciements Infrastructure informatique
résultats) – analyses
Communication B2B Discussions et activité des
Actionnariat Fidélisation Livraison
(partenaires, fournisseurs) partenaires sociaux
Développement international Communication de crise RSE Approvisionnement
Evolutions et tendances Causes : sponsoring, mécénat,
sectorielles humanitaire
Alertes, rappels produits
26. Définir le périmètre
du bilan initial
Où Quand
Quelle typologie de sources et des supports
? blogs, forums, réseaux sociaux
Quelle cadre géographique et linguistique
Comment ? Quoi
27. Définir le périmètre
du bilan initial
Où Quand
Sur quelle durée porte l’étude ? Jusqu’où
faut-il remonter ? Etudie-t-on un
phénomène qui a un ancrage dans le temps
Comment ? Quoi
28. Définir le périmètre
du bilan initial
Où Quand
Quel est le phénomène étudié ? Que veut-
on savoir ? A quoi s’attend-on ? De quoi
parlent les internautes ?
Comment Quoi
29. Définir le périmètre
du bilan initial
Où est le sentiment exprimé Quand
Quel ?
L’internaute est-il positif, négatif ? Y a-t-il
un problème grave, une urgence ?
Comment Quoi
31. Le suivi au quotidien :
Mettre vos flux de données
sous surveillance
• Le bilan initial est un prérequis indispensable à la mise sous
écoute des conversations
• Il permet de définir un point de départ, un étalon pour
comprendre et évaluer les évolutions ultérieures
• Il s’agit ensuite de surveiller les flux identifiés, identifions les
concepts et opinions exprimés, pour remonter en temps réel
l’apparition d’un bad buzz ou d’une situation de crise
32. Le suivi au quotidien :
1. Voix du client
• Qu’il s’agisse de mails, de retranscriptions orales ou
téléphoniques, vos feedbacks clients représentent un
volume considérable d’information à traiter
• L’analyse sémantique permet d’avoir une vision globale
des sujets et problèmes abordés et de répondre aux
questions :
– Quel est le problème le plus fréquent ?
– Où y a-t-il un risque ?
– Que puis-je améliorer dans mon produit ?
– Quelle est la satisfaction globale ?
– Etc.
33. Le suivi au quotidien :
2. Veille économique et
stratégique
• Avec l’avènement du web 2.0, la gestion et l’anticipation
des crises est plus que jamais un enjeu stratégique de
l’entreprise
• En détectant les signaux faibles grâce à une technologie
de clustering sémantique, on peut remonter rapidement
les nouveaux sujets et l’évolution des volumes de
conversation sur les sujets connus
• On peut ainsi détecter, voire anticiper, les risques
(sanitaires, juridiques) associés à une marque
34. Le suivi au quotidien :
3. Veille pour le community
management
• La surveillance des conversations autour d’une marque est une
nécessité absolue pour tout community manager
• L’analyse sémantique permet de suivre les conversations en
ayant une vision globale des problématiques associées à la
marque
• On peut ainsi établir des KPI qualitatifs tels que la mesure du
sentiment (positif ou négatif) associé à la marque ainsi que les
concepts qui lui sont associés
37. 1. Analyse des
besoins
• Objectif : traduire un besoin en stratégie de
recherche opérationnelle
• Méthode :
– Bilan de connaissances de la problématique
– Analyse des process de diffusion et d’appropriation
de l’information
– Définition d’un premier périmètre d’étude
38. 2. Présentation d’un
rapport
intermédiaire
• Objectif : rendre compte de la réalité du
terrain et du volume effectivement disponible
• Méthode :
– Collecte et analyse de l’information par nos outils
– Analyse par un spécialiste des mécanismes
d’opinion
– Production d’un premier rapport macroscopique
des lieux et sujets abordés
39. 3. Discussion et
affinage des besoins
• Objectif : faire coïncider les besoins et la
réalité de l’information disponible
• Méthode :
– Comparaison entre les premières attentes et
l’information effectivement disponible
– Propositions de thématiques à creuser
– Définition du cadre définitif de l’étude
43. Proxem
• Editeur de logiciels d’analyse sémantique pour
l’entreprise
– 2007: création, R&D intensive pendant 3 ans
– 2010: lancement d’Ubiq, clients grands comptes
– 2011: levée de fonds, passage sur Windows Azure
• Apprentissage rapide de nouveaux domaine
• Partenariats