1. Opinion Mining
ou « sentiment analysis »
Où en est-on ?
Reputation-Day 2012, Innovation Meeting
Hôtel Lutetia le 26 octobre 2012
bernard@normier.fr
2. Notoriété, Réputation, Opinion
• Notoriété
– Suis-je connu ?
– La notoriété peut être immédiate, mais disparaître tout
aussi rapidement
– Mesure : nombre de citations
• Réputation
– Que pense t-on de moi ?
– Quelle opinion a-t-on de moi ?
– La réputation se construit dans le temps
– Mesure : analyse des contenus
bernard@normier.fr e-Réputation Day,
2
Hotel Lutetia, 26 Octobre 2012
3. e-réputation
• Le terme « e-réputation » recouvre à la fois la
notion de notoriété et celle de réputation, dans le
contexte Internet
– Le terme « e-notoriété » n’est pas adopté
– Cf. Google: 5 millions de citations pour e-notoriété contre
600 millions pour e-réputation
• Deux technologies différentes
– «notoriété» = technologies de veille
– «réputation» = technologies d’« opinion mining »
bernard@normier.fr ReputationDay
3
2012 Hôtel Lutetia, 26 Octobre 2012
4. e-réputation: un enjeu capital
• Selon plusieurs études concordantes, en gros, les
3/4 des français sont des internautes
• Les 3/4 des internautes consultent Internet avant
d’acheter un produit
• La moitié des internautes consultent les avis des
autres avant de choisir un produit
• L’analyse des opinions est au cœur de la e-
réputation
bernard@normier.fr ReputationDay
4
2012 Hôtel Lutetia, 26 Octobre 2012
5. Définition
• «opinion mining» ou «sentiment analysis» sont deux
termes équivalents pour désigner des technologies
d’analyse automatique des discours, écrits ou parlés, afin
d’en extraire des informations subjectives comme des
jugements, des évaluations ou des émotions.
• C’est une branche du Natural Language Processing (NLP)
et plus précisément du « text mining ».
bernard@normier.fr ReputationDay
5
2012 Hôtel Lutetia, 26 Octobre 2012
6. Opinions formalisées ou libres
• Opinions formalisées :
– Notes ( 15/20 ) , emoticons, étoiles (*** ) , etc.
– Faciles à utiliser
– Mais information limitée
• Opinions libres :
– Textes de commentaires, avis, tweets, etc
– Videos
– Riches mais difficiles à utiliser
bernard@normier.fr ReputationDay
6
2012 Hôtel Lutetia, 26 Octobre 2012
7. De l’analyse linguistique à l’opinion mining
Mon parcours…
• 12 ans de R&D en NLP sous contrat
• 12 ans de projets
• 12 ans d’édition de logiciel
• Recherche sémantique, text mining, extraction de
connaissances, résumé automatique…
bernard@normier.fr ReputationDay
7
2012 Hôtel Lutetia, 26 Octobre 2012
8. Opinion mining et e-réputation
• C’est un sujet critique mais relativement nouveau dans la
problématique de la e-réputation
• La plupart des systèmes de e-réputation se concentrent
sur la notoriété et l’influence
• L’analyse des opinions se fait souvent par lecture
humaine
bernard@normier.fr ReputationDay
8
2012 Hôtel Lutetia, 26 Octobre 2012
9. Les applications
• Les études marketing : e-réputation
• Le CRM : gestion de la relation clients
• La veille et le «community management»
• La détection de faux avis
bernard@normier.fr ReputationDay
9
2012 Hôtel Lutetia, 26 Octobre 2012
10. Des avis, des commentaires partout…
• Sur les sites d’avis spécialisés ou généralistes
• Sur les réseaux sociaux facebook, twitter, et autres
• Sur les blogs
• Sur les forums
• Dans le commentaires d’articles de presse en ligne
• Dans les e-mails reçus
• Dans les conversations des hot-lines
• Etc.
• 3 milliards de messages par jour (www.gnip.com)
bernard@normier.fr e-Réputation Day,
10
Hotel Lutetia, 26 Octobre 2012
11. Qui s’y intéresse ?
• Grandes entreprises
– En B2B comme en B2C
• PME
– Cf. étude Digimind: 80% des entreprises utilisent les
réseaux sociaux pour leur veille
• Les agences de communication/marketing
bernard@normier.fr ReputationDay
11
2012 Hôtel Lutetia, 26 Octobre 2012
12. Un exemple en B2B
bernard@normier.fr e-Réputation Day,
12
Hotel Lutetia, 26 Octobre 2012
13. Une offre naissante
• Nombreux acteurs aux Etats-Unis
• Plusieurs grands acteurs :
– Google, SAP (Business Objects-InXight) , Microsoft, IBM (SPSS),
Sales Force (Radian6)…
• Et des acteurs de niche :
– Repustate, Lexanalytics, Noopsis, Lingway…
bernard@normier.fr ReputationDay
13
2012 Hôtel Lutetia, 26 Octobre 2012
14. Études traditionnelles versus
Opinion Mining
• Etudes traditionnelles :
– Quantitatives : sondages
• Panel représentatif, bonne connaissance des personnes (CSP)
• Biais possibles, influence de la forme des questions
– Qualitatives
• Entretiens : peu de personnes interrogées
• Opinion mining sur le web :
– Quantitatif et Qualitatif
– Conversations spontanées, souvent très nombreuses
– Mauvaise connaissance des personnes, compensée par le
volume
bernard@normier.fr ReputationDay
14
2012 Hôtel Lutetia, 26 Octobre 2012
15. Exemple
TripAdvisor sur Musée d’Orsay
– 5 600 avis, largement positifs
• Collections magnifiques
• Le plus beau musée de Paris
• L’accueil est bien organisé
• Etc.
– Mais en négatif
- Dommage que les lustres soient
poussiéreux
- Les gardiens sont lourds
- Ambiance désagréable à cause de
l’interdiction de photographier
- Etc.
bernard@normier.fr ReputationDay
15
2012 Hôtel Lutetia, 26 Octobre 2012
16. Opinion = ei, aij, sijkl, hk, tt
Définition du Pr. Bing Liu, Université de Chicago
• e (entity) désigne une entité
• a (aspect) désigne un aspect ou une caractéristique
de l’entité
• s désigne un sentiment sur un aspect a de l’entité e
• h (holder) désigne celui qui émet l’opinion
• t (time) désigne le moment où l’opinion est émise
bernard@normier.fr ReputationDay
16
2012 Hôtel Lutetia, 26 Octobre 2012
17. Opinion = ei, aij, sijkl, hk, tt : Exemple
Avis de Toto77, le 9 Octobre 2012
« Hôtel très décevant. Les chambres sont sombres et petites.
Mais mes enfants ont trouvé que le déjeuner était bon ».
Trois opinions, sur trois « aspects » de l’hôtel :
1- e=hotel, a=0, s=négatif:décevant, h= toto77, t=9 oct
2- e=hotel, a= chambre, négatif:petit, h=toto77, t=9 oct
3- e=hotel, a= dejeuner, positif:très bon, h=toto77, t < 9 oct
bernard@normier.fr ReputationDay
17
2012 Hôtel Lutetia, 26 Octobre 2012
18. Le facteur E = entité
• Cas simples : le message est clairement relatif à une
seule entité
– Souvent les cas des sites d’avis
• Cas complexes : plusieurs entités dans le message ou
dans la conversation
– forums, commentaires
bernard@normier.fr ReputationDay
18
2012 Hôtel Lutetia, 26 Octobre 2012
19. Le facteur A = aspect
• Une caractéristique particulière de l’entité
• Dans la plupart des messages, plusieurs
aspects sont discutés
• Peut dépendre des objectifs de l’analyse
– « Hôtel de la Plage. La chambre est sale, le tapis est plein
de tâches ».
bernard@normier.fr ReputationDay
19
2012 Hôtel Lutetia, 26 Octobre 2012
20. Le facteur S = sentiment
• Evaluations factuelles
– La chambre est propre : fait positif
– La machine fait beaucoup de bruit: fait négatif
• Avis
– J’ai trouvé que la chambre n’était pas assez propre
– La machine fait trop de bruit
• Evaluations émotionnelles
– J’ai détesté cette chambre crasseuse
– J’ai toujours aimé le plat du jour de ce restaurant
bernard@normier.fr ReputationDay
20
2012 Hôtel Lutetia, 26 Octobre 2012
21. Le facteur H = opinion holder
• C’est celui qui donne un avis
• Peut être anonyme ou non
• Est-ce une personne influente ?
• Est-ce une personne sincère ?
– Problème (majeur) des faux avis
– Voir certains algorithmes pour les repérer
bernard@normier.fr ReputationDay
21
2012 Hôtel Lutetia, 26 Octobre 2012
22. Le facteur T = temps
• Connaître la date de l’opinion est important
• Sa portée dans le temps varie selon les supports :
– Twitter : temps court
– Google standard : temps long
– Medias : temps variable selon la source
– Réseaux sociaux : temps long
• La portée de l’opinion dans le temps est fonction de
son audience :
– Les Re-tweets augmentent l’audience et allongent la
portée
– Le Page Rank de Google tient compte, entre autres, du
nombre de liens entrants
bernard@normier.fr ReputationDay
22
2012 Hôtel Lutetia, 26 Octobre 2012
23. Catégorisation/normalisation
• Les chambres sont très sales
• La saleté de la chambre est insupportable
• Le tapis de la chambre est sali
• La piaule est crasseuse
• La chambre est tout sauf propre
• Forme de surface / Forme lemmatisée :
– sales/sale ; saleté/saleté ; sali / salir ; crasseuse / crasseux
• Catégorisation :
– SALETE = sale, salir, saleté; Familier = crasseux; Contraire = PROPRETE
bernard@normier.fr ReputationDay
23
2012 Hôtel Lutetia, 26 Octobre 2012
24. L’analyse de la langue
• Positifs ou négatifs selon le contexte syntaxique :
– Ce dispositif permet de tester l’efficacité : neutre
– Ce dispositif permet d’augmenter l’efficacité : positif
– Une efficacité incroyable : positif
– L’efficacité de cette machine est très limitée : négatif
• Positifs ou négatifs selon le contexte sémantique :
– Cet homme est nerveux / cette voiture est nerveuse
• Positifs ou négatifs selon le point de vue :
– Cette formule a permis d’augmenter les prix
bernard@normier.fr ReputationDay
24
2012 Hôtel Lutetia, 26 Octobre 2012
25. Subjectivité des avis
• L’avis d’un agent de voyage sur les avis de clients…
– le commentaire écrit semble trop subjectif. Les gens
doivent apprendre à choisir un hôtel selon ses besoins :
une nuit en transit ? une nuit romantique ? une nuit pour
affaire ? etc… Nous voyons parfois des commentaires
négatifs sur la décoration de la chambre concernant des
hôtels de chaînes très économiques. Du grand n’importe
quoi. On ne peut pas avoir un « Palace » pour un prix
discount.
bernard@normier.fr ReputationDay
25
2012 Hôtel Lutetia, 26 Octobre 2012
26. Mise en œuvre d’un projet d’opinion mining
• Quelle est la granularité nécessaire ?
• Quel est le périmètre métier ?
• Quels types de messages/documents ?
• Quelles conditions d’usage ?
• Quels outils ?
• Quel ROI attendu ?
bernard@normier.fr ReputationDay
26
2012 Hôtel Lutetia, 26 Octobre 2012
27. Quelle granularité ?
• Cas simple : une seule entité, un seul auteur
– C’est le cas de la plupart des avis sur Internet
• Plus délicat : plusieurs entités dans le même texte
– Souvent le cas de commentaires de blogs, de
messages CRM
– Il faut identifier les différentes entités visées
– Décomposer le texte en autant de verbatims
– Puis agréger par entité
bernard@normier.fr ReputationDay
27
2012 Hôtel Lutetia, 26 Octobre 2012
28. Quel périmètre métier ?
• Utiliser la terminologie du métier
• Recenser les caractéristiques des entités
intéressantes à suivre:
– Hôtel : accueil, propreté, restauration, services,
prix…
– Auto : consommation, esthétique, confort,
sécurité, prix
bernard@normier.fr ReputationDay
28
2012 Hôtel Lutetia, 26 Octobre 2012
29. Quels types de documents ?
• Longs ou courts ?
– Tweets, commentaires de blogs, fils de forums
• Niveau de langue ?
– Français standard, type SMS, argotique, « jeunes »?
• Structuré ou non ?
– Titre + texte , texte seul, etc.
• Provenance
– Via un clavier, transcription speech to text ?
• Quelles langues ?
– La qualité des systèmes actuels est très dépendante des
langues
bernard@normier.fr ReputationDay
29
2012 Hôtel Lutetia, 26 Octobre 2012
30. Quelles conditions d’usage ?
• Automatique sans révision :
– Seule solution si les volumes sont grands
– Vérification de qualité sur échantillons
• Avec révision :
– Qualité de l’interface de révision
– Gains de productivité
bernard@normier.fr ReputationDay
30
2012 Hôtel Lutetia, 26 Octobre 2012
31. Quels outils ?
• Critères d’évaluation des outils :
– Autonomes ou intégrés
– Temps de réponse (études vs veille)
• Méthode d’évaluation :
– Eliminer la subjectivité des évaluateurs
– Avoir plusieurs évaluateurs indépendants
– Comparer les résultats des évaluateurs entre eux, puis
entre chacun et le système
bernard@normier.fr ReputationDay
31
2012 Hôtel Lutetia, 26 Octobre 2012
32. Quel ROI ?
• ROI direct :
– ROI par rapport à un suivi et une analyse manuelle
– Comparaison par rapport à des sondages
• ROI indirect :
– Vitesse de réaction (temps réél)
– Largeur du périmètre observé, fonction de veille
– Possibilités d’intervention (community management)
bernard@normier.fr ReputationDay
32
2012 Hôtel Lutetia, 26 Octobre 2012
33. Le problème des faux avis
• On ne peut pas ignorer ce phénomène
– Défaut de jeunesse ou inhérent à l’internet ?
• Traçabilité de l’auteur
– Cf. politiques de Twitter, FaceBook, etc.
• Analyse du contenu
– Certains algorithmes pistent les faux messages par
l’analyse du contenu (peu de détails, utilisation du « je »,
etc … )
• Projet de norme de l’AFNOR
– Fiabilité des avis sur Internet
bernard@normier.fr ReputationDay
33
2012 Hôtel Lutetia, 26 Octobre 2012
34. Ce que je vous souhaite…
bernard@normier.fr
bernard@normier.fr e-Réputation Day,
34
Hotel Lutetia, 26 Octobre 2012