SlideShare uma empresa Scribd logo
1 de 34
Opinion Mining
 ou « sentiment analysis »
      Où en est-on ?




Reputation-Day 2012, Innovation Meeting
    Hôtel Lutetia le 26 octobre 2012

         bernard@normier.fr
Notoriété, Réputation, Opinion

• Notoriété
  – Suis-je connu ?
  – La notoriété peut être immédiate, mais disparaître tout
    aussi rapidement
  – Mesure : nombre de citations

• Réputation
  –   Que pense t-on de moi ?
  –   Quelle opinion a-t-on de moi ?
  –   La réputation se construit dans le temps
  –   Mesure : analyse des contenus
                     bernard@normier.fr e-Réputation Day,
                                                              2
                         Hotel Lutetia, 26 Octobre 2012
e-réputation

• Le terme « e-réputation » recouvre à la fois la
  notion de notoriété et celle de réputation, dans le
  contexte Internet
   – Le terme « e-notoriété » n’est pas adopté
   – Cf. Google: 5 millions de citations pour e-notoriété contre
     600 millions pour e-réputation

• Deux technologies différentes
   – «notoriété» = technologies de veille
   – «réputation» = technologies d’« opinion mining »


                      bernard@normier.fr ReputationDay
                                                                   3
                      2012 Hôtel Lutetia, 26 Octobre 2012
e-réputation: un enjeu capital

• Selon plusieurs études concordantes, en gros, les
  3/4 des français sont des internautes
• Les 3/4 des internautes consultent Internet avant
  d’acheter un produit
• La moitié des internautes consultent les avis des
  autres avant de choisir un produit
• L’analyse des opinions est au cœur de la e-
  réputation

                   bernard@normier.fr ReputationDay
                                                          4
                    2012 Hôtel Lutetia, 26 Octobre 2012
Définition

• «opinion mining» ou «sentiment analysis» sont deux
  termes équivalents pour désigner des technologies
  d’analyse automatique des discours, écrits ou parlés, afin
  d’en extraire des informations subjectives comme des
  jugements, des évaluations ou des émotions.

• C’est une branche du Natural Language Processing (NLP)
  et plus précisément du « text mining ».


                       bernard@normier.fr ReputationDay
                                                              5
                        2012 Hôtel Lutetia, 26 Octobre 2012
Opinions formalisées ou libres

• Opinions formalisées :
   – Notes ( 15/20 ) , emoticons,  étoiles (*** ) , etc.
   – Faciles à utiliser
   – Mais information limitée

• Opinions libres :
   – Textes de commentaires, avis, tweets, etc
   – Videos
   – Riches mais difficiles à utiliser

                       bernard@normier.fr ReputationDay
                                                              6
                        2012 Hôtel Lutetia, 26 Octobre 2012
De l’analyse linguistique à l’opinion mining


Mon parcours…

• 12 ans de R&D en NLP sous contrat
• 12 ans de projets
• 12 ans d’édition de logiciel

• Recherche sémantique, text mining, extraction de
  connaissances, résumé automatique…




                     bernard@normier.fr ReputationDay
                                                            7
                      2012 Hôtel Lutetia, 26 Octobre 2012
Opinion mining et e-réputation

• C’est un sujet critique mais relativement nouveau dans la
  problématique de la e-réputation

• La plupart des systèmes de e-réputation se concentrent
  sur la notoriété et l’influence

• L’analyse des opinions se fait souvent par lecture
  humaine

                       bernard@normier.fr ReputationDay
                                                              8
                        2012 Hôtel Lutetia, 26 Octobre 2012
Les applications

•   Les études marketing : e-réputation
•   Le CRM : gestion de la relation clients
•   La veille et le «community management»
•   La détection de faux avis




                    bernard@normier.fr ReputationDay
                                                           9
                     2012 Hôtel Lutetia, 26 Octobre 2012
Des avis, des commentaires partout…
•   Sur les sites d’avis spécialisés ou généralistes
•   Sur les réseaux sociaux facebook, twitter, et autres
•   Sur les blogs
•   Sur les forums
•   Dans le commentaires d’articles de presse en ligne
•   Dans les e-mails reçus
•   Dans les conversations des hot-lines
•   Etc.
•   3 milliards de messages par jour (www.gnip.com)

                     bernard@normier.fr e-Réputation Day,
                                                            10
                         Hotel Lutetia, 26 Octobre 2012
Qui s’y intéresse ?

• Grandes entreprises
  – En B2B comme en B2C
• PME
  – Cf. étude Digimind: 80% des entreprises utilisent les
    réseaux sociaux pour leur veille
• Les agences de communication/marketing




                     bernard@normier.fr ReputationDay
                                                            11
                      2012 Hôtel Lutetia, 26 Octobre 2012
Un exemple en B2B




   bernard@normier.fr e-Réputation Day,
                                          12
       Hotel Lutetia, 26 Octobre 2012
Une offre naissante

• Nombreux acteurs aux Etats-Unis
• Plusieurs grands acteurs :
   – Google, SAP (Business Objects-InXight) , Microsoft, IBM (SPSS),
     Sales Force (Radian6)…
• Et des acteurs de niche :
   – Repustate, Lexanalytics, Noopsis, Lingway…




                         bernard@normier.fr ReputationDay
                                                                  13
                          2012 Hôtel Lutetia, 26 Octobre 2012
Études traditionnelles versus
                Opinion Mining

• Etudes traditionnelles :
   – Quantitatives : sondages
      • Panel représentatif, bonne connaissance des personnes (CSP)
      • Biais possibles, influence de la forme des questions
   – Qualitatives
      • Entretiens : peu de personnes interrogées

• Opinion mining sur le web :
   – Quantitatif et Qualitatif
   – Conversations spontanées, souvent très nombreuses
   – Mauvaise connaissance des personnes, compensée par le
     volume
                         bernard@normier.fr ReputationDay
                                                                      14
                          2012 Hôtel Lutetia, 26 Octobre 2012
Exemple
TripAdvisor sur Musée d’Orsay
   – 5 600 avis, largement positifs
      •   Collections magnifiques
      •   Le plus beau musée de Paris
      •   L’accueil est bien organisé
      •   Etc.

   – Mais en négatif
      - Dommage que les lustres soient
        poussiéreux
      - Les gardiens sont lourds
      - Ambiance désagréable à cause de
        l’interdiction de photographier
      - Etc.


                       bernard@normier.fr ReputationDay
                                                              15
                        2012 Hôtel Lutetia, 26 Octobre 2012
Opinion = ei, aij, sijkl, hk, tt

Définition du Pr. Bing Liu, Université de Chicago
• e (entity) désigne une entité
• a (aspect) désigne un aspect ou une caractéristique
  de l’entité
• s désigne un sentiment sur un aspect a de l’entité e
• h (holder) désigne celui qui émet l’opinion
• t (time) désigne le moment où l’opinion est émise


                   bernard@normier.fr ReputationDay
                                                          16
                    2012 Hôtel Lutetia, 26 Octobre 2012
Opinion = ei, aij, sijkl, hk, tt                             : Exemple


Avis de Toto77, le 9 Octobre 2012
« Hôtel très décevant. Les chambres sont sombres et petites.
   Mais mes enfants ont trouvé que le déjeuner était bon ».

Trois opinions, sur trois « aspects » de l’hôtel :

1- e=hotel, a=0, s=négatif:décevant, h= toto77, t=9 oct
2- e=hotel, a= chambre, négatif:petit, h=toto77, t=9 oct
3- e=hotel, a= dejeuner, positif:très bon, h=toto77, t < 9 oct

                        bernard@normier.fr ReputationDay
                                                                           17
                         2012 Hôtel Lutetia, 26 Octobre 2012
Le facteur E = entité

• Cas simples : le message est clairement relatif à une
  seule entité
   – Souvent les cas des sites d’avis

• Cas complexes : plusieurs entités dans le message ou
  dans la conversation
   – forums, commentaires



                      bernard@normier.fr ReputationDay
                                                             18
                       2012 Hôtel Lutetia, 26 Octobre 2012
Le facteur A = aspect

• Une caractéristique particulière de l’entité

• Dans la plupart des messages, plusieurs
  aspects sont discutés

• Peut dépendre des objectifs de l’analyse
   – « Hôtel de la Plage. La chambre est sale, le tapis est plein
     de tâches ».

                       bernard@normier.fr ReputationDay
                                                                    19
                        2012 Hôtel Lutetia, 26 Octobre 2012
Le facteur S = sentiment

• Evaluations factuelles
   – La chambre est propre : fait positif
   – La machine fait beaucoup de bruit: fait négatif
• Avis
   – J’ai trouvé que la chambre n’était pas assez propre
   – La machine fait trop de bruit
• Evaluations émotionnelles
   – J’ai détesté cette chambre crasseuse
   – J’ai toujours aimé le plat du jour de ce restaurant

                   bernard@normier.fr ReputationDay
                                                          20
                    2012 Hôtel Lutetia, 26 Octobre 2012
Le facteur H = opinion holder

• C’est celui qui donne un avis
• Peut être anonyme ou non

• Est-ce une personne influente ?
• Est-ce une personne sincère ?
   – Problème (majeur) des faux avis
   – Voir certains algorithmes pour les repérer


                      bernard@normier.fr ReputationDay
                                                             21
                       2012 Hôtel Lutetia, 26 Octobre 2012
Le facteur T = temps

• Connaître la date de l’opinion est important
• Sa portée dans le temps varie selon les supports :
   –   Twitter : temps court
   –   Google standard : temps long
   –   Medias : temps variable selon la source
   –   Réseaux sociaux : temps long
• La portée de l’opinion dans le temps est fonction de
  son audience :
   – Les Re-tweets augmentent l’audience et allongent la
     portée
   – Le Page Rank de Google tient compte, entre autres, du
     nombre de liens entrants

                       bernard@normier.fr ReputationDay
                                                              22
                        2012 Hôtel Lutetia, 26 Octobre 2012
Catégorisation/normalisation

•   Les chambres sont très sales
•   La saleté de la chambre est insupportable
•   Le tapis de la chambre est sali
•   La piaule est crasseuse
•   La chambre est tout sauf propre


• Forme de surface / Forme lemmatisée :
     – sales/sale ; saleté/saleté ; sali / salir ; crasseuse / crasseux


• Catégorisation :
     – SALETE = sale, salir, saleté; Familier = crasseux; Contraire = PROPRETE

                                  bernard@normier.fr ReputationDay
                                                                                 23
                                   2012 Hôtel Lutetia, 26 Octobre 2012
L’analyse de la langue

• Positifs ou négatifs selon le contexte syntaxique :
   –   Ce dispositif permet de tester l’efficacité : neutre
   –   Ce dispositif permet d’augmenter l’efficacité : positif
   –   Une efficacité incroyable : positif
   –   L’efficacité de cette machine est très limitée : négatif

• Positifs ou négatifs selon le contexte sémantique :
   – Cet homme est nerveux / cette voiture est nerveuse

• Positifs ou négatifs selon le point de vue :
   – Cette formule a permis d’augmenter les prix
                          bernard@normier.fr ReputationDay
                                                                  24
                           2012 Hôtel Lutetia, 26 Octobre 2012
Subjectivité des avis

• L’avis d’un agent de voyage sur les avis de clients…

   – le commentaire écrit semble trop subjectif. Les gens
     doivent apprendre à choisir un hôtel selon ses besoins :
     une nuit en transit ? une nuit romantique ? une nuit pour
     affaire ? etc… Nous voyons parfois des commentaires
     négatifs sur la décoration de la chambre concernant des
     hôtels de chaînes très économiques. Du grand n’importe
     quoi. On ne peut pas avoir un « Palace » pour un prix
     discount.


                      bernard@normier.fr ReputationDay
                                                                 25
                       2012 Hôtel Lutetia, 26 Octobre 2012
Mise en œuvre d’un projet d’opinion mining


•   Quelle est la granularité nécessaire ?
•   Quel est le périmètre métier ?
•   Quels types de messages/documents ?
•   Quelles conditions d’usage ?
•   Quels outils ?
•   Quel ROI attendu ?


                    bernard@normier.fr ReputationDay
                                                           26
                     2012 Hôtel Lutetia, 26 Octobre 2012
Quelle granularité ?

• Cas simple : une seule entité, un seul auteur
   – C’est le cas de la plupart des avis sur Internet

• Plus délicat : plusieurs entités dans le même texte
   – Souvent le cas de commentaires de blogs, de
     messages CRM
   – Il faut identifier les différentes entités visées
   – Décomposer le texte en autant de verbatims
   – Puis agréger par entité
                       bernard@normier.fr ReputationDay
                                                              27
                        2012 Hôtel Lutetia, 26 Octobre 2012
Quel périmètre métier ?

• Utiliser la terminologie du métier

• Recenser les caractéristiques des entités
  intéressantes à suivre:
   – Hôtel : accueil, propreté, restauration, services,
     prix…
   – Auto : consommation, esthétique, confort,
     sécurité, prix

                    bernard@normier.fr ReputationDay
                                                           28
                     2012 Hôtel Lutetia, 26 Octobre 2012
Quels types de documents ?

• Longs ou courts ?
   – Tweets, commentaires de blogs, fils de forums
• Niveau de langue ?
   – Français standard, type SMS, argotique, « jeunes »?
• Structuré ou non ?
   – Titre + texte , texte seul, etc.
• Provenance
   – Via un clavier, transcription speech to text ?
• Quelles langues ?
   – La qualité des systèmes actuels est très dépendante des
     langues
                          bernard@normier.fr ReputationDay
                                                                 29
                           2012 Hôtel Lutetia, 26 Octobre 2012
Quelles conditions d’usage ?

• Automatique sans révision :
  – Seule solution si les volumes sont grands
  – Vérification de qualité sur échantillons

• Avec révision :
  – Qualité de l’interface de révision
  – Gains de productivité

                    bernard@normier.fr ReputationDay
                                                           30
                     2012 Hôtel Lutetia, 26 Octobre 2012
Quels outils ?

• Critères d’évaluation des outils :
   – Autonomes ou intégrés
   – Temps de réponse (études vs veille)

• Méthode d’évaluation :
   – Eliminer la subjectivité des évaluateurs
   – Avoir plusieurs évaluateurs indépendants
   – Comparer les résultats des évaluateurs entre eux, puis
     entre chacun et le système

                      bernard@normier.fr ReputationDay
                                                              31
                       2012 Hôtel Lutetia, 26 Octobre 2012
Quel ROI ?

• ROI direct :
   – ROI par rapport à un suivi et une analyse manuelle
   – Comparaison par rapport à des sondages


• ROI indirect :
   – Vitesse de réaction (temps réél)
   – Largeur du périmètre observé, fonction de veille
   – Possibilités d’intervention (community management)


                        bernard@normier.fr ReputationDay
                                                               32
                         2012 Hôtel Lutetia, 26 Octobre 2012
Le problème des faux avis

• On ne peut pas ignorer ce phénomène
   – Défaut de jeunesse ou inhérent à l’internet ?
• Traçabilité de l’auteur
   – Cf. politiques de Twitter, FaceBook, etc.
• Analyse du contenu
   – Certains algorithmes pistent les faux messages par
     l’analyse du contenu (peu de détails, utilisation du « je »,
     etc … )
• Projet de norme de l’AFNOR
   – Fiabilité des avis sur Internet
                       bernard@normier.fr ReputationDay
                                                                    33
                        2012 Hôtel Lutetia, 26 Octobre 2012
Ce que je vous souhaite…




     bernard@normier.fr
      bernard@normier.fr e-Réputation Day,
                                             34
          Hotel Lutetia, 26 Octobre 2012

Mais conteúdo relacionado

Destaque

B smart free presentation
B smart free presentationB smart free presentation
B smart free presentation
youceff
 
Real Madrid 23/11/10
Real Madrid 23/11/10Real Madrid 23/11/10
Real Madrid 23/11/10
rockvine
 
Presentacion3
Presentacion3Presentacion3
Presentacion3
alizarev
 
ámbito social
ámbito socialámbito social
ámbito social
moronad45
 
Martaperez mi abuela
Martaperez mi abuelaMartaperez mi abuela
Martaperez mi abuela
moronad45
 

Destaque (20)

Congratulations Régie
Congratulations RégieCongratulations Régie
Congratulations Régie
 
Ouverture de la session 
Ouverture de la session Ouverture de la session 
Ouverture de la session 
 
2012 02-09 leccionadultos
2012 02-09 leccionadultos2012 02-09 leccionadultos
2012 02-09 leccionadultos
 
B smart free presentation
B smart free presentationB smart free presentation
B smart free presentation
 
Taller word 2
Taller  word 2Taller  word 2
Taller word 2
 
Real Madrid 23/11/10
Real Madrid 23/11/10Real Madrid 23/11/10
Real Madrid 23/11/10
 
Luose
LuoseLuose
Luose
 
Cadrage focus-composants-v0.1
Cadrage focus-composants-v0.1Cadrage focus-composants-v0.1
Cadrage focus-composants-v0.1
 
Mantenimiento
MantenimientoMantenimiento
Mantenimiento
 
Presentacion3
Presentacion3Presentacion3
Presentacion3
 
2012 02-08 complementario
2012 02-08 complementario2012 02-08 complementario
2012 02-08 complementario
 
Homère
HomèreHomère
Homère
 
Test de vue
Test de vueTest de vue
Test de vue
 
Youfood : Site internet .NET sur PC et Tablette
Youfood : Site internet .NET sur PC et TabletteYoufood : Site internet .NET sur PC et Tablette
Youfood : Site internet .NET sur PC et Tablette
 
ámbito social
ámbito socialámbito social
ámbito social
 
Martaperez mi abuela
Martaperez mi abuelaMartaperez mi abuela
Martaperez mi abuela
 
2011 03-08 leccionadultos-lr
2011 03-08 leccionadultos-lr2011 03-08 leccionadultos-lr
2011 03-08 leccionadultos-lr
 
Los Beneficios de la Prevención en Seguridad Ocupacional
Los Beneficios de la Prevención en Seguridad OcupacionalLos Beneficios de la Prevención en Seguridad Ocupacional
Los Beneficios de la Prevención en Seguridad Ocupacional
 
Assistance technique sur le lieu de vie des personnes âgées dépendantes - Agn...
Assistance technique sur le lieu de vie des personnes âgées dépendantes - Agn...Assistance technique sur le lieu de vie des personnes âgées dépendantes - Agn...
Assistance technique sur le lieu de vie des personnes âgées dépendantes - Agn...
 
C guillermain, marie magdala
C guillermain, marie magdalaC guillermain, marie magdala
C guillermain, marie magdala
 

Opinion mining: où en est-on ?

  • 1. Opinion Mining ou « sentiment analysis » Où en est-on ? Reputation-Day 2012, Innovation Meeting Hôtel Lutetia le 26 octobre 2012 bernard@normier.fr
  • 2. Notoriété, Réputation, Opinion • Notoriété – Suis-je connu ? – La notoriété peut être immédiate, mais disparaître tout aussi rapidement – Mesure : nombre de citations • Réputation – Que pense t-on de moi ? – Quelle opinion a-t-on de moi ? – La réputation se construit dans le temps – Mesure : analyse des contenus bernard@normier.fr e-Réputation Day, 2 Hotel Lutetia, 26 Octobre 2012
  • 3. e-réputation • Le terme « e-réputation » recouvre à la fois la notion de notoriété et celle de réputation, dans le contexte Internet – Le terme « e-notoriété » n’est pas adopté – Cf. Google: 5 millions de citations pour e-notoriété contre 600 millions pour e-réputation • Deux technologies différentes – «notoriété» = technologies de veille – «réputation» = technologies d’« opinion mining » bernard@normier.fr ReputationDay 3 2012 Hôtel Lutetia, 26 Octobre 2012
  • 4. e-réputation: un enjeu capital • Selon plusieurs études concordantes, en gros, les 3/4 des français sont des internautes • Les 3/4 des internautes consultent Internet avant d’acheter un produit • La moitié des internautes consultent les avis des autres avant de choisir un produit • L’analyse des opinions est au cœur de la e- réputation bernard@normier.fr ReputationDay 4 2012 Hôtel Lutetia, 26 Octobre 2012
  • 5. Définition • «opinion mining» ou «sentiment analysis» sont deux termes équivalents pour désigner des technologies d’analyse automatique des discours, écrits ou parlés, afin d’en extraire des informations subjectives comme des jugements, des évaluations ou des émotions. • C’est une branche du Natural Language Processing (NLP) et plus précisément du « text mining ». bernard@normier.fr ReputationDay 5 2012 Hôtel Lutetia, 26 Octobre 2012
  • 6. Opinions formalisées ou libres • Opinions formalisées : – Notes ( 15/20 ) , emoticons,  étoiles (*** ) , etc. – Faciles à utiliser – Mais information limitée • Opinions libres : – Textes de commentaires, avis, tweets, etc – Videos – Riches mais difficiles à utiliser bernard@normier.fr ReputationDay 6 2012 Hôtel Lutetia, 26 Octobre 2012
  • 7. De l’analyse linguistique à l’opinion mining Mon parcours… • 12 ans de R&D en NLP sous contrat • 12 ans de projets • 12 ans d’édition de logiciel • Recherche sémantique, text mining, extraction de connaissances, résumé automatique… bernard@normier.fr ReputationDay 7 2012 Hôtel Lutetia, 26 Octobre 2012
  • 8. Opinion mining et e-réputation • C’est un sujet critique mais relativement nouveau dans la problématique de la e-réputation • La plupart des systèmes de e-réputation se concentrent sur la notoriété et l’influence • L’analyse des opinions se fait souvent par lecture humaine bernard@normier.fr ReputationDay 8 2012 Hôtel Lutetia, 26 Octobre 2012
  • 9. Les applications • Les études marketing : e-réputation • Le CRM : gestion de la relation clients • La veille et le «community management» • La détection de faux avis bernard@normier.fr ReputationDay 9 2012 Hôtel Lutetia, 26 Octobre 2012
  • 10. Des avis, des commentaires partout… • Sur les sites d’avis spécialisés ou généralistes • Sur les réseaux sociaux facebook, twitter, et autres • Sur les blogs • Sur les forums • Dans le commentaires d’articles de presse en ligne • Dans les e-mails reçus • Dans les conversations des hot-lines • Etc. • 3 milliards de messages par jour (www.gnip.com) bernard@normier.fr e-Réputation Day, 10 Hotel Lutetia, 26 Octobre 2012
  • 11. Qui s’y intéresse ? • Grandes entreprises – En B2B comme en B2C • PME – Cf. étude Digimind: 80% des entreprises utilisent les réseaux sociaux pour leur veille • Les agences de communication/marketing bernard@normier.fr ReputationDay 11 2012 Hôtel Lutetia, 26 Octobre 2012
  • 12. Un exemple en B2B bernard@normier.fr e-Réputation Day, 12 Hotel Lutetia, 26 Octobre 2012
  • 13. Une offre naissante • Nombreux acteurs aux Etats-Unis • Plusieurs grands acteurs : – Google, SAP (Business Objects-InXight) , Microsoft, IBM (SPSS), Sales Force (Radian6)… • Et des acteurs de niche : – Repustate, Lexanalytics, Noopsis, Lingway… bernard@normier.fr ReputationDay 13 2012 Hôtel Lutetia, 26 Octobre 2012
  • 14. Études traditionnelles versus Opinion Mining • Etudes traditionnelles : – Quantitatives : sondages • Panel représentatif, bonne connaissance des personnes (CSP) • Biais possibles, influence de la forme des questions – Qualitatives • Entretiens : peu de personnes interrogées • Opinion mining sur le web : – Quantitatif et Qualitatif – Conversations spontanées, souvent très nombreuses – Mauvaise connaissance des personnes, compensée par le volume bernard@normier.fr ReputationDay 14 2012 Hôtel Lutetia, 26 Octobre 2012
  • 15. Exemple TripAdvisor sur Musée d’Orsay – 5 600 avis, largement positifs • Collections magnifiques • Le plus beau musée de Paris • L’accueil est bien organisé • Etc. – Mais en négatif - Dommage que les lustres soient poussiéreux - Les gardiens sont lourds - Ambiance désagréable à cause de l’interdiction de photographier - Etc. bernard@normier.fr ReputationDay 15 2012 Hôtel Lutetia, 26 Octobre 2012
  • 16. Opinion = ei, aij, sijkl, hk, tt Définition du Pr. Bing Liu, Université de Chicago • e (entity) désigne une entité • a (aspect) désigne un aspect ou une caractéristique de l’entité • s désigne un sentiment sur un aspect a de l’entité e • h (holder) désigne celui qui émet l’opinion • t (time) désigne le moment où l’opinion est émise bernard@normier.fr ReputationDay 16 2012 Hôtel Lutetia, 26 Octobre 2012
  • 17. Opinion = ei, aij, sijkl, hk, tt : Exemple Avis de Toto77, le 9 Octobre 2012 « Hôtel très décevant. Les chambres sont sombres et petites. Mais mes enfants ont trouvé que le déjeuner était bon ». Trois opinions, sur trois « aspects » de l’hôtel : 1- e=hotel, a=0, s=négatif:décevant, h= toto77, t=9 oct 2- e=hotel, a= chambre, négatif:petit, h=toto77, t=9 oct 3- e=hotel, a= dejeuner, positif:très bon, h=toto77, t < 9 oct bernard@normier.fr ReputationDay 17 2012 Hôtel Lutetia, 26 Octobre 2012
  • 18. Le facteur E = entité • Cas simples : le message est clairement relatif à une seule entité – Souvent les cas des sites d’avis • Cas complexes : plusieurs entités dans le message ou dans la conversation – forums, commentaires bernard@normier.fr ReputationDay 18 2012 Hôtel Lutetia, 26 Octobre 2012
  • 19. Le facteur A = aspect • Une caractéristique particulière de l’entité • Dans la plupart des messages, plusieurs aspects sont discutés • Peut dépendre des objectifs de l’analyse – « Hôtel de la Plage. La chambre est sale, le tapis est plein de tâches ». bernard@normier.fr ReputationDay 19 2012 Hôtel Lutetia, 26 Octobre 2012
  • 20. Le facteur S = sentiment • Evaluations factuelles – La chambre est propre : fait positif – La machine fait beaucoup de bruit: fait négatif • Avis – J’ai trouvé que la chambre n’était pas assez propre – La machine fait trop de bruit • Evaluations émotionnelles – J’ai détesté cette chambre crasseuse – J’ai toujours aimé le plat du jour de ce restaurant bernard@normier.fr ReputationDay 20 2012 Hôtel Lutetia, 26 Octobre 2012
  • 21. Le facteur H = opinion holder • C’est celui qui donne un avis • Peut être anonyme ou non • Est-ce une personne influente ? • Est-ce une personne sincère ? – Problème (majeur) des faux avis – Voir certains algorithmes pour les repérer bernard@normier.fr ReputationDay 21 2012 Hôtel Lutetia, 26 Octobre 2012
  • 22. Le facteur T = temps • Connaître la date de l’opinion est important • Sa portée dans le temps varie selon les supports : – Twitter : temps court – Google standard : temps long – Medias : temps variable selon la source – Réseaux sociaux : temps long • La portée de l’opinion dans le temps est fonction de son audience : – Les Re-tweets augmentent l’audience et allongent la portée – Le Page Rank de Google tient compte, entre autres, du nombre de liens entrants bernard@normier.fr ReputationDay 22 2012 Hôtel Lutetia, 26 Octobre 2012
  • 23. Catégorisation/normalisation • Les chambres sont très sales • La saleté de la chambre est insupportable • Le tapis de la chambre est sali • La piaule est crasseuse • La chambre est tout sauf propre • Forme de surface / Forme lemmatisée : – sales/sale ; saleté/saleté ; sali / salir ; crasseuse / crasseux • Catégorisation : – SALETE = sale, salir, saleté; Familier = crasseux; Contraire = PROPRETE bernard@normier.fr ReputationDay 23 2012 Hôtel Lutetia, 26 Octobre 2012
  • 24. L’analyse de la langue • Positifs ou négatifs selon le contexte syntaxique : – Ce dispositif permet de tester l’efficacité : neutre – Ce dispositif permet d’augmenter l’efficacité : positif – Une efficacité incroyable : positif – L’efficacité de cette machine est très limitée : négatif • Positifs ou négatifs selon le contexte sémantique : – Cet homme est nerveux / cette voiture est nerveuse • Positifs ou négatifs selon le point de vue : – Cette formule a permis d’augmenter les prix bernard@normier.fr ReputationDay 24 2012 Hôtel Lutetia, 26 Octobre 2012
  • 25. Subjectivité des avis • L’avis d’un agent de voyage sur les avis de clients… – le commentaire écrit semble trop subjectif. Les gens doivent apprendre à choisir un hôtel selon ses besoins : une nuit en transit ? une nuit romantique ? une nuit pour affaire ? etc… Nous voyons parfois des commentaires négatifs sur la décoration de la chambre concernant des hôtels de chaînes très économiques. Du grand n’importe quoi. On ne peut pas avoir un « Palace » pour un prix discount. bernard@normier.fr ReputationDay 25 2012 Hôtel Lutetia, 26 Octobre 2012
  • 26. Mise en œuvre d’un projet d’opinion mining • Quelle est la granularité nécessaire ? • Quel est le périmètre métier ? • Quels types de messages/documents ? • Quelles conditions d’usage ? • Quels outils ? • Quel ROI attendu ? bernard@normier.fr ReputationDay 26 2012 Hôtel Lutetia, 26 Octobre 2012
  • 27. Quelle granularité ? • Cas simple : une seule entité, un seul auteur – C’est le cas de la plupart des avis sur Internet • Plus délicat : plusieurs entités dans le même texte – Souvent le cas de commentaires de blogs, de messages CRM – Il faut identifier les différentes entités visées – Décomposer le texte en autant de verbatims – Puis agréger par entité bernard@normier.fr ReputationDay 27 2012 Hôtel Lutetia, 26 Octobre 2012
  • 28. Quel périmètre métier ? • Utiliser la terminologie du métier • Recenser les caractéristiques des entités intéressantes à suivre: – Hôtel : accueil, propreté, restauration, services, prix… – Auto : consommation, esthétique, confort, sécurité, prix bernard@normier.fr ReputationDay 28 2012 Hôtel Lutetia, 26 Octobre 2012
  • 29. Quels types de documents ? • Longs ou courts ? – Tweets, commentaires de blogs, fils de forums • Niveau de langue ? – Français standard, type SMS, argotique, « jeunes »? • Structuré ou non ? – Titre + texte , texte seul, etc. • Provenance – Via un clavier, transcription speech to text ? • Quelles langues ? – La qualité des systèmes actuels est très dépendante des langues bernard@normier.fr ReputationDay 29 2012 Hôtel Lutetia, 26 Octobre 2012
  • 30. Quelles conditions d’usage ? • Automatique sans révision : – Seule solution si les volumes sont grands – Vérification de qualité sur échantillons • Avec révision : – Qualité de l’interface de révision – Gains de productivité bernard@normier.fr ReputationDay 30 2012 Hôtel Lutetia, 26 Octobre 2012
  • 31. Quels outils ? • Critères d’évaluation des outils : – Autonomes ou intégrés – Temps de réponse (études vs veille) • Méthode d’évaluation : – Eliminer la subjectivité des évaluateurs – Avoir plusieurs évaluateurs indépendants – Comparer les résultats des évaluateurs entre eux, puis entre chacun et le système bernard@normier.fr ReputationDay 31 2012 Hôtel Lutetia, 26 Octobre 2012
  • 32. Quel ROI ? • ROI direct : – ROI par rapport à un suivi et une analyse manuelle – Comparaison par rapport à des sondages • ROI indirect : – Vitesse de réaction (temps réél) – Largeur du périmètre observé, fonction de veille – Possibilités d’intervention (community management) bernard@normier.fr ReputationDay 32 2012 Hôtel Lutetia, 26 Octobre 2012
  • 33. Le problème des faux avis • On ne peut pas ignorer ce phénomène – Défaut de jeunesse ou inhérent à l’internet ? • Traçabilité de l’auteur – Cf. politiques de Twitter, FaceBook, etc. • Analyse du contenu – Certains algorithmes pistent les faux messages par l’analyse du contenu (peu de détails, utilisation du « je », etc … ) • Projet de norme de l’AFNOR – Fiabilité des avis sur Internet bernard@normier.fr ReputationDay 33 2012 Hôtel Lutetia, 26 Octobre 2012
  • 34. Ce que je vous souhaite… bernard@normier.fr bernard@normier.fr e-Réputation Day, 34 Hotel Lutetia, 26 Octobre 2012