SlideShare uma empresa Scribd logo
1 de 22
 20 octobre 10 Analyse automatique de la e-Réputation Hugues de Mazancourt Directeur Technique Lingway
La e-Réputation 1,7 milliards d’internautes et 133 millions de bloggeurs dans le monde (source Technorati) 227 millions d’internautes, 32 millions de bloggeurs et 58 millions de membres de réseaux sociaux aux Etats-Unis (source Universal Mc Cann) 35  millions d’internautes en France ( Médiamétrie, décembre 09) 5 millions de bloggeurs et 10 millions de membres de réseaux sociaux en France (source Universal Mc Cann) 900 000 nouveaux « post » chaque jour (source Technorati) 285 000 nouveaux avis consommateurs publiés chaque jour - 20 octobre 10 Journée IliaTech 2 Illustration CNDP  - dossier « identité numérique, quels enjeux pour l’école » - sept.2010
Pour le meilleur et pour le pire - 20 octobre 10 Journée IliaTech 3
A Lingway, la e-Réputation, c’est: Un produit: LINGWAY e-Réputation Proposé directement à des entreprises soucieuses de suivre leur image sur Internet Banques, « réputation employeur », automobile Ou en partenariat avec des agences de communication Grande consommation Un projet de R&D collaborative : iPinion En partenariat Permettant de renforcer les bases théoriques du produit … et de permettre des expérimentations - 20 octobre 10 Journée IliaTech 4
Le projet iPinion La réunion de 3 expertises : Lingway : Traitement Automatique des Langues Pikko : cartographie de données complexes Medialab de Sciences Po : étude des usages des TIC 2 entreprises beta-testeurs Moêt Hennessy Radio France Thèmes de recherche Analyser automatiquement l’opinion dans les textes (Lingway) Analyser & cartographier les réseaux d’opinion (Pikko) Qu’est-ce qu’un échantillon représentatif du Web (médialab) ? - 20 octobre 10 Journée IliaTech 5
Processus d’analyse de la e-Réputation - 20 octobre 10 Journée IliaTech 6
Collecter les données Méthode « search » plutôt que « bouquet » « Syndrome du réverbère » Sur la thématique de l’étude À partir d’une liste de mots clés, sur une plage de temps Types de sources Web (sites, blogs, forums…) via des moteurs de recherche Twitter + ses liens Facebook Videos (Dailymotion, Youtube ) Sites d’avis (Ciao) Enrichissement du catalogue de sources Black-lists, par exemple petites annonces, offres d’emploi Conservation de données complémentaires sur les sources - 20 octobre 10 Journée IliaTech 7
La question du document La tradition (et les moteurs de recherche) nous a habitués à raisonner en « pages », mais est-ce le bon degré d’analyse ? Plusieurs unités sur une page Un commentaire sur un blog n’a pas la même valeur que le post lui-même a priori moins Pas plus qu’un commentaire sur un site de revue, par rapport à la présentation du produit ici, il semble avoir plus de poids que le « post » Une n-ième reprise d’un article a-t-elle le même poids que l’article initial? Cf. les « RT » sur twitter Pas de réponse théorique à l’heure actuelle - 20 octobre 10 Journée IliaTech 8
Plus prosaïquement… Nettoyer les pages Supprimer les publicités, bandeaux de navigation, etc. pour garder le « vrai » contenu Découper les pages Isoler le post des commentaires Détecter les dates et auteurs des commentaires … et plus généralement de la page Le tout avec une portée généraliste (« tout-terrain »)  utilisation d’heuristiques sur la forme du document et de grammaires locales sur le texte Ce n’est pas un sujet théorique très exploré, pourtant, c’est le point d’entrée indispensable à une analyse correcte - 20 octobre 10 Journée IliaTech 9
Cartographie d’influence - 20 octobre 10 Journée IliaTech 10 Cartographie technologie Pikko
Utilisation de Lingway KM Utilisation des capacités sémantiques du moteur pour trouver des verbatims qui correspondent à des thématiques de la grille Sans avoir à énumérer toutes les formulations possibles Utilisation des fonctions de text-mining pour découvrir de nouvelles thématiques Ces thématiques vont pouvoir enrichir la grille Sur des aspects durables ou éphémères (buzz) - 20 octobre 10 Journée IliaTech 11
Moteur sémantique - 20 octobre 10 Journée IliaTech 12
Identification de thèmes émergents - 20 octobre 10 Journée IliaTech 13
Extraction d’adjectifs par banque - 20 octobre 10 Journée IliaTech 14 Caisse d’épargne BNP LCL HSBC
Autres extractions - 20 octobre 10 Journée IliaTech 15 Discours officiel de la marque Discours des internautes
Identifier et mesurer les opinions Opinion =  Evaluation + thème Les frais d’ouverture de compte sont trop élevés J’ai remarqué un effort d’amabilité de la hot-line Le service n’est pourtant pas totalement déshumanisé  Identifier les thèmes Thèmes connus que l’on veut surveiller > « grille d’analyse » Thème inconnus que le système peut découvrir Identifier les évaluations Analyse linguistique des polarités positives ou négatives des verbatims  nécessité d’une analyse linguistique à la fois fine et robuste - 20 octobre 10 Journée IliaTech 16
Les limites de l’interprétation - 20 octobre 10 Journée IliaTech 17
Portail d’accès aux résultats - 20 octobre 10 Journée IliaTech 18 Etude « banques » de Juillet 2010
LINGWAY e-Réputation: bénéfices Une plateforme intégrée  De l’acquisition à la présentation Pour le suivi de tous types de sources Web, réseaux sociaux, avis consommateurs Proposant une analyse quantitative Par source, par pays, par période … Et qualitative Grâce à l’analyse linguistique permettant L’identification des thématiques L’association thème – objet L’analyse des tonalités - 20 octobre 10 Journée IliaTech 19
One more thing… - 20 octobre 10 Journée IliaTech 20
Prochaines étapes Segmentation des auteurs Age, CSP, … Argument mining Savoir pourquoi les utilisateurs sont ou non contents Pour pouvoir ajuster le discours Mais aussi prévenir les crises en détectant des singularités dans les arguments avancés  Cf. page Facebook Nestlé - 20 octobre 10 Journée IliaTech 21
Merci - 20 octobre 10 Journée IliaTech 22

Mais conteúdo relacionado

Destaque

eModeration - Stories from the Field
eModeration - Stories from the FieldeModeration - Stories from the Field
eModeration - Stories from the FieldMichael Coghlan
 
UX & UI Design behind SDL’s Customer Experience Cloud
UX & UI Design behind SDL’s Customer Experience CloudUX & UI Design behind SDL’s Customer Experience Cloud
UX & UI Design behind SDL’s Customer Experience CloudPhilipp Engel
 
LinkingBrand croissance digitale
LinkingBrand croissance digitaleLinkingBrand croissance digitale
LinkingBrand croissance digitalePierre Bizollon
 
Form via web 2.0 et pédagogie
Form via web 2.0 et pédagogieForm via web 2.0 et pédagogie
Form via web 2.0 et pédagogieFormaVia
 
LinkingBrand Audit Digital 360
LinkingBrand Audit Digital 360LinkingBrand Audit Digital 360
LinkingBrand Audit Digital 360Pierre Bizollon
 
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...FÖHR Agentur für Innovationskulturen
 
Karlsruhe Meetin Indoor 2014 Startlists
Karlsruhe Meetin Indoor 2014 StartlistsKarlsruhe Meetin Indoor 2014 Startlists
Karlsruhe Meetin Indoor 2014 StartlistsAlberto Stretti
 

Destaque (9)

eModeration - Stories from the Field
eModeration - Stories from the FieldeModeration - Stories from the Field
eModeration - Stories from the Field
 
UX & UI Design behind SDL’s Customer Experience Cloud
UX & UI Design behind SDL’s Customer Experience CloudUX & UI Design behind SDL’s Customer Experience Cloud
UX & UI Design behind SDL’s Customer Experience Cloud
 
Linking a brand´s DNA to a companys strategy the role played by identity and...
 Linking a brand´s DNA to a companys strategy the role played by identity and... Linking a brand´s DNA to a companys strategy the role played by identity and...
Linking a brand´s DNA to a companys strategy the role played by identity and...
 
Répondre aux avis sur tripadvisor
Répondre aux avis sur tripadvisorRépondre aux avis sur tripadvisor
Répondre aux avis sur tripadvisor
 
LinkingBrand croissance digitale
LinkingBrand croissance digitaleLinkingBrand croissance digitale
LinkingBrand croissance digitale
 
Form via web 2.0 et pédagogie
Form via web 2.0 et pédagogieForm via web 2.0 et pédagogie
Form via web 2.0 et pédagogie
 
LinkingBrand Audit Digital 360
LinkingBrand Audit Digital 360LinkingBrand Audit Digital 360
LinkingBrand Audit Digital 360
 
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...
Sketchnotes für Mutige. Natürlich können Sie nicht sooo gut zeichnen, aber Si...
 
Karlsruhe Meetin Indoor 2014 Startlists
Karlsruhe Meetin Indoor 2014 StartlistsKarlsruhe Meetin Indoor 2014 Startlists
Karlsruhe Meetin Indoor 2014 Startlists
 

Semelhante a E Reputation Lingway

Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Moteurs de recherche, finir avec les idées reçues
Moteurs de recherche, finir avec les idées reçuesMoteurs de recherche, finir avec les idées reçues
Moteurs de recherche, finir avec les idées reçuesAref Jdey
 
Veille, les outils qui font gagner du temps
Veille, les outils qui font gagner du tempsVeille, les outils qui font gagner du temps
Veille, les outils qui font gagner du tempsechangeurba
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Franck Queyraud
 
Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...
 Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En... Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...
Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...juriconnexion
 
SAPIENS 2009 - Module 13 Part2
SAPIENS 2009 - Module 13 Part2SAPIENS 2009 - Module 13 Part2
SAPIENS 2009 - Module 13 Part2Christophe RUDELLE
 
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.media
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.mediaFormation découvrabilité ISOC Québec - 30 avril 2021 | metaD.media
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.mediaJean-Robert Bisaillon
 
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBibliolab
 
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...Christophe Poupet
 
Seo camp day montreal tendances de la recherche - complet
Seo camp day montreal   tendances de la recherche - completSeo camp day montreal   tendances de la recherche - complet
Seo camp day montreal tendances de la recherche - completPriscilleGiani
 
Les tendances du web
Les tendances du webLes tendances du web
Les tendances du webEmblematic
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le webQuentin Adam
 
Veille 5 Information à Valeur AjoutéE
Veille 5 Information à Valeur AjoutéEVeille 5 Information à Valeur AjoutéE
Veille 5 Information à Valeur AjoutéEUniversité de Metz
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Bruno Teboul
 

Semelhante a E Reputation Lingway (20)

Recherche
RechercheRecherche
Recherche
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Recherche
RechercheRecherche
Recherche
 
Moteurs de recherche, finir avec les idées reçues
Moteurs de recherche, finir avec les idées reçuesMoteurs de recherche, finir avec les idées reçues
Moteurs de recherche, finir avec les idées reçues
 
Veille, les outils qui font gagner du temps
Veille, les outils qui font gagner du tempsVeille, les outils qui font gagner du temps
Veille, les outils qui font gagner du temps
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
 
Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...
 Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En... Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...
Qu est ce que le web 2.0. Par Veronique Mesguich - Responsable Infotheque En...
 
SAPIENS 2009 - Module 13 Part2
SAPIENS 2009 - Module 13 Part2SAPIENS 2009 - Module 13 Part2
SAPIENS 2009 - Module 13 Part2
 
Wurfing8
Wurfing8Wurfing8
Wurfing8
 
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.media
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.mediaFormation découvrabilité ISOC Québec - 30 avril 2021 | metaD.media
Formation découvrabilité ISOC Québec - 30 avril 2021 | metaD.media
 
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique MesguichBnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
 
Référencement 2.0 et 3.0
Référencement 2.0 et 3.0Référencement 2.0 et 3.0
Référencement 2.0 et 3.0
 
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
 
Recherche
RechercheRecherche
Recherche
 
Seo camp day montreal tendances de la recherche - complet
Seo camp day montreal   tendances de la recherche - completSeo camp day montreal   tendances de la recherche - complet
Seo camp day montreal tendances de la recherche - complet
 
Les tendances du web
Les tendances du webLes tendances du web
Les tendances du web
 
Introduction à la veille sur le web
Introduction à la veille sur le webIntroduction à la veille sur le web
Introduction à la veille sur le web
 
Veille 5 Information à Valeur AjoutéE
Veille 5 Information à Valeur AjoutéEVeille 5 Information à Valeur AjoutéE
Veille 5 Information à Valeur AjoutéE
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.
 

E Reputation Lingway

  • 1. 20 octobre 10 Analyse automatique de la e-Réputation Hugues de Mazancourt Directeur Technique Lingway
  • 2. La e-Réputation 1,7 milliards d’internautes et 133 millions de bloggeurs dans le monde (source Technorati) 227 millions d’internautes, 32 millions de bloggeurs et 58 millions de membres de réseaux sociaux aux Etats-Unis (source Universal Mc Cann) 35 millions d’internautes en France ( Médiamétrie, décembre 09) 5 millions de bloggeurs et 10 millions de membres de réseaux sociaux en France (source Universal Mc Cann) 900 000 nouveaux « post » chaque jour (source Technorati) 285 000 nouveaux avis consommateurs publiés chaque jour - 20 octobre 10 Journée IliaTech 2 Illustration CNDP - dossier « identité numérique, quels enjeux pour l’école » - sept.2010
  • 3. Pour le meilleur et pour le pire - 20 octobre 10 Journée IliaTech 3
  • 4. A Lingway, la e-Réputation, c’est: Un produit: LINGWAY e-Réputation Proposé directement à des entreprises soucieuses de suivre leur image sur Internet Banques, « réputation employeur », automobile Ou en partenariat avec des agences de communication Grande consommation Un projet de R&D collaborative : iPinion En partenariat Permettant de renforcer les bases théoriques du produit … et de permettre des expérimentations - 20 octobre 10 Journée IliaTech 4
  • 5. Le projet iPinion La réunion de 3 expertises : Lingway : Traitement Automatique des Langues Pikko : cartographie de données complexes Medialab de Sciences Po : étude des usages des TIC 2 entreprises beta-testeurs Moêt Hennessy Radio France Thèmes de recherche Analyser automatiquement l’opinion dans les textes (Lingway) Analyser & cartographier les réseaux d’opinion (Pikko) Qu’est-ce qu’un échantillon représentatif du Web (médialab) ? - 20 octobre 10 Journée IliaTech 5
  • 6. Processus d’analyse de la e-Réputation - 20 octobre 10 Journée IliaTech 6
  • 7. Collecter les données Méthode « search » plutôt que « bouquet » « Syndrome du réverbère » Sur la thématique de l’étude À partir d’une liste de mots clés, sur une plage de temps Types de sources Web (sites, blogs, forums…) via des moteurs de recherche Twitter + ses liens Facebook Videos (Dailymotion, Youtube ) Sites d’avis (Ciao) Enrichissement du catalogue de sources Black-lists, par exemple petites annonces, offres d’emploi Conservation de données complémentaires sur les sources - 20 octobre 10 Journée IliaTech 7
  • 8. La question du document La tradition (et les moteurs de recherche) nous a habitués à raisonner en « pages », mais est-ce le bon degré d’analyse ? Plusieurs unités sur une page Un commentaire sur un blog n’a pas la même valeur que le post lui-même a priori moins Pas plus qu’un commentaire sur un site de revue, par rapport à la présentation du produit ici, il semble avoir plus de poids que le « post » Une n-ième reprise d’un article a-t-elle le même poids que l’article initial? Cf. les « RT » sur twitter Pas de réponse théorique à l’heure actuelle - 20 octobre 10 Journée IliaTech 8
  • 9. Plus prosaïquement… Nettoyer les pages Supprimer les publicités, bandeaux de navigation, etc. pour garder le « vrai » contenu Découper les pages Isoler le post des commentaires Détecter les dates et auteurs des commentaires … et plus généralement de la page Le tout avec une portée généraliste (« tout-terrain »)  utilisation d’heuristiques sur la forme du document et de grammaires locales sur le texte Ce n’est pas un sujet théorique très exploré, pourtant, c’est le point d’entrée indispensable à une analyse correcte - 20 octobre 10 Journée IliaTech 9
  • 10. Cartographie d’influence - 20 octobre 10 Journée IliaTech 10 Cartographie technologie Pikko
  • 11. Utilisation de Lingway KM Utilisation des capacités sémantiques du moteur pour trouver des verbatims qui correspondent à des thématiques de la grille Sans avoir à énumérer toutes les formulations possibles Utilisation des fonctions de text-mining pour découvrir de nouvelles thématiques Ces thématiques vont pouvoir enrichir la grille Sur des aspects durables ou éphémères (buzz) - 20 octobre 10 Journée IliaTech 11
  • 12. Moteur sémantique - 20 octobre 10 Journée IliaTech 12
  • 13. Identification de thèmes émergents - 20 octobre 10 Journée IliaTech 13
  • 14. Extraction d’adjectifs par banque - 20 octobre 10 Journée IliaTech 14 Caisse d’épargne BNP LCL HSBC
  • 15. Autres extractions - 20 octobre 10 Journée IliaTech 15 Discours officiel de la marque Discours des internautes
  • 16. Identifier et mesurer les opinions Opinion = Evaluation + thème Les frais d’ouverture de compte sont trop élevés J’ai remarqué un effort d’amabilité de la hot-line Le service n’est pourtant pas totalement déshumanisé Identifier les thèmes Thèmes connus que l’on veut surveiller > « grille d’analyse » Thème inconnus que le système peut découvrir Identifier les évaluations Analyse linguistique des polarités positives ou négatives des verbatims  nécessité d’une analyse linguistique à la fois fine et robuste - 20 octobre 10 Journée IliaTech 16
  • 17. Les limites de l’interprétation - 20 octobre 10 Journée IliaTech 17
  • 18. Portail d’accès aux résultats - 20 octobre 10 Journée IliaTech 18 Etude « banques » de Juillet 2010
  • 19. LINGWAY e-Réputation: bénéfices Une plateforme intégrée De l’acquisition à la présentation Pour le suivi de tous types de sources Web, réseaux sociaux, avis consommateurs Proposant une analyse quantitative Par source, par pays, par période … Et qualitative Grâce à l’analyse linguistique permettant L’identification des thématiques L’association thème – objet L’analyse des tonalités - 20 octobre 10 Journée IliaTech 19
  • 20. One more thing… - 20 octobre 10 Journée IliaTech 20
  • 21. Prochaines étapes Segmentation des auteurs Age, CSP, … Argument mining Savoir pourquoi les utilisateurs sont ou non contents Pour pouvoir ajuster le discours Mais aussi prévenir les crises en détectant des singularités dans les arguments avancés Cf. page Facebook Nestlé - 20 octobre 10 Journée IliaTech 21
  • 22. Merci - 20 octobre 10 Journée IliaTech 22