Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
2. Resumen
El objetivo del Minado de Opiniones - (OM) es recuperar y
extraer la orientación semántica de un conjunto de textos
para clasificarlos de acuerdo a ella como positivas o
negativas.
Durante la charla desarrollaremos el proceso de
descubrimiento de conocimiento para el dominio de
información de opinión: recuperación y confección del
corpus de opinión, modelado de actores y tópicos,
extracción de frases y textos subjetivos, diseño de modelos
de sentimiento y presentación de resultados.
Discutiremos diferentes particularidades del problema como
el dominio de información, particularidades del canal de
comunicación, audiencia, entre otros.
3. Outline
• Intro & Background
• Modelo Formal
• Subtareas
• Recuperación de Opiniones (Opinion Retrieval)
• Modelos de Análisis de Sentimiento (Sentiment Analysis)
• Resumen (Summarization)
• Problemas y desafíos
• Referencias
4. Intro
• OM es una disciplina relativamente reciente que utiliza
técnicas de IR, AI, ML y NLP para recuperar textos de
opinión e inducir la orientación/polaridad semántica.
• Más informalmente, extraer opiniones y sentimientos de
textos.
• Incluye subtareas como:
• Recuperación de Opiniones (Opinion Retrieval)
• Modelos de Análisis de Sentimiento (Sentiment Analysis)
• Resumen (Summarization)
• La social media es una gran espacio donde se comparten
opiniones y experiencias de consumidores.
5. Opinion Mining is Big Business
!"#$%&'#()*+,*-.%,,#%/01*234
!"#$#%$&'#$#$(&#)&*#(&*+)#$,))
Alguien que quiere comprar una
! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61
cámara
! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/)
• Busca comentarios y reviews.
! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61
Alguien que ya compró una cámara
! =%..,$2)&%$
• Escribe su experiencia.
! >6#2,)&13%+2&20,#6&,?",6#,$5,
• Fanático vs. contra-fanático.
! =1.,61&'1$+9152+6,6
Fabricante
! @,2)&9,,:3158&96%.&5+)2%.,6
• Obtiene feedback de los
! A."6%;,&20,#6&"6%:+52)
consumidores.
! B:<+)2&'168,2#$(&-2612,(#,)
• Mejora de los productos.
• Adapta estrategias de márketing.!
6. Otras aplicaciones Opinion Mining
Ads placements
• Relevar e identificar la ubicación para imprimir un ad en la
social media.
• Teniendo en cuenta opiniones de la página huésped.
• Opiniones propias y de la competencia.
Influencia y Reputación
• Identificar usuarios líderes y formadores de opinión.
• Predecir compra de usuarios.
Opinion Spam
• Identificar opiniones falsas.
• Identificar usuarios falsos/sesgados.
8. El vestido de Venus
!"#$%&'#()*+,*-.%,,#%/01*234
!"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+
!
9. Online social media sentiment apps
• Twitter sentiment: http://twittersentiment.appspot.com/
• Twends: http://twendz.waggeneredstrom.com/
• Twittratr: http://twitrratr.com/
• SocialMention: http://socialmention.com/
• . . . +40 empresas en USA
• Tribatics: http://www.tribatics.com/
• SocialMetrix: http://socialmetrix.com/
• Zenzey: http://www.zenzey.com/
• Ventura*: http://7puentes.com/products/ventura/
10. Online social media sentiment apps - Issues
• Funciona para gente famosa!
• Diferentes estrategias para construir los modelos de
sentiment analysis causan resultados muy dispares.
• Basados en diccionarios, rule-based, SVM, EM, etc.
• Dificultad para separar la polaridad general
• Buzz (menciones) vs. Opiniones.
• Muchas veces funciona muy bien. Y algunas muy mal.
11. Pippa Middleton
Pippa Middleton has revealed the
secret to her perfect figure -
Pilates classes.
http://dlvr.it/S9Cy8
Accuracy of twitter sentiment apps
• TweetFeel: 25 % ⊕, 75 %
• Twendz: no encontró
• TipTop: 42 % ⊕, 11 %
• Twitter Sentiment: 62 % ⊕, 38 %
12. No sólo cámaras y vestidos...
• Películas, obras de teatro, libros, moda.
• Predicciones, tendencias, humor social.
• Monitoreo de opinión pública de acciones de gobierno,
actos de campaña.
• Feedback sobre congresos, eventos, conferencias.
• Monitoreo de catástrofes, accidentes, estado del tránsito,
etc.
• Comportamiento del mercado de valores. Medir el buzz de
acciones, bonos, títulos.
13. ¿La voz del pueblo o de un experto?
Depende de la complejidad de la pregunta. Y de la precisión de
la respuesta.
¿Cuál es la altura del monte
¿Cuál es la capital de España?
Kilimanjaro?
1 Barcelona
1 19,341 ft
2 Madrid
2 23,341 ft
3 Valencia
3 15,341 ft
4 Sevilla
4 21,341 ft
14. No todas las opiniones valen lo mismo
• ¿Cómo medir el valor de una opinión?
• Usuario expertos del dominio.
• Usuario frecuentes.
• Spammer?
• Expertos en un área no necesariamente son expertos en
otra.
Confianza
• Basada en el vínculo (local): User-similarity, entramado
social.
• Basada en la reputación (global): Esta recomendación me ha
sido útil
15. Modelo Formal - Bing Liu
Una opinión tiene estas componentes:
< gi , ajk , soijkl , hi , tl >
Donde:
• gj es el objeto target.
• akj es un aspecto o característica del objeto target.
• soijkl el es valor de la orientación subjetiva que emite el
opinion holder hi , sobre el objeto gj para un aspecto akj en el
momento tl . soijkl puede ser positivo, negativo, neutro o un
score numérico.
• hi es el opinion holder o el autor de la opinión
• tl es el momento en que la opinión es expresada
16. Subtareas
Opinion Retrieval & Extraction
• Recuperar de grandes volúmenes de textos, aquellos que
contienen referencia al objeto.
• Luego identificar el contexto de opinión.
Sentiment Analysis
• Extraer la polaridad de la opinión
• Puede ser positivo-negativo, pos-neg-neutro, o una escala
numérica.
Opinion summarization
• Resumir la opinión general de un conjunto de opiniones o
de una opinón con varias facetas.
• El resumen puede ser una metáfora visual.
17. Opinion Retrieval & Extraction
Me compré una cámara de fotos el día de ayer. Me salió
muy cara, pero saca unas fotos excelentes y la batería
dura mucho.
• Identificar zonas dentro de la página que responden a un
texto de opinión.
• Reglas sintácticas, estructurales del sitio.
• Modelos estadísticos sobre sliding windows.
• Identificación del objeto, marca.
• Contexto fijo y variable.
• Detección de puntos, fin de párrafo, etc.
• ID, hastag, sinónimos, hiperónimos, etc.
18. Sentiment Analysis
Me compré una cámara de fotos el día de ayer. Me salió
muy cara, pero saca unas fotos excelentes y la batería
dura mucho.
• muy cara → negativo.
• fotos excelentes → positivo.
• dura poco → negativo.
• Métodos basados en reglas: diccionarios, boosted weak
rules, etc.
• Modelos de machine learning: SVM, NB, EM.
• Prepos: steming, lematización, extracción de palabras por
función (ADJ, VER, ADV).
19. Opinion summarization
positive CAMERA Picture Battery Zoom Size Weight
• Precio: Negativo
• Fotos: Positivo
• Bateria: Negativo
• Impresión general: 3/10.
negative Digital Camera 1
(A) Feature-based summary of opinions on a digital camera
positive CAMERA Picture Battery Zoom Size Weight
negative Digital Camera 1 Digital Camera 2
(B) Opinion comparison of two digital cameras
Fig. 2. Visualization of feature-based opinion summary and comparison
The summary in Fig. 1 can be easily visualized using a bar chart [10]. Fig. 2(A) shows such a chart. In the
20. Opinion summarization
Ejemplo: AIT en opinión política!
Elecciones legislativas 2009! Controles de Alcoholemia!
Seguimiento Gripe A!
7puentes.com! Análisis Inteligente de Textos!
21. Desafíos
• Opiniones comparativas.
El iphone 4 anda más lento que el Samsung S3
• Modelos de Sentiment Analisis independientes de dominio.
• Resolución de correferencias.
• Frases condicionales.
Si estás buscando un celular muy bueno, comprá un
Nokia.
• Sarcasmo e ironía. Muy presente en blogs y foros de
contenido político.
• Utilidad de la opinión. Tu opinión me ha sido muy útil
22. Opinion spam
• Opiniones falsas, sesgadas, pagas.
• Manipulación de social media. Identidades falsas. Sock
puppetting.
• Detección a partir del comportamiento del autor.
• Individual spammer vs. Group spammer.
• Patrones en la distribución del ranking y en el flujo de
apariciones de nuevas opiniones.
• Opiniones duplicadas. Templates de opiniones.
• Etiquetar el corpus y/o construirlo es muy costoso.
Mechanical turk.
23. Referencias
• Opinion Mining: Exploiting the Sentiment of the Crowd,
Diana Maynard, Adam Funk, Kalina Bontcheva. University
of Sheffield, UK. 1995-2012
• Sentiment Analysis and Opinion Mining, Bing Liu,
AAAI-2011, EACL-2012, and Sentiment Analysis
Symposium, Department of Computer Science, University
Of Illinois at Chicago
• Sentiment Analysis and Opinion Mining. Morgan & Claypool
Publishers. May 2012., Bing Liu.