Mineração de opiniões e análise de sentimentos - Pesquisa, desafios e aplicações. Por Matheus Cardoso durante o encontro do Práticas de Software em Feira de Santana/BA.
2. Quem vos fala?
O Blogueiro nas (raríssimas) horas vagas;
O Acesse: blogdomaome.blogspot.com =D
O Jogador de poker às quintas-feiras;
O Fanático por boa música, bons livros e
(muita) tecnologia!
3. Quem vos fala?
O Sofredor Gosto de programação e
engenharia de software;
O Trabalho como desenvolvedor de
software na Total Informática;
4. Quem vos fala?
O Engenheiro de Computação pela UEFS
(2005.1);
O SIECOMP 1 e 3 como palestrante
(Ergonomia) e 2 como ouvinte;
5. Quem vos fala?
O Aluno regular do Mestrado em Ciências da
Computação pela UFBA/UEFS;
O Orientador: Prof. Dr. Angelo Loula
O Co – orientador: Prof. Dr. Matheus Pires
O Minha área de pesquisa: Mineração de opiniões e
análise de sentimentos e “outras cositas más”
7. Agenda
O Introdução
O Por que saber a opinião de outras
pessoas?
O Histórico
O Terminologias
O O problema de analisar sentimentos
O Definições;
O Tipos de opiniões;
O Subjetividade e emoções;
9. Agenda
O O que está envolvido em mineração de
opiniões e análise de sentimentos?
O Document Sentiment Classification
O Sentence Subjectivity and Sentiment
Classification
O Aplicações;
O Sessão final de perguntas;
11. Agenda
O Introdução
O Por que saber a opinião de outras
pessoas?
O Histórico
O Terminologias
O O problema de analisar sentimentos
O Definições;
O Tipos de opiniões;
O Subjetividade e emoções;
12. Por que saber a opinião de outras
pessoas?
O Em qual candidato votar
O Qual carro comprar
O Qual filme assistir
O Qual livro comprar
O Sobre a futura empresa a se candidatar a
uma vaga
O Tudo isso, muito antes da Web
13. Por que saber a opinião de outras
pessoas?
O Com a Web, temos
O Mais informações a serem consultadas;
O Opiniões especializadas e não
especializadas;
14. Por que saber a opinião de outras
pessoas?
O Segundo uma pesquisa feita pelo grupo
Kelsey [6] e por Horrigan [7]:
O 81% dos usuários de internet já fizeram
alguma pesquisa online sobre algum produto;
O Entre 73% e 87% dos usuários dizem que
uma crítica/análise/revisão influenciaram na
compra de um produto;
O 20% a 99% dos consumidores estão dispostos
a pagar mais por um produto 5 estrelas em vez
de um 4 estrelas.
15. Por que saber a opinião de outras
pessoas?
O Informações políticas;
O Segundo Horrigan [8], 31% dos
americanos eram usuários de internet nas
eleições de 2006;
O O mesmo Horrigan [7], relata que a
maioria dos usuários tiveram positivas
experiências na pesquisa em produtos e
nas eleições.
16. Agenda
O Introdução
O Por que saber a opinião de outras
pessoas?
O Histórico
O Terminologias
O O problema de analisar sentimentos
O Definições;
O Tipos de opiniões;
O Subjetividade e emoções;
17. Um breve histórico
O 2001 foi o marco para as pesquisas;
O Os principais fatores para o aumento das
pesquisas foram:
O Advento de métodos de aprendizado de
máquinas;
O Disponibilidade de datasets para o
treino/aprendizado dos algoritmos;
O Oportunidades de mercado que a área
oferece;
19. Agenda
O Introdução
O Por que saber a opinião de outras
pessoas?
O Histórico
O Terminologias
O O problema de analisar sentimentos
O Definições;
O Tipos de opiniões;
O Subjetividade e emoções;
20. Terminologia
O Como é um campo novo de estudo, não
há uma terminologia definida
O São diferentes os termos utilizados:
O Opinion Mining
O Sentiment/Subjectivity Analysis
O Review Mining
O Appraisal extraction
O Affective Computing
22. O que é mineração de opinião?
O É o campo de estudo que analisa as
opiniões, sentimentos, avaliações, atitudes e
emoções de pessoas direcionadas a
produtos, serviços, organizações, indivíduos, pr
oblemas, eventos, tópicos e seus atributos. [3]
23. O que é mineração de opinião?
O É o campo de estudo que analisa as opiniões
de pessoas direcionadas a entidades.
24. O(s) problema(s) de
analisar sentimentos
• Desafios e definições básicas;
• Tipos de opiniões;
• Subjetividade e emoções;
25. O(s) problema(s) de
analisar sentimentos
• Desafios e definições básicas;
• Tipos de opiniões;
• Subjetividade e emoções;
30. O que é uma opinião?
O Primeira definição:
O Uma opinião é uma composição de: um alvo
“g” e um sentimento “s”, positivo, negativo ou
neutro
O O = (g , s)
O Quem é “g” ou o alvo?
O
"produtos, serviços, organizações, indivíduos, p
roblemas, eventos, tópicos e seus atributos"
32. Exemplo
Fragmento retirado de [3]
• O alvo da opinião da sentença (2) é a Canon G12 e o
sentimento é positivo;
• O alvo da opinião sentença (3) é a qualidade da imagem da
Canon G12 e o sentimento é positivo;
34. O que é uma opinião?
O Segunda definição:
O Uma opinião é uma composição de: um alvo
“g”, um sentimento “s”, um titular da opinião “h”
e o tempo “t” em que a opinião foi expressa;
O O = (g, s) -> O = (g, s, h, t)
O Pode piorar, mas paremos por aqui!
38. Tipos de opiniões
O Regular: uma opinião comum
O Direta: é uma opinião que expressa
diretamente um sentimento a um alvo
O “A qualidade da imagem é ótima”
O “A direção do filme é muito boa”
39. Tipos de opiniões
O Regular: uma opinião comum
O Indireta: é uma opinião que expressa
indiretamente um sentimento para um alvo
O “Após a injeção, minhas pernas começaram
a doer”
O “Assim que o serviço foi feito, o carro
começou a dar defeito”
40. O Boa parte da pesquisa realizada em
mineração de opinião foca em opiniões
DIRETAS!
Tipos de opiniões
41. Tipos de opiniões
O Opinião comparativa: expressa uma
relação de similaridade ou diferença entre
dois ou mais alvos;
44. Tipos de opinião
O Opinião explícita é uma opinião regular
direta ou comparativa:
45. Tipos de opinião
O Opinião implícita é uma opinião regular
indireta ou comparativa:
46. O Boa parte da pesquisa realizada em
mineração de opinião foca em opiniões
EXPLÍCITAS!
Tipos de opiniões
47. Subjetividade e emoções
O Subjetividade
O Uma sentença subjetiva expressa
sentimentos pessoais, enquanto que uma
sentença objetiva apresenta fatos;
O Por que saber se uma sentença é
subjetiva ou objetiva?
48. Subjetividade e emoções
O Emoções
O São sentimentos e pensamentos [3];
O Emoções primárias:
amor, alegria, surpresa, raiva, tristeza, me
do [2];
O Cada emoção tem uma intensidade
diferente;
O A força de um sentimento identificado está
diretamente relacionada a uma emoção;
O Como emoções podem ajudar?
52. Resumindo
O Vimos os desafios fundamentais da área;
O Vimos conceitos de opinião e diferentes
tipos;
O Vimos também os conceitos de
subjetividade e emoções e porque são
úteis;
O Mas é importante frisar:
O Todos os conceitos da área ainda não
estão bem definidos;
55. Classificação de sentimentos em nível
de documento é:
O Determinar o sentimento geral de um
documento como positivo ou negativo;
O Esse documento pode ser um texto, uma
postagem, um tweet, uma crítica de
produto, dentre outros.
O Formalizando (e relembrando):
O O = (g, s, h, t)
O O = (GERAL, s, __, __)
O Mas…
56. Hipótese
O O documento somente possui opiniões
direcionada para somente um alvo [3];
O É uma boa hipótese para:
O Críticas de produtos e serviços;
O Não é uma boa hitótese para:
O Forúns;
O Blogs;
57. Classificação de sentimentos
em nível de documento
O Não existe bala de prata!
O Incontáveis abordagens para classificar
sentimentos;
O Algumas técnicas recorrentes [3]:
O Parte do discurso (Part of speech – POS);
O Palavras e frase de sentimentos;
58. Parte do discusso
O Adjetivos são importantes indicadores de
opiniões;
O Advérbios são intensificadores de
adjetivos;
O “O iPhone tem um bom
acabamento, mas a inovação da empresa
está muito ruim. Mas ela não desistirá.”
59. Parte do discusso
O Adjetivos são importantes indicadores de
opiniões;
O Adverbios são intensificadores de
adjetivos;
O “O iPhone tem um bom
acabamento, mas a inovação da empresa
está muito ruim. Mas ela não desistirá.”
Adjetivos
60. Parte do discusso
O Adjetivos são importantes indicadores de
opiniões;
O Adverbios são intensificadores de
adjetivos;
O “O iPhone tem um bom
acabamento, mas a inovação da empresa
está muito ruim. Mas ela não desistirá.”Sentença objetiva
Adjetivos
Advérbio
61. Palavras e frase de
sentimentos
O Identificadas as sentenças com
opiniões, utiliza-se um dicionário de
sentimentos;
O “O iPhone tem um bom
acabamento, mas a inovação da empresa
está muito ruim. Mas ela não desistirá.”Sentença objetiva
Adjetivos
Advérbio
67. Problemas de idiomas
O Análise de sentimentos é sensível ao idioma
de estudo;
O Analise a orientação semântica do seguinte
documento:
O “Volvo has the best cars ever made”
O Agora, analise isso:
O Volvo possède les meilleures voitures jamais
réalisés;
O 沃尔沃有史以来最好的车
68. Resumindo
O Vimos do que se trata a análise de
sentimentos em nível de documento
O Vimos os principais problemas
envolvidos e algumas técnicas para
solucioná-los;
69. Resumindo
O Contudo, extrair opiniões e analisar
sentimentos de um documento inteiro
possui falhas:
O O sentimento geral não é detalhado;
O Blogs e forúns não podem ser analisados
corretamente;
70. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
71. Classificação de sentimentos
em nível de sentenças
O Não há diferença fundamental entre este
nível e o anterior;
O Problema (a ser resolvido):
O Dada uma sentença, determinar se esta
expressa um sentimento
positivo, negativo, neutro ou não expressa
opinião [3];
O É importante saber se uma sentença é
subjetiva ou não;
72. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
73. Subjetividade de sentenças
O Classifica uma sentença em duas
classes: subjetiva ou objetiva [4];
O Sentença objetiva: expressa fatos;
O Sentença subjetiva: expressa opiniões;
O Mas nem sempre é assim!
74. Subjetividade de sentenças
O Wiebe [4] classifica sentenças buscando
a presença de
pronomes, adjetivos, números
cardinais, advérbios.
O “O iPhone tem um bom acabamento, mas
a inovação da empresa é está muito ruim.
Mas ela não desistirá.”
Lembrando: Não há bala de prata!
Sentença objetiva
Adjetivos
Advérbio
75. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
77. Classificação de sentenças
O Hu e Liu [9] utilizaram um dicionário de
sentimentos (Wordnet) para classficar
sentenças;
O Soma a pontuação semântica dos
sentimentos
O +1 para um sentimento positivo
O -1 para um sentimento negativo
78. Classificação de sentenças
O Para o exemplo anterior, temos:
O “O iPhone tem um bom acabamento, mas
a inovação da empresa é está muito ruim.
Mas ela não desistirá.”
O +1 para “bom”;
O -1 para “ruim”
O Resultado: sentença neutra.
79. Classificação de sentenças
O Kim e Hovy [10, 11, 12] utilizaram uma
abordagem similar a de Hu e Liu [9]:
O Multiplica a pontuação semântica dos
sentimentos
O +1 para um sentimento positivo
O -1 para um sentimento negativo
80. Classificação de sentenças
O Para o exemplo anterior com a técnica de
[10,11,12], temos:
O “O iPhone tem um bom acabamento, mas
a inovação da empresa é está muito ruim.
Mas ela não desistirá.”
O +1 para “bom”;
O -1 para “ruim”
O Resultado: sentença negativa.
81. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
82. Sentenças condicionais
O Um problema difícil!
O Segundo Narayanan [5], não existe bala
de prata (ele quase disse nessas
palavras)!
O Uma sentença condicional descreve uma
implicação ou situação hipotética e suas
consequências: causa e efeito [3];
O Exceto por [5], não há muitos trabalhos
que tenham investigado esse problema.
83. Sentenças perguntas (bônus)
O Como identificar opiniões em perguntas?
O Exemplo:
O “Alguém pode me dizer como consertar
esse lento celular Nokia? “
O Até o presente momento da
pesquisa, não foram encontrados
trabalhos nesse campo!
84. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
85. Sarcasmo
O Você achou que sentenças condicionais
e sentenças-pergunta eram difíceis?
O Sarcasmo é mais fácil ainda! ;)
O Poucos trabalhos na área;
O Identificam sarcasmo, mas não
classificam sentimentos;
86. Classificação de sentimentos
em nível de sentenças
• Subjetividade de sentenças;
• Classificação de sentenças;
• Sentenças condicionais;
• Sarcasmo;
• Problemas de idiomas.
87. Problemas de idiomas
O Problema correlato ao de classificação
de sentimentos em nível de documento;
O “Volvo has the best cars ever made”
O 沃尔沃有史以来最好的车
88. Problemas de idiomas
O Estratégias [3]:
O Traduzir sentenças de teste do idioma
alvo para o idioma fonte e daí classifica-
las;
89. Problemas de idiomas
O Estratégias [3]:
O Traduzir sentenças de teste do idioma
fonte para o idioma alvo e daí classifica-
las;
90. Problemas de idiomas
O Estratégias [3]:
O Traduzir um dicionário de sentimentos do
idioma fonte para idioma alvo e construir
um classificador novo;
91. Resumindo
O Para classificar sentenças é preciso:
O Saber se são objetivas ou subjetivas;
O Assumir que uma sentença tenha um
único sentimento para um único alvo;
O Classificar o sentimento de uma sentença
como positivo, negativo, neutro ou sem
opinião;
O Sentenças condicionais são difíceis.
Sentenças-pergunta, mais ainda!
O E o sarcasmo então?
92. Mas e se me aparece isso?
O “Tente o Chrome, pois o Firefox vive
travando”
93. Ou isso?
O “Câmeras Leica tem boas lentes. Ótimo
obturador. Péssimos preços.”
96. Aplicações
O Sites de análises/críticas e relacionados
(Review-Related Websites)
O Subcomponente (Sub-Component
Technology)
O Inteligência Empresarial e
Governamental (Business and
Government Intelligence)
97. Aplicações sobre sites de
análises/críticas
O Pró-ativamente reunir informações sobre
O Análises de produtos
O Opiniões sobre candidatos
O Problemas políticos
O Resumir (sumarize) análises de usuários
sobre os tópicos acima (e outros mais)
Positivo
Negativo
Neutro
98. Aplicações em inteligência
empresarial e governamental,
O “Por que os consumidores não estão
comprando nosso laptop?”
O Extração de opiniões de documentos não
estruturados (blogs, redes sociais)
O Predição de vendas [13]
O Monitoramento de comunicação hostil ou
negativa [14]
104. Android / iOS / Windows
Phone
O Stocks Sentiment [28];
O Triposo [29];
O Twelect [30];
O Apptrace [31];
105. Referências
O [1] B. Pang, “Opinion Mining and Sentiment Analysis,” Foundations and Trends® in Information
Retrieval, vol. 1, no. 2, pp. 91–231, 2008.
O [2] Parrott, W. Gerrod. Emotions insocial psychology: Essentialreadings2001: Psychology Pr.
O [3] Liu, Bing. Sentiment Analysis and Subjectivity, in Handbook of Natural Language
Processing, Second Edition, N. Indurkhya and F.J. Damerau, Editors. 2010
O [4] Wiebe, Janyce, Rebecca F. Bruce, and Thomas P. O'Hara. Development and use of a gold-
standard data set for subjectivity classifications. in Proceedings of the Association for
Computational Linguistics (ACL-1999). 1999
O [5] Narayanan, Ramanathan, Bing Liu, and Alok Choudhary. Sentiment analysis of conditional
sentences. in Proceedings of Conference on Empirical Methods in Natural Language Processing
(EMNLP-2009). 2009
O [6] comScore/the Kelsey group, “Online consumer-generated reviews have sig- nificant impact
on offline purchase behavior,” Press Release, http://www.
comscore.com/press/release.asp?press=1928, November 2007
O [7] J. A. Horrigan, “Online shopping,” Pew Internet & American Life Project Report, 2008.
O [8] L. Rainie and J. Horrigan, “Election 2006 online,” Pew Internet & American Life Project
Report, January 2007.
106. Referências
O [9] Hu, Minqing and Bing Liu. Mining and summarizing customer reviews. in
Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining (KDD-2004). 2004.
O [10] Kim, Soo-Min and Eduard Hovy. Crystal: Analyzing predictive opinions on the
web. in Proceedings of the Joint Conference on Empirical Methods in Natural
Language Processing and Computational Natural Language Learning
(EMNLP/CoNLL-2007).
O [11] 2007.150. Kim, Soo-Min and Eduard Hovy. Determining the sentiment of
opinions. in Proceedings ofInterntional Conference on Computational Linguistics
(COLING-2004).
O [12] 2004.151. Kim, Soo-Min and Eduard Hovy. Extracting opinions, opinion
holders, and topics expressed in online news media text. in Proceedings of the
Conference on Empirical Methods in Natural Language Processing (EMNLP-2006).
2006.
O [13] G. Mishne and N. Glance, “Predicting movie sales from blogger sentiment,” in
AAAI Symposium on Computational Approaches to Analysing Weblogs (AAAI-
CAAW), pp. 155–158, 2006.
O [14] A. Abbasi, “Affect intensity analysis of dark web forums,” in Proceedings of
Intelligence and Security Informatics (ISI), pp. 282–288, 2007.
O [15] M. Efron, “Cultural orientation: Classifying subjective documents by cocia- tion
[sic] analysis,” in Proceedings of the AAAI Fall Symposium on Style and Meaning in
Language, Art, Music, and Design, pp. 41–48, 2004.
107. Referências
O [16] C. Cardie, C. Farina, T. Bruce, and E. Wagner, “Using natural language processing to
improve eRulemaking,” in Proceedings of Digital Government Research
O [17] J. G. Conrad and F. Schilder, “Opinion mining in legal blogs,” in Proceedings of the
International Conference on Artificial Intelligence and Law (ICAIL), pp. 231–236, New
York, NY, USA: ACM, 2007.
O [18] http://sentistrength.wlv.ac.uk/
O [19] http://sentiwordnet.isti.cnr.it/
O [20] http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
O [21] http://nltk.org/
O [22] http://www.clips.ua.ac.be/pattern
O [23] http://www.sentiment140.com/
O [24] http://www.tweetfeel.com/
O [25] http://chatterbox.co/
O [26] http://topsy.com/
O [27] http://www.opinioncrawl.com/
O [28]
https://play.google.com/store/apps/details?id=com.ravisekhar.kopparthi.stocksntmnt&hl=pt_
BR
O [29] http://www.triposo.com/
O [30 http://www.twelect.com/
O [31] http://www.apptrace.com/
Notas do Editor
Falarqueéumaárea de IA e quevocêvaifalarmuitoem ALGORITMOS, CLASSIFICADORES, APRENDIZADO, DATASETS (CONJUTOS DE DADOS), etc.Muitacoisaseráditapor alto parafacilitar o entendimento e paraquenãoviole o pré-requisito de nãoterpré-requisito.
Emvermelhoéparalembrarque a QUADRUPLA PODE (E VIRA) UMA QUINTUPLA. Fala da importanciadessaestruturacao.
Vimosdesafios dos sentimentosseremsubjetivos, fontesdiversas e nãoestruturadas e definicao de opiniao.
SUPERLATIVO
Respondedizendoqueéimportanteseparar o joio do trigo, pois a probabilidade de sentençassubjetivas de teremopiniõesémaiorqueobjetiva.Diminui o tempo de aprendizado e aumenta a precisão.
Nãoesquece de falarque as tecnicaspararesolucao de problemas de dominiosaomuitodificeis e quenormalmenteusam ELEMENTOS PIVOT (Interseccao de palavras e sentimentosmaisfalados, frequentes, etc.)
Nãoesquece de falarque as tecnicaspararesolucao de problemas de idiomaseraofaladasmais a frente.
Lembraquevocênãofalou antes e vaifalar agora. Além disso, comovcjáfalou, nãohádiferença fundamental entre um nível e outro.