Apresentação de mestrado realizada em 03/2013. Investigação sobre a utilização de Redes Neurais Artificiais para a classificação de opiniões / análise de sentimentos. Dissertação completa em: http://biblioteca.asav.org.br/vinculos/000007/0000073C.pdf
Publicação paper: http://www.sciencedirect.com/science/article/pii/S0957417412009153
Aplicação de um sistema fuzzy para classificação de opinião em diferentes dom...
Uma Investigação Empírica e Comparativa da Aplicação de RNAs ao Problema de Mineração de Opiniões e Análise de Sentimentos
1. Uma Investigação Empírica e
Comparativa da Aplicação de RNAs
ao Problema de Mineração de
Opiniões e Análise de Sentimentos
Rodrigo de Moraes
Orientador: Prof. Dr. João F. Valiati
Universidade do Vale do Rio dos Sinos – UNISINOS
Programa Interdisciplinar de Pós-Graduação em Computação Aplicada – PIPCA
Março de 2013
2. Introdução
• Mudanças no modelo de compra (e-commerce)
• Necessidade de opiniões de outros consumidores
• Aumento da prática de manifestação de opiniões
• Importância para as empresas na identificação de
falhas em produtos e serviços e novas demandas de
mercado
2
3. Introdução
• Necessidade de desenvolvimento de ferramental
para análise automática
• Mineração de Opiniões e Análise de Sentimentos
▫ Identificação de polaridade
▫ Identificação de tópicos
▫ Identificação de emissor/influenciador
3
4. Motivação
• A popularização de estudos para a identificação de
polaridade em opiniões
• Poucos trabalhos investigam outras técnicas de
aprendizado de máquina, sendo a mais popular da
literatura o SVM
• Bases de dados opinativos se caracterizam por
apresentarem um desequilíbrio da quantidade de
amostras em função das classes
4
5. Objetivo
Realizar uma investigação empírica e
comparativa entre o modelo clássico de RNAs,
Multilayer Perceptron, e os classificadores
clássicos da literatura, SVM e NB, aplicados ao
problema de Mineração de Opiniões e Análise de
Sentimentos considerando os contextos
balanceado e desbalanceado de bases de dados.
5
6. Fundamentação Teórica
• Mineração Textual
• Identificação de polaridade de opinião
• Processo de descoberta do conhecimento em BD
Processo de Descoberta do Conhecimento em Bases de Dados
6
7. Fundamentação Teórica
• Classificadores
▫ Multinomial Naïve Bayes (NB)
Técnica probabilística
Treinamento
Definição da probabilidade a priori
Definição da probabilidade likelihood
Classificação
Cálculo da probabilidade a posteriori
7
8. Fundamentação Teórica
• Classificadores
▫ Support Vector Machines (SVM)
Mapeamento de amostras em espaço dimensional
Dimensões definidas pelas características (termos)
Separação linear e não-linear
Utilização de um produto de KernelSeparação de amostras e identificação dos
Support Vectors (adaptada de Burges, 1998)
8
9. Fundamentação Teórica
• Classificadores
▫ Redes Neurais Artificias (RNAs)
Aprendizado supervisionado e
não-supervisionado
Rede de neurônios
matemáticos interconectados
dividida em camadas
Redes Multilayer Perceptron
feedforward
Treinamento: atualização dos
pesos entre os neurônios
Algoritmo de treinamento
Backpropagation
Estrutura de uma RNA
9
10. Trabalhos Relacionados
• Pang et al., 2002
▫ Um dos primeiros trabalhos a investigar e compara
técnicas de para a identificação de polaridade
▫ Diversas técnicas para a representação das opiniões
▫ Para a classificação: SVM, NB e Maximum Entropy(ME)
▫ Melhores resultados com SVM e representação com
unigramas, 82,9%
• He et al., 2011
▫ Resultado do estado da arte sobre a base construída por
Pang e Lee, 2004
▫ Representação utilizando uma técnica que considera a
coocorrência dos termos
▫ A técnica proposta associada ao classificador ME conseguiu
uma acurácia de 94,8%
Visão Geral
10
11. Trabalhos Relacionados
• Chen et al., 2011
▫ Aplicação de RNAs em Mineração de Opiniões e Análise de
Sentimentos
▫ Utiliza técnicas de Orientação Semântica para a
representação das opiniões
▫ Resultados apresentam média de 69,6% de acurácia
• Bespalov, 2011
▫ Método de combinação de técnicas para a redução de
dimensionalidade
▫ Utilização de RNAs para a representação dos documentos
▫ Resultados não superaram os das representações via
unigramas e bigramas para a identificação de polaridade
de sentimento (92,2%)
RNAs
11
12. Trabalhos Relacionados
• Li et al., 2011
▫ Proposta de técnica semi-supervisionada para o contexto
de bases desbalanceadas em Mineração de Opiniões
▫ Compara a técnica proposta com técnicas clássicas de
tratamento do desbalanceamento (under e oversampling)
▫ A técnica proposta superou as demais técnicas
• Burns et al., 2011
▫ Comparação de classificadores no contexto desbalanceado
em Mineração de Opiniões (NB e Language Model)
▫ Utilização das métricas recall e precision considerando as
classes individualmente
▫ Ambos os classificadores mostraram expressiva dificuldade
na classificação de amostras da classe minoritária, com o
NB mostrando uma pequena vantagem
Contexto desbalanceado
12
13. Trabalhos Relacionados
Diferenciais
• Pang et al., 2002 e He et al., 2011 (Visão geral)
▫ Não utilizaram RNAs
▫ Utilização de métricas simples de avaliação
• Chen et al., 2011 (RNAs)
▫ Não considera o contexto desbalanceado
▫ Não compara RNAs com outros classificadores
• Bespalov, 2011 (RNAs)
▫ Não utiliza RNAs para a classificação
▫ Não considera o contexto desbalanceado
• Li et al., 2011 e Burns et al., 2011 (Desbalanceamento)
▫ Não utilizam RNAs
▫ Especificação dos experimentos pouco detalhada
13
14. Modelagem Aplicada
• Baseada no Processo de Descoberta em Base de
Dados
• Separação da etapa de seleção de termos
Visão Geral da Modelagem Aplicada
14
15. Modelagem Aplicada
• Seleção de bases de dados
▫ Bases:
Filmes (Pang e Lee, 2004 com mais de 80 publicações)
GPS
Livros
Câmeras
▫ 2000 opiniões
▫ Balanceadas entre as classes
15
16. Modelagem Aplicada
• Pré-processamento
▫ Bag-of-words utilizando unigramas
▫ Stemming: Snowball de Porter (2001)
▫ Stopwords com 285 palavras
▫ Utilização da toolbox TMG para MATLAB (Zeimpekis e
Gallopoulos, 2005)
Domínio
Antes do Pré-processamento Após o Pré-processamento
Qnt. de termos
distintos
Média de termos
por opinião
Qnt. de termos
distintos
Média de termos
por opinião
Filmes 39059 665,6 25456 323,2
GPS 10349 171,5 6880 75,2
Livros 16155 189,9 10422 82,6
Câmeras 8679 122,6 5996 53,9
16
17. Modelagem Aplicada
• Seleção de termos
▫ Aplicação da técnica Information Gain - IG
▫ Seleção de diferentes quantidades de termos
melhores classificados
50, 100, 500, 1000, 3000, 4000, 5000
• Transformação
▫ Frequência
▫ TF-IDF
17
18. • Classificadores
▫ NB
Implementação da likelihood, a priori e a posteriori
Utilização da função Log
▫ SVM
LibSVM para MATLAB
𝑐 ∈ [10−1, 103]
Kernel de base radial
▫ RNAs
Toolbox MATLAB
Feed-forward com backpropagation
Early-stopping
Número de neurônios na camada oculta ∈ [15, 55]
3 repetições para evitar mínimos locais
Experimentos
18
19. • Contextos considerados
▫ Balanceado
▫ Desbalanceado
▫ Aplicação de undersampling
• Método para avaliação
▫ 10-fold cross-validation
Para todos os experimentos, as mesmas opiniões de
teste foram consideradas
Experimentos
19
20. • Contextos Balanceado
▫ 900 opiniões de cada classe para o treinamento
▫ Diferentes quantidades de termos selecionados
▫ Métricas utilizadas:
Acurácia
Recall
Precision
Teste de significância t student
Tempo de treinamento
Tempo de classificação/teste
Experimentos
20
21. • Contextos Desbalanceado
▫ Diferentes proporções de desbalanceamento
0,8; 0,6; 0,4 e 0,2
▫ Acurácia para as quantidades de termos em que cada
classificador apresentou os melhores resultados no
contexto balanceado
▫ Diferentes quantidades de termos selecionados para a
menor proporção de desbalanceamento (900p/180n)
▫ Métricas utilizadas:
Acurácia
Recall
Precision
Teste de significância t student
Experimentos
21
22. • Contextos com aplicação de undersampling
▫ 180 opiniões da classe Positivo e 180 da classe
Negativo para treinamento
▫ Diferentes quantidades de termos selecionados
▫ Métricas utilizadas:
Acurácia
Recall
Precision
Teste de significância t student
Experimentos
22
24. Resultados Bases Balanceadas
• Principais observações
▫ A seleção de mais de 1000 termos não resulta em melhores
índices de classificação correta significativos para os
classificadores
▫ Quantidade de termos em torno de 500 e 1000 são boas opções
quando considerados o desempenho e custo computacional
24
25. Resultados Bases Balanceadas
• Principais observações
▫ As RNAs superam o classificador SVM com significância em 13
dos 28 experimentos enquanto o inverso acontece somente em
2 experimentos
▫ Em comparação com o NB, as RNAs superam com significância
em 19 experimentos e são superadas em somente 2
▫ Relação forte da quantidade de termos selecionada e o tempo
de treinamento das RNAs e tempo de classificação do SVM
▫ A análise das métricas recall e precision evidencia que as RNAs
e o SVM apresentam maior dificuldade de classificação em
amostras da classe Negativo. Já o NB inverte esse
comportamento apresentando maiores taxas de recall da classe
Negativo
25
27. Resultados Bases Desbalanceadas
• Principais observações
▫ Menores proporções de desbalanceamento resultam em
menores índices de acerto
▫ O classificador RNAs é o mais sensível à variação da taxa
de desbalanceamento e a inclusão de termos ruidosos
Recall livros(0,2) Precision livros(0,2)
27
28. Resultados Bases Desbalanceadas
• Principais observações
▫ Considerando os experimentos com a menor taxa de
desbalanceamento, as RNAs superaram somente em 6
experimentos o classificador SVM e em nenhum deles o
NB. Já o SVM superou as RNAs em 11 experimentos e o NB
em 24
▫ O desempenho superior do NB é resultado de uma
classificação mais equilibrada entre as classes
considerando os outros classificadores
▫ O SVM se mostra o mais equilibrado com o aumento do
ruído dos termos
28
30. Resultados com Undersampling
• Principais observações
▫ Índices de acurácia mais altos que os do contexto
desbalanceado, mas mais baixos que o do contexto
balanceado
▫ As RNAs voltam a ser superiores significantemente em 5
experimentos em relação ao NB e em 7 ao SVM
▫ Apesar de mais baixos, os resultados revelam uma maior
estabilidade de todos os classificadores com a variação da
quantidade de termos
▫ Com a aplicação de undersampling os classificadores
apresentaram maior dificuldade na classificação de
amostras da classe Positivo
30
31. Discussão dos Resultados
• Em função da não linearidade do problema, o classificador SVM
acaba selecionando um grande número de SVs, resultados em
tempos maiores de classificação em relação aos demais
• A técnica IG apresentou bom desempenho na tarefa de seleção de
termos, reduzindo o tempo de treinamento dos classificadores e
representando o conhecimento com eficiência
• Além das RNAs, o SVM também é beneficiado pela aplicação do
IG, já que a seleção de um grupo menor de termos auxiliou na
discriminação das classes e redução do tempo de classificação
• A necessidade do treinamento de mais de um modelo neural com
a mesma topologia é uma desvantagem em relação ao SVM.
Porém, há trabalhos que investigam o processamento paralelo dos
neurônios (Atakulreka e Sutivong 2007)
Contexto Balanceado
31
32. Discussão dos Resultados
• Em geral, o classificador neural é o mais sensível variação da
proporção de desbalanceamento e a inserção de informações
ruidosas no contexto desbalanceado
• Apesar de apresentar um algoritmo simples em relação aos
demais, o classificador NB apresentou uma impressionante
estabilidade com a variação da taxa de desbalanceamento, sendo
superior ao SVM e as RNAs na maioria de experimentos
• A associação do NB com o IG pode ter sido o principal motivo do
alto desempenho do classificador no contexto desbalanceado
• Mesmo as RNAs sendo competitivas com a aplicação de
undersampling, a baixa quantidade de experimentos significativos
pode não justificar sua aplicação neste contexto frente a
desvantagem de seu tempo de treinamento
Contexto Desbalanceado
32
33. Discussão dos Resultados
• A aplicação de undersampling resultou sempre em melhor
desempenho de todos os classificadores com valores de recall
balanceados entre as classes
• Porém, a aplicação de undersampling dever ser sempre avaliada,
já que os resultados do contexto balanceado são
significativamente melhores e em algumas proporções de
desbalanceamento a aplicação de determinado classificador pode
ser melhor
Aplicação de undersampling
33
34. Conclusões e Contribuições
• Em grande parte dos experimentos considerando a base clássica
de filmes (Pang e Lee, 2004) as RNAs superam o classificador SVM
com significância
• Em experimentos do contexto balanceado pode-se afirmar que o
desempenho de classificação correta das RNAs foi superior ao dos
demais classificadores
• A presença de ruído na representação dos documentos e o
desbalanceamento da base de dados são melhor contornados pelo
classificadores SVM e NB em comparação às RNAs
• Se o tempo de classificação se mostrar mais relevante do que o
de treinamento na aplicação dos classificadores, as RNAs se
mostram competitivas, por serem, neste aspecto, mais rápidas
que o SVM e mais eficientes do que o NB em contextos
balanceados ou que apresentem pouco desbalanceamento
34
35. Conclusões e Contribuições
• A aplicação da técnicas IG se mostrou eficaz, possibilitando a
aplicação das RNAs com a redução do tempo de treinamento e
reduzindo o tempo de classificação do SVM sem necessariamente
remover características de discriminação das amostras
• A realização de pequenas alterações recomendadas no algoritmo
do NB fez com que este classificador apresentasse grande
vantagem frente aos demais no contexto desbalanceado não
apresentando uma classificação tendenciosa
• A aplicação de undersampling se mostrou uma boa solução ao
problema de desbalanceamento dos dados, mas deve ser avaliada
conforme o classificador empregado e a proporção de
desbalanceamento
• Em resumo as RNAs podem ser uma boa alternativa ao problema
de Mineração de Opiniões e Análise de Sentimentos em contextos
balanceados de bases de dados ou com pouco desbalanceamento
35
36. Trabalhos Futuros
• Um estudo comparativo da aplicação de RNAs utilizando-se
abordagens mais sofisticadas para a representação das opiniões
• Inclusão do classificador Maximum Entropy (ME) ao estudo
• Investigação de limiares de corte de ruído dos dados para a
escolha de classificadores
• Estudo com bases de dados maiores em contexto desbalanceado
• Comparação da aplicação de técnicas de oversampling robustas
como a SMOTE
• Realização de experimentos com abordagem de representação
considerando expressões de mais de uma palavra
• Investigação de outros modelos de RNAs que possam se adequar
melhor ao problema em questão
• Comparação entre RNAs e o SVM utilizando a mesma função para
a definição da função de ativação e Kernel
36
37. Publicação
Rodrigo Moraes, João Francisco Valiati, Wilson P.
Gavião Neto. Document-level sentiment
classification: An empirical comparison between
SVM and ANN. Expert Systems with Applications,
Volume 40, Issue 2, 1 February 2013, Pages 621–633
37
38. Referências
▫ ATAKULREKA, A.; SUTIVONG, D. Avoiding local minima in feedforward neural networks by simultaneous learning. In:
AUSTRALIAN JOINT CONFERENCE ON ADVANCES IN ARTIFICIAL INTELLIGENCE, 2007. Proceedings. . . [S.l.: s.n.], 2007. p. 100–
109.
▫ BESPALOV, D.; BAI, B.; QI, Y.; SHOKOUFANDEH, A. Sentiment classification based on supervised latent n-gram analysis. In:
CIKM’11, 2011. p. 375–382.
▫ BURGES, C. J. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, [S.l.], v.
2, p. 121–167, 1998.
▫ BURNS, N.; BI, Y.; WANG, H.; ANDERSON, T. Sentiment Analysis of Customer Reviews: balanced versus unbalanced datasets.
In: Knowledge-Based and Intelligent Information and Engineering Systems. [S.l.]: Springer Berlin / Heidelberg, 2011. p. 161–
170.
▫ CHEN, L.-S.; LIU, C.-H.; CHIU, H.-J. A neural network based approach for sentiment classification in the blogosphere.
Journal of Informetrics, [S.l.], v. 5, n. 2, p. 313 – 322, 2011.
▫ HE, Y.; LIN, C.; ALANI, H. Automatically extracting polarity-bearing topics for cross-domain sentiment classification. In:
ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 49., 2011.
▫ LI, S.; WANG, Z.; ZHOU, G.; LEE, S. Y. M. Semi-supervised Learning for Imbalanced Sentiment Classification. In: INT. JOINT
CONF. ON ARTIFICIAL INTELLIGENCE, 2011. p. 1826–1831.
▫ PANG, B.; LEE, L. A Sentimental Education: sentiment analysis using subjectivity summarization based on minimum cuts. In:
ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 2004. p. 271–278.
▫ PANG, B.; LEE, L.; VAITHYANATHAN, S. Thumbs up? Sentiment Classification using Machine Learning Techniques. In:
CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2002. p. 79–86.
▫ PORTER, M. Snowball: a language for stemming algorithms. 2001.
▫ ROMERO, E.; ALQUÉZAR, R. Comparing error minimized extreme learning machines and support vector sequential feed-
forward neural networks. Neural Netw., Oxford, UK, UK, v. 25, p. 122–129, 2012.
▫ ZEIMPEKIS, D.; GALLOPOULOS, E. TMG: a matlab toolbox for generating term-document matrices from text collections.
2005.
38