APLICAÇÃO DE UM SISTEMA FUZZY PARA
CLASSIFICAÇÃO DE OPINIÃO EM
DIFERENTES DOMÍNIOS
Matheus Cardoso de Andrade Silva
Orient...
SUMÁRIO
➤Introdução
➤Metodologia
➤Resultados
➤Referências
2
INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ Opiniões influenciam o comportamento humano
➤ A internet e a web potencializaram essa in...
INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ A quantidade e a diversidade de fontes tornou-se muito
grande
➤ Opiniões são carregadas...
INTRODUÇÃO: OBJETIVO
➤ Desenvolver e avaliar uma metodologia de classificação
do sentimento geral das opiniões em documento...
INTRODUÇÃO
➤ Objetivos específicos:
➤ Selecionar domínios para avaliação da proposta
➤ Levantar e definir características a ...
METODOLOGIA
7
METODOLOGIA
➤ "Mineração de opinião é o campo de estudo que analisa as
opiniões, sentimentos, avaliações, atitudes e emoçõ...
METODOLOGIA
➤ Em geral, se divide em três níveis de análise:
➤ Nível de análise de documento
➤ Nível de análise de sentenç...
METODOLOGIA
10
METODOLOGIA : DEFINIÇÃO DO DOMÍNIO
➤ Bases de dados em inglês
➤ Cornell Movies Reviews 2.0 (Pang and Lee, 2004)
➤ you don'...
METODOLOGIA
12
METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Tokenização
"Size: slightl...
METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Tokenização
“Size/NN: slig...
METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Adjetivos e advérbios isol...
METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Tokenização
“Size/NN: slig...
METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Tokenização
[slightly/RB l...
METODOLOGIA
18
METODOLOGIA : TRANSFORMAÇÃO
➤ Um valor numérico é associado cada n-grams
➤ Uso de dicionários de opiniões
➤ SentiWordNet 3...
METODOLOGIA : TRANSFORMAÇÃO
➤ Uso da abordagem de palavras fora de contexto (Guerrine,
2013)
➤ Polaridade final: média dos ...
METODOLOGIA : TRANSFORMAÇÃO - UNIGRAMS
➤ Unigrams são buscados em suas formas flexionadas
➤ Múltiplas ocorrências de um ter...
METODOLOGIA : TRANSFORMAÇÃO - BIGRAMS
➤ A polaridade de bigrams e trigrams dependerá dos
modificadores
➤ A polaridade de um...
METODOLOGIA : TRANSFORMAÇÃO
[slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ,
not/RB rightfully/RB bad/JJ]
[(sligh...
METODOLOGIA : TRANSFORMAÇÃO
➤ Negação, um caso especial
➤ Inversão
➤ Pol(bad) = -0.44006
➤ Mod(rightfully) = 15%
➤ Pol (ri...
METODOLOGIA : TRANSFORMAÇÃO
[slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ,
not/RB rightfully/RB bad/JJ]
[(sligh...
METODOLOGIA
26
METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Extraímos características dos documentos utilizando as
polaridades d...
METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Por exemplo:
➤ Soma (não normalizada), soma normalizada e contagem d...
METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
[slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ,
not/RB right...
METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Reduzir a dimensionalidade dos vetores de características
➤ Menor te...
METODOLOGIA
31
METODOLOGIA: CLASSIFICAÇÃO
32
METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Eliminação dos outliers
33
METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Formato do conjunto fuzzy: triangular
➤ Duas modelagens foram defini...
METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Segunda modelagem: 2 conjuntos fuzzy na entrada
35
METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Modelagem para as variáveis de saída
➤ N = Negativo, P = Positivo
36
METODOLOGIA: CLASSIFICAÇÃO
37
METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ O Método de Wang-Mendel
[c1,c2,c3, … ,0.83532, … ,cn]
+ Regra k
SE an...
METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ Eliminação de regras duplicadas
➤ Eliminação de regras conflitantes
R1...
METODOLOGIA: CLASSIFICAÇÃO
40
METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Clássico (MRFC)
➤ Método de Raciocínio Fu...
METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Clássico (MRFC)
42
METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Clássico (MRFC) C/ Pesos
✕ Peso1
✕ Pesos
...
METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Geral (MRFG)
44
METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Geral (MRFG) C/ Pesos
✕ Peso1
Pesos ✕
45
METODOLOGIA
46
METODOLOGIA: AVALIAÇÃO
➤ 10-folds cross validation
➤ Folds estratificados
➤ Medidas (Fawcett, 2006):
➤ Acurácia = (TP + TN)...
RESULTADOS
48
RESULTADOS
➤ Para 3 e 2 conjuntos fuzzy, avaliamos:
➤ Os algoritmos de seleção de características
➤ Os métodos de raciocín...
RESULTADOS: 3 CONJUNTOS FUZZY - BASE CORNELL
50
RESULTADOS: 3 CONJUNTOS FUZZY - BASE AMAZON
51
RESULTADOS: 3 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Em ambas as bases, o melhor resultado do c4.5 (com altura 1
com MRFG ...
RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
➤ Duas características se destacaram
➤ Diferença entre as somas positiva e...
RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas pos...
RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas pos...
RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas pos...
RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas pos...
RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ MRFG produz melhores melhores percentuais de acurácia que
o MRFC
...
RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ Destaque o MRFG, usando pesos e o c4.5 com altura 1:
➤ Cornell
➤ ...
RESULTADOS: 2 CONJUNTOS FUZZY - BASE CORNELL
60
RESULTADOS: 2 CONJUNTOS FUZZY - BASE AMAZON
61
RESULTADOS: 2 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Os pesos para 3 conjuntos mostrou que o conjunto MÉDIO
estava reduzin...
RESULTADOS: 2 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ Não há diferenças significativas entre MRFC e MRFG
➤ Em alguns cas...
RESULTADOS: AVALIAÇÃO DO USO DE REGRAS ENTRE DOMÍNIOS
➤ Epinions como base de testes
➤ Nenhuma adaptação foi feita às regr...
RESULTADOS: COMPARAÇÃO COM SVM
Cornell
Amazon
65
CONCLUSÃO 66
CONCLUSÃO
➤ Essa pesquisa propôs e avaliou uma metodologia de
classificação de sentimento geral de opiniões em documentos,
...
CONCLUSÃO
➤ Os resultados foram promissores de até 72,4% de acurácia
numa validação cruzada de 10 folds.
➤ Talvez um dos p...
CONCLUSÃO
➤ Investigação de características de documentos que podem ser
relevantes para descrever e classificar documentos
...
CONCLUSÃO: TRABALHOS FUTUROS
➤ Construir um conjunto de advérbios melhor, investigar mais a
fundo a influência destes sobre...
CONCLUSÃO: TRABALHOS FUTUROS
➤ Avaliar a metodologia proposta em outras línguas, como o
português brasileiro, para verifica...
REFERÊNCIAS
➤ Liu, B. (2012)

Sentiment Analysis and opinion mining

Synthesis Lectures on Human Language Technologies, 5(...
REFERÊNCIAS
➤ Fawcett, T. (2006)

An introduction of roc analysis

Pattern recognition letters, 27(8):861-874
73
Próximos SlideShares
Carregando em…5
×

Aplicação de um sistema fuzzy para classificação de opinião em diferentes domínios

219 visualizações

Publicada em

Defesa de dissertação de mestrado do curso de Ciência da Computação da Universidade Estadual de Feira de Santana/Universidade Federal da Bahia.

Publicada em: Dados e análise
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
219
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
4
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Aplicação de um sistema fuzzy para classificação de opinião em diferentes domínios

  1. 1. APLICAÇÃO DE UM SISTEMA FUZZY PARA CLASSIFICAÇÃO DE OPINIÃO EM DIFERENTES DOMÍNIOS Matheus Cardoso de Andrade Silva Orientador: Prof. Dr. Angelo Loula Co-orientador: Prof Dr. Matheus Giovanni Pires Mestrado em Ciência da Computação UFBA/UEFS Defesa de Dissertação de Mestrado Feira de Santana, 19/10/2015 1
  2. 2. SUMÁRIO ➤Introdução ➤Metodologia ➤Resultados ➤Referências 2
  3. 3. INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO ➤ Opiniões influenciam o comportamento humano ➤ A internet e a web potencializaram essa influência ➤ Ferramentas foram criadas para expor e registrar opiniões sobre tudo: ➤ Filmes (IMDB) ➤ Produtos (Amazon) 3
  4. 4. INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO ➤ A quantidade e a diversidade de fontes tornou-se muito grande ➤ Opiniões são carregadas de sentimentos ➤ Ex.: É um ótimo celular e tem um acabamento muito bom, mas a bateria é péssima ➤ Para tratar dados impreciso e vagos: Lógica Fuzzy ➤ Contudo, poucos trabalhos foram encontrados aplicando lógica fuzzy em classificação de opinião 4
  5. 5. INTRODUÇÃO: OBJETIVO ➤ Desenvolver e avaliar uma metodologia de classificação do sentimento geral das opiniões em documentos, aplicando um sistema fuzzy automatizado de mineração de opinião associado à extração e seleção de características destes documentos. 5
  6. 6. INTRODUÇÃO ➤ Objetivos específicos: ➤ Selecionar domínios para avaliação da proposta ➤ Levantar e definir características a serem extraídas ➤ Definir e avaliar métodos de seleção de características ➤ Definir metodologia para construção do sistema fuzzy ➤ Definir métodos de raciocínio fuzzy para realizar a classificação dos documentos 6
  7. 7. METODOLOGIA 7
  8. 8. METODOLOGIA ➤ "Mineração de opinião é o campo de estudo que analisa as opiniões, sentimentos, avaliações, atitudes e emoções de pessoas direcionadas a entidades ou alvos, como produtos, serviços, organizações, indivíduos, problemas, eventos, tópicos e seus atributos” (Bing, 2012) 8
  9. 9. METODOLOGIA ➤ Em geral, se divide em três níveis de análise: ➤ Nível de análise de documento ➤ Nível de análise de sentenças ➤ Nível de analise de entidades e seus aspectos ➤ "A qualidade de voz desse telefone é muito boa" 9
  10. 10. METODOLOGIA 10
  11. 11. METODOLOGIA : DEFINIÇÃO DO DOMÍNIO ➤ Bases de dados em inglês ➤ Cornell Movies Reviews 2.0 (Pang and Lee, 2004) ➤ you don't want to be like mike . 
 mike has been doing badly .
 embarrassingly bad . ➤ Amazon Dataset (Baccianella et al., 2010) ➤ "nice camera its really nice camera i had one before and i bought second" ➤ Epinions 1 (Taboada et al., 2011) ➤ "Size: slightly longer than Canon S500 but thinner - so not so bad. Overall the cons are not rightfully bad." 11
  12. 12. METODOLOGIA 12
  13. 13. METODOLOGIA : PRÉ-PROCESSAMENTO ➤ Part of Speech Tagging (POS Tagging) ➤ Definição dos n-grams ➤ Tokenização "Size: slightly longer than Canon S500 but thinner - so not so bad. Overall the cons are not rightfully bad." 13
  14. 14. METODOLOGIA : PRÉ-PROCESSAMENTO ➤ Part of Speech Tagging (POS Tagging) ➤ Definição dos n-grams ➤ Tokenização “Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS are/VBP not/RB rightfully/RB bad/JJ." 14
  15. 15. METODOLOGIA : PRÉ-PROCESSAMENTO ➤ Part of Speech Tagging (POS Tagging) ➤ Definição dos n-grams ➤ Adjetivos e advérbios isolados como unigrams (e.g. decent) ➤ Adjetivos seguidos de advérbios como bigrams ➤ Advérbios seguidos de advérbios como bigrams ➤ Adjetivos seguidos de dois advérbios como trigrams ➤ Tokenização 15
  16. 16. METODOLOGIA : PRÉ-PROCESSAMENTO ➤ Part of Speech Tagging (POS Tagging) ➤ Definição dos n-grams ➤ Tokenização “Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS are/VBP not/RB rightfully/RB bad/JJ." 16
  17. 17. METODOLOGIA : PRÉ-PROCESSAMENTO ➤ Part of Speech Tagging (POS Tagging) ➤ Definição dos n-grams ➤ Tokenização [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] 17
  18. 18. METODOLOGIA 18
  19. 19. METODOLOGIA : TRANSFORMAÇÃO ➤ Um valor numérico é associado cada n-grams ➤ Uso de dicionários de opiniões ➤ SentiWordNet 3.0 (SWN) 19
  20. 20. METODOLOGIA : TRANSFORMAÇÃO ➤ Uso da abordagem de palavras fora de contexto (Guerrine, 2013) ➤ Polaridade final: média dos escores entre os synsets ➤ A polaridade final dos termos é um valor entre -1 e 1 20
  21. 21. METODOLOGIA : TRANSFORMAÇÃO - UNIGRAMS ➤ Unigrams são buscados em suas formas flexionadas ➤ Múltiplas ocorrências de um termo decresce sua polaridade final ➤ Compensação do enviesamento positivo natural em 50% [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] [slightly/RB longer/RB, (thinner/JJR, 0), not/RB so/RB bad/ JJ, not/RB awfully/RB bad/JJ] 21
  22. 22. METODOLOGIA : TRANSFORMAÇÃO - BIGRAMS ➤ A polaridade de bigrams e trigrams dependerá dos modificadores ➤ A polaridade de um bigram é calculada da seguinte maneira (Taboada et al., 2011): ➤ Pol(good) = 0,72259; Pol(very good) = 0,90323 ➤ Pol(longer) = 0; Pol(slightly longer) = 0 22
  23. 23. METODOLOGIA : TRANSFORMAÇÃO [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] [(slightly/RB longer/RB, 0), (thinner/JJR, 0), not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] 23
  24. 24. METODOLOGIA : TRANSFORMAÇÃO ➤ Negação, um caso especial ➤ Inversão ➤ Pol(bad) = -0.44006 ➤ Mod(rightfully) = 15% ➤ Pol (rightfully bad) = -0.50036 ➤ Trigram (not rightfully bad) = -0.50036 = 0.50036 ➤ Deslocamento ➤ Trigram (not rightfully bad) = -0.50036 + 0,75 = 0,24694 24
  25. 25. METODOLOGIA : TRANSFORMAÇÃO [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] [(slightly/RB longer/RB, 0), (thinner/JJR, 0), (not/RB so/RB bad/JJ, 0.46491), (not/RB rightfully/RB bad/JJ, 0.37041)] 25
  26. 26. METODOLOGIA 26
  27. 27. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS ➤ Extraímos características dos documentos utilizando as polaridades dos n-grams da etapa de transformação ➤ 57 características ➤ Três tipos básicos ➤ Somatório ➤ Contagem ➤ E valores máximos 27
  28. 28. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS ➤ Por exemplo: ➤ Soma (não normalizada), soma normalizada e contagem de: ➤ adjetivos positivos ➤ adjetivos negativos ➤ advérbios positivos ➤ advérbios negativos ➤ Diferença entre as somas: ➤ Positivas e negativas de adjetivos e bigrams compostos por advérbio e adjetivo 28
  29. 29. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS [slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ, not/RB rightfully/RB bad/JJ] [(slightly/RB longer/RB, 0), (thinner/JJR, 0), (not/RB so/RB bad/JJ, 0.46491), (not/RB rightfully/RB bad/JJ, 0.37041)] [c1,c2,c3, … ,0.83532, … ,c57] 29
  30. 30. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS ➤ Reduzir a dimensionalidade dos vetores de características ➤ Menor tempo gasto na classificação ➤ Manter ou melhorar o desempenho do classificador ➤ Dois algoritmos foram utilizados (Cintra, 2008): ➤ c4.5 ➤ CFS (Consistency Feature Selection) ➤ Variar a altura da árvore de decisão do c4.5 [c1,c2,c3, … ,0.83532, … ,cn] 30
  31. 31. METODOLOGIA 31
  32. 32. METODOLOGIA: CLASSIFICAÇÃO 32
  33. 33. METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS ➤ Eliminação dos outliers 33
  34. 34. METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS ➤ Formato do conjunto fuzzy: triangular ➤ Duas modelagens foram definidas para as variáveis de entrada ➤ B = Baixo, M = Médio, A = Alto 34
  35. 35. METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS ➤ Segunda modelagem: 2 conjuntos fuzzy na entrada 35
  36. 36. METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS ➤ Modelagem para as variáveis de saída ➤ N = Negativo, P = Positivo 36
  37. 37. METODOLOGIA: CLASSIFICAÇÃO 37
  38. 38. METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS ➤ O Método de Wang-Mendel [c1,c2,c3, … ,0.83532, … ,cn] + Regra k SE antecedentes ENTÃO consequente Grau Rk 38
  39. 39. METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS ➤ Eliminação de regras duplicadas ➤ Eliminação de regras conflitantes R1 : SE Antecedentes1 ENTÃO Consequente1 R2 : SE Antecedentes1 ENTÃO Consequente2 GrauR1 GrauR2 39
  40. 40. METODOLOGIA: CLASSIFICAÇÃO 40
  41. 41. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA ➤ Método de Raciocínio Fuzzy Clássico (MRFC) ➤ Método de Raciocínio Fuzzy Geral (MRFG) ➤ Aplicação e avaliação de uso de pesos nas regras na classificação 41
  42. 42. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA ➤ Método de Raciocínio Fuzzy Clássico (MRFC) 42
  43. 43. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA ➤ Método de Raciocínio Fuzzy Clássico (MRFC) C/ Pesos ✕ Peso1 ✕ Pesos 43
  44. 44. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA ➤ Método de Raciocínio Fuzzy Geral (MRFG) 44
  45. 45. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA ➤ Método de Raciocínio Fuzzy Geral (MRFG) C/ Pesos ✕ Peso1 Pesos ✕ 45
  46. 46. METODOLOGIA 46
  47. 47. METODOLOGIA: AVALIAÇÃO ➤ 10-folds cross validation ➤ Folds estratificados ➤ Medidas (Fawcett, 2006): ➤ Acurácia = (TP + TN) / Total ➤ TPR = TP / (TP + FN) ➤ TNR = TN / (TN + FP) ➤ Wilcoxon signed-rank ➤ Comparação com SVM (Support Vector Machine) 47
  48. 48. RESULTADOS 48
  49. 49. RESULTADOS ➤ Para 3 e 2 conjuntos fuzzy, avaliamos: ➤ Os algoritmos de seleção de características ➤ Os métodos de raciocínio fuzzy ➤ Os pesos nas regras ➤ A quantidade dos conjuntos fuzzy na entrada ➤ As características mais selecionados entre as bases ➤ Comparamos com o SVM ➤ Eficiência das regras entre domínios diferentes 49
  50. 50. RESULTADOS: 3 CONJUNTOS FUZZY - BASE CORNELL 50
  51. 51. RESULTADOS: 3 CONJUNTOS FUZZY - BASE AMAZON 51
  52. 52. RESULTADOS: 3 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO ➤ Em ambas as bases, o melhor resultado do c4.5 (com altura 1 com MRFG C/ Pesos) é maior que o CFS (com MRFG também com pesos) ➤ Cornell ➤ c4.5: 70.05% de acurácia, 70.4% de TNR e 69.7% de TPR em filmes. ➤ CFS: 67.1% de acurácia, 72,6% de TNR, 61,6% de TPR me filmes ➤ Contudo, há resultados bem ruins com c4.5 em ambas as bases ➤ c4.5 c/ altura 1 e MRFC: 54.4% de acurácia na Cornell ➤ c4.5 c/ altura 1 e MRFC: 54.25% de acurácia da Amazon 52
  53. 53. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS ➤ Duas características se destacaram ➤ Diferença entre as somas positiva e negativa de adjetivos e bigrams compostos estritamente por advérbio e adjetivo ➤ Diferença entre as somas positiva e negativa de unigrams e bigrams combinados ➤ c4.5 com altura 1 e MRFG c/ pesos em filmes utilizou somente elas e produziu: ➤ 70,05% de acurácia; 70,4% de TNR; 69,7% de TPR 53
  54. 54. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS Distribuição dos valores da característica "A diferença entre as somas positiva e negativa de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base de Cornell 54
  55. 55. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS Distribuição dos valores da característica "A diferença entre as somas positiva e negativa de unigrams e bigrams" na base de filmes 55
  56. 56. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS Distribuição dos valores da característica "A diferença entre as somas positiva e negativa de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base da Amazon56
  57. 57. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS Distribuição dos valores da característica "A diferença entre as somas positiva e negativa de unigrams e bigrams" na base da Amazon 57
  58. 58. RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA ➤ MRFG produz melhores melhores percentuais de acurácia que o MRFC ➤ Contudo, ambos os métodos apresentam altos desvios padrão em TPR e TNR ➤ O uso de pesos: ➤ Diminuiu bastante esses desvios ➤ Aumentou o desempenho em todos os cenários 58
  59. 59. RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA ➤ Destaque o MRFG, usando pesos e o c4.5 com altura 1: ➤ Cornell ➤ 59,2% para 70,05% de acurácia ➤ 53,8% +- 34,96% para 70,4% +- 7,11% de TNR ➤ 64,6% +- 37,08% para 69,7% +- 9,81% de TPR ➤ Amazon ➤ 60,05% para 70,85% de acurácia ➤ 44,6% +- 35,73% para 76,8% +- 4,57% de TNR ➤ 75,5% +- 34,8% para 64,9% +- 5,5% de TPR 59
  60. 60. RESULTADOS: 2 CONJUNTOS FUZZY - BASE CORNELL 60
  61. 61. RESULTADOS: 2 CONJUNTOS FUZZY - BASE AMAZON 61
  62. 62. RESULTADOS: 2 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO ➤ Os pesos para 3 conjuntos mostrou que o conjunto MÉDIO estava reduzindo o desempenho da classificação ➤ A melhoria dos resultados não foi significativa ➤ A distância dos resultados entre as bases ficou menor ➤ O CFS ainda usou 6 vezes mais características ➤ As mesmas características se destacaram 62
  63. 63. RESULTADOS: 2 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA ➤ Não há diferenças significativas entre MRFC e MRFG ➤ Em alguns casos o MRFC superou o MRFG ➤ c4.5 com altura 2 em ambas as bases ➤ A remoção do conjunto MÉDIO teve o mesmo efeito da aplicação dos pesos ➤ A aplicação dos pesos utilizando 2 conjuntos não melhorou a acurácia final do classificador ➤ Os resultados não foram conclusivos 63
  64. 64. RESULTADOS: AVALIAÇÃO DO USO DE REGRAS ENTRE DOMÍNIOS ➤ Epinions como base de testes ➤ Nenhuma adaptação foi feita às regras ou às características ou aos conjuntos fuzzy 64
  65. 65. RESULTADOS: COMPARAÇÃO COM SVM Cornell Amazon 65
  66. 66. CONCLUSÃO 66
  67. 67. CONCLUSÃO ➤ Essa pesquisa propôs e avaliou uma metodologia de classificação de sentimento geral de opiniões em documentos, aplicando um sistema fuzzy automatizado de mineração de opinião associado à extração e seleção de características destes documentos. 67
  68. 68. CONCLUSÃO ➤ Os resultados foram promissores de até 72,4% de acurácia numa validação cruzada de 10 folds. ➤ Talvez um dos primeiros trabalhos a aplicar a Lógica Fuzzy e o método de Wang-Mendel em mineração de opinião ➤ O classificador gerado nessa pesquisa, classifica documentos utilizando regras legíveis para seres humanos 68
  69. 69. CONCLUSÃO ➤ Investigação de características de documentos que podem ser relevantes para descrever e classificar documentos ➤ Uma quantidade muito limitada de características são suficientes para efetuar a classificação de sentimento geral ➤ Uso de pesos em regras fuzzy melhora o desempenho do classificador ➤ Uso de somente dois conjuntos fuzzy nas gerações das regras do SBRF tem forte impacto positivo 69
  70. 70. CONCLUSÃO: TRABALHOS FUTUROS ➤ Construir um conjunto de advérbios melhor, investigar mais a fundo a influência destes sobre adjetivos e avaliar se impactam nos resultados finais; ➤ Melhorar o método de detecção de negação e como lidar melhor com esse fenômeno; ➤ Melhorar como os conjuntos fuzzy são modelados para as variáveis de entrada das características dos documentos; ➤ Investigar mais características que possam representar e classificar melhor os documentos; 70
  71. 71. CONCLUSÃO: TRABALHOS FUTUROS ➤ Avaliar a metodologia proposta em outras línguas, como o português brasileiro, para verificar a influência da língua nos resultados e conclusões; ➤ Experimentar outros tipos de técnicas de seleção de características, para investigar a influência desses métodos na geração de regras fuzzy; ➤ E buscar e experimentar a utilização de outros dicionários de opinião, com o fim de verificar a influência desdes na classificação dos documentos. 71
  72. 72. REFERÊNCIAS ➤ Liu, B. (2012)
 Sentiment Analysis and opinion mining
 Synthesis Lectures on Human Language Technologies, 5(1):1-167 ➤ Pang, B and Lee, L. (2008)
 Opinion Mining and sentiment analysis
 Found. Trends Inf. Retr., 2(1-2):1-135 ➤ Baccianella, S., Esuli, A., and Sebastiani, F. (2010)
 Selection features for ordinal text classification
 In IIR, pages 13-14 ➤ Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M. (2011)
 Extraction sentiment as a function of discourse structure and topicality
 Simon Fraser University School of Computing Science Technical Report 72
  73. 73. REFERÊNCIAS ➤ Fawcett, T. (2006)
 An introduction of roc analysis
 Pattern recognition letters, 27(8):861-874 73

×