Este documento descreve um trabalho sobre identificação de emoções em áudio usando parâmetros de entropia extraídos de amostras de voz. O documento discute os conceitos, métodos de extração de características, classificação proposta e testes realizados para identificar seis emoções primárias com taxas de acerto entre 5-85%.
1. Aluno : Murilo Baruque Marazzi
Orientador : Prof. Dr. Rodrigo Capobianco Guido
2. Introdução;
Conceitos;
Extração de Características;
Classificador Proposto;
Testes e Resultados;
Conclusão.
3. Objetivo:
◦ Porque implementar um classificador para
identificar emoções?
Auxiliar em sistemas de reconhecimento de locutor;
Contribuir com os estudos de identificação automática
de emoções.
4. Emoções podem ser divididas em emoções
primárias;
5. Teorema da amostragem;
Arquivos de áudio foram salvos no formato
wave;
Taxa de amostragem de 16000Hz e
quantização de 16 bits.
6. Abordagem Knowledge-Based.
◦ Distribuição Gaussiana ou Normal.
Sendo μ a média e σ o desvio padrão.
7. Entropia;
Sendo p 𝑖, neste trabalho tratado como uma
proporção de energia.
29. Variância das partes do sinal dividido em 3, 9
e 27 partes:
30. Variância das partes do sinal dividido em 3, 9
e 27 partes:
31. Variância das partes do sinal dividido em 3, 9
e 27 partes:
32. Variância das partes do sinal dividido em 3, 9
e 27 partes:
33. Variância das partes do sinal dividido em 3, 9
e 27 partes:
34. Foram extraídos:
◦ 1+3+9+27+3=43 parâmetros;
Baseado no modelo Gaussiano.
Exemplo:
◦ Classificação da emoção felicidade.
35. Matriz de Treinamento1 de ordem 10x43:
4.58121 ⋯ 0.00120
⋮ ⋱ ⋮
4.53134 ⋯ 0.00287
Média e Variância são calculados;
O modelo foi treinado.
36. Matriz de Teste de ordem 10x43:
4.38051 ⋯ 0.00160
⋮ ⋱ ⋮
3.13534 ⋯ 0.00252
P= * * ... *
A maior probabilidade é escolhida.
37. Resultados do primeiro teste.
Entropias do sinal dividido em três partes:
Taxa de acerto 22,5%
38. Resultados do segundo teste.
Entropias do sinal dividido em nove partes:
Taxa de acerto 2,5%
39. Resultados do terceiro teste.
Entropias do sinal dividido em 27 partes:
Taxa de acerto 27,5%
40. Resultados do quarto teste.
As três variâncias das entropias:
Taxa de acerto 45%
41. Resultados do quinto teste.
Entropia do sinal todo mais as três entropias do
sinal dividido em três partes:
Taxa de acerto 55%
42. Resultados do sexto teste.
Entropia do sinal todo mais as 3 entropias do sinal
dividido em 3 partes mais 9 entropias do sinal
divido em 9 partes:
Taxa de acerto 12,5%
43. Resultados do sétimo teste.
Entropia do sinal todo mais as entropias do sinal
dividido em 3, 9 e 27partes:
Taxa de acerto 25%
44. Resultados do oitavo teste.
Entropia do sinal todo mais as entropias do sinal
dividido em 3, 9 e 27 partes e ainda a variância das
entropias:
Taxa de acerto 25%
45. Resultados do nono teste.
Entropias do sinal dividido em 3 e 9 partes:
Taxa de acerto 5%
46. Resultados do décimo teste.
Entropias do sinal dividido em 3, 9 e 27 partes:
Taxa de acerto 25%
47. Resultados do décimo primeiro teste.
Entropias do sinal dividido em 3, 9 e 27 partes, além
das variâncias das entropias:
Taxa de acerto 25%
48. Resultados do décimo segundo teste.
Entropias do sinal dividido 27 partes, além das
variâncias das entropias:
Taxa de acerto 27,5%
49. Resultados do décimo terceiro teste.
◦ Único parâmetro para treino foi a entropia do sinal todo:
◦ Taxa de acerto 85%
50. Único classificador;
Único parâmetro;
Emoção medo.