O documento descreve a construção e avaliação de um sistema tutor inteligente com reconhecimento de voz. O sistema foi desenvolvido para reconhecer e sintetizar voz, e foi avaliado quanto à precisão e tempo de treinamento dos classificadores de voz. O documento apresenta os fundamentos teóricos, trabalhos relacionados, metodologia e resultados obtidos com o sistema.
DESENVOLVIMENTO E AVALIAÇÃO DE DESEMPENHO DO MECANISMO DE RECONHECIMENTO AUTOMÁTICO DE VOZ DE UM SISTEMA TUTOR INTELIGENTE
1. Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Mestrando: Leinylson Fontinele Pereira
Orientador: Jorge Luiz de Castro e Silva
Dissertação Apresentada ao Curso de Mestrado Acadêmico em Ciência da Computação da
Universidade Estadual do Ceará (UECE) - Fortaleza, 28 de agosto de 2015.
2. Roteiro
Introdução
Fundamentação Teórica
Trabalhos Relacionados
Metodologia e Cenário do STI
Análise dos Resultados
Considerações Finais
11:07
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
4. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Motivação da Pesquisa
A linguagem é o meio de comunicação mais importante para o homem e o ato de
falar é o modo mais natural de comunicação entre as pessoas.
Acessibilidade computacional por meio da IHC
integrar socialmente deficientes visuais/motores.
Reconhecimento de voz
Habilidade que uma máquina ou programa possui, para adquirir e interpretar o ditado, ou
ainda, compreender e executar comandos falados.
Síntese de voz
Produção artificial da fala humana, diminuindo a dependência do uso de arquivos de voz.
11:07 4
Introdução
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
5. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Objetivos da Pesquisa
Objetivo geral
Construir um Sistema Tutor Inteligente que realize o reconhecimento automático da fala e
síntese de voz e avaliar o desempenho das técnicas utilizadas conforme os níveis de acurácia e
tempo necessário para o treinamento e classificação dos sinais.
Objetivos específicos
Implementar um STI que faça o reconhecimento e síntese de voz.
Construir uma base de locuções das palavras a serem utilizadas nos testes.
Demonstrar a usabilidade do STI através de casos de uso.
Medir e analisar a acurácia dos classificadores implementados.
Medir e comparar o tempo necessário para treinar e classificar as palavras.
11:07 5
Introdução
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
6. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
O Que é um STI
“Os STI’s são programas de software que dão suporte às
atividades da aprendizagem”.
“Os Sistemas Tutores Inteligentes são sistemas instrucionais
baseados em computador com modelos de conteúdo
instrucional que especificam o ‘que’ ensinar, e estratégias de
ensino que especificam ‘como’ ensinar”.
11:07 6
FundamentaçãoTeórica
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
7. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Arquitetura do Modelo Clássico
Um STI é constituído de quatro módulos principais que inter-relacionam-se.
11:07 7
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
Regras de
ensino
Rede de
conhecimento
Conhecimento
do aprendiz
Interação de
informações
8. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Extração das Características
Na fase de extração de características, o sinal é processado e são gerados os dados
que serão utilizados para a modelagem da palavra ou para se efetuar a comparação
com algum modelo armazenado na base.
Para a análise em frequência do sinal, foi utilizada a Transformada de Fourier.
11:07 8
𝑋 𝑘 =
1
𝑁
𝑛=0
𝑁−1
𝑥 𝑛 𝑒
𝑖2𝜋𝑘𝑛
𝑁
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
9. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Transformada de Fourier de Tempo Curto (STFT)
A STFT foi utilizada na extração de características do classificador DTW
Extrai-se as características do sinal usando a STFT, gerando um espectrograma.
11:07 9
𝑆𝑇𝐹𝑇 𝜏, 𝑓 =
−∞
∞
𝑥 𝑡 . 𝑔 𝑡 − 𝜏 . 𝑒−𝑗2𝜋𝑓𝑡 𝑑𝑡 ,
𝑤𝑖 = 0.54 − 0.46 ∗ cos
2𝜋𝑖
𝑁
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
10. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
A Classificação dos Padrões
A classificação dos padrões ocorreu de 4 modos:
1. ErroMédio: foram somados todos os valores dos sinais e dividido pelo tamanho da população.
2. DesvioPadrão: representando a dispersão da população em torno da média.
3. Covariância: medida não padronizada do grau no qual as séries movem-se juntas.
4. DTW: construir uma matriz de pontuações locais utilizando a Distância Cosseno entre as
magnitudes STFT, possibilitando a obtenção do caminho de menor custo na matriz.
11:07 10
𝜇 =
𝑖=1
𝑁
𝑋𝑖 𝑁
𝜎 =
𝑖=1
𝑁
(𝑋𝑖− 𝜇)² /𝑁
𝜎 𝑥𝑦 =
𝑖=1
𝑁
(𝑋𝑖 − 𝜇 𝑥). (𝑌𝑖 − 𝜇 𝑦)
𝑛 − 1
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑑𝑎𝑑𝑒 = cos 𝜃 =
𝐴 . 𝐵
‖𝐴‖‖𝐵‖
=
𝑖=1
𝑛
𝐴𝑖 x 𝐵𝑖
𝑖=1
𝑛
𝑥𝑖
2 x 𝑖=1
𝑛
𝑦𝑖
2
D i, j = min D i − 1, j − 1 , D i − 1, j , D i, j − 1 + d i, j
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
11. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Hidden Markov Model (HMM)
Uma Cadeia de Markov é um processo
que consiste num número de estados de
probabilidades associadas às transições
entre os estados.
A Cadeia de Markov Oculta é um
método para modelar sistemas com
comportamentos discretos e
dependentes do tempo.
11:07 11
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
12. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Hidden Markov Model (HMM)
11:07 12
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
FundamentaçãoTeórica
14. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Trabalhos Realiza Síntese Reconhece a Fala Caso de Uso
Disponibiliza
Base de Dados
Disponibiliza
Código Fonte
Tipo de Ambiente
Michael e
Lawrence, 1982
- - - - Não se aplica
Juang, 1984 - - - - Não se aplica
Rabiner, 1989 - - Não se aplica Não se aplica Não se aplica
Ynoguti, 1999 - - Não se aplica
Bresolin, 2003
(Parlato)
- - -
Reativo com
interações
Lee, Chen e Jang,
2005
- - - - Não se aplica
Ravinder, 2010 - - - - Não se aplica
Santos,2013 - - -
Reativo com
interações
STI DeVoice
2015
Reativo com
interações
Sumário de Trabalhos Relacionados
11:07 14
TrabalhosRelacionadas
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
15. Metodologia e Cenário do STI
11:07 15
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
16. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
A Arquitetura Utilizada
11:07 16
Sistema de RI capaz de responder às solicitações submetidas ao motor de busca.
Emitir respostas audíveis referentes ao conteúdo retornado.
Notificar o usuário (quando necessário) durante o diálogo.
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
17. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Características do Sistema
A interface projetada foi batizada de “DeVoice”.
A separação das palavras é feita por pausas entre as locuções.
O processamento ocorre a cada palavra pronunciada, atuando como
um sistema de palavras conectadas por meio da concatenação.
11:07 17
Metodologiae Cenáriodo STI
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
18. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Confecção da Base de Dados
Base de Conhecimento Cognitivo: corresponde à ciência que o STI possui
sobre o significado denotativo das palavras.
Base de Corpus: constituída pelas palavras a serem utilizadas como padrões de
referência no processo de classificação.
Escolha das palavras: as palavras e frases foram escolhidas segundo uma
análise visando um balanceamento das mesmas.
Gravação das locuções: realizadas em ambiente relativamente silencioso, com
tamanho mantido constante com duração de dois segundos.
11:07 18
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
19. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Fluxo do Treinamento
11:07 19
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
20. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Reconhecimento por Menor Erro
11:07 20
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
21. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Reconhecimento por Caminho de Menor Custo
11:07 21
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
22. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Desenvolvimento do Ator Sintético: Dando Voz ao STI
O sistema de diálogo é uma parte do sistema destinado a conversar com um
humano de forma coerente.
A iniciativa do diálogo pode ser tomada pelo humano ou pelo Ator Sintético.
O Ator Sintético afeta emocionalmente o usuário, aumentando sua motivação
e engajamento, por meio de respostas rápidas, consistentes e de fácil
compreensão.
11:07 22
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Metodologiae Cenáriodo STI
23. Análise dos Resultados
11:07 23
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
24. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Demonstraçãoda Usabilidade: Modo 1 (Web)
11:07 24
AnálisedosResultados
“Qual significado de livro?” “Defina humano.”
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
25. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Demonstração da Usabilidade: Modo2 (verbose)
Processamento da Sentença: “Álex, qual significado de computação?”
11:07 25
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
26. Avaliação dos Classificadores
11:07 26
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
27. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Análise de Acurácia Global
11:07 27
A acurácia global é expressa pela razão entre o número total de amostras e o
número total de palavras corretamente classificadas.
Proporção de predições corretas, desconsiderando o que é positivo ou negativo:
𝐴𝑐 𝑇𝑜𝑡𝑎𝑙 =
𝑖=1
𝑁
𝑋𝑖𝑖 𝑁
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
28. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Análise de Integridade
11:07 28
O coeficiente kappa leva em conta os erros de omissão e comissão.
Mais abrangente e utilizado, corrigindo por concordância o acaso:
𝑘𝑖 =
𝑁. 𝑋𝑖𝑖 − 𝑋𝑖+ + 𝑋+𝑖
𝑁. 𝑋𝑖+ − 𝑋𝑖+ + 𝑋+𝑖
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
29. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Análise de Desempenho do Mecanismo de Reconhecimento
11:07 29
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
30. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Matriz de Contingência (Grupo A)
11:07 30
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
31. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Matriz de Contingência (Grupo B)
11:07 31
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
32. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Matriz de Contingência (Grupo C)
11:07 32
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
33. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Matriz de Contingência (Grupo D)
11:07 33
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
34. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Palavra)
11:07 34
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
35. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Palavra)
11:07 35
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
36. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Coeficiente Kappa (Palavra)
11:07 36
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
37. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Coeficiente Kappa (Palavra)
11:07 37
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
38. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Frases)
11:07 38
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
39. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Frases)
11:07 39
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
40. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Frases)
11:07 40
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
41. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Frases)
11:07 41
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
42. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Comparativo de Acurácia Global (Frases)
11:07 42
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
43. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Custo Computacional de Treinamento
11:07 43
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
44. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Custo Computacional por Amostra
11:07 44
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
45. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Análise de Custo Computacional
11:07 45
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
46. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Custo Computacional de Reconhecimento
11:07 46
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
47. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Custo Computacional de Reconhecimento
11:07 47
AnálisedosResultados
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
49. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Algumas Contribuições
Nesta dissertação foi avaliado o desempenho dos classificadores utilizados no
reconhecimento dos sinais da fala por meio de uma análise de custo computacional
e estimativa do nível de acurácia para cada grupo de palavras da base;
Disponibilização de uma ferramenta capaz de “dialogar” com o usuário devido à
sua característica de tornar a interação mais natural;
11:07 49
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
50. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Algumas Contribuições
Fornecimento de uma pesquisa descritiva e aplicação dos conceitos e teorias
envolvidas no processo de reconhecimento da voz, observando todas as etapas,
desde a gravação e transcrição da base de dados, até a aquisição, treinamento e
reconhecimento do sinal;
Confecção e disponibilização da base de locuções de palavras utilizadas.
11:07 50
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
51. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Algumas Limitações
A habilidade de aprendizagem de novas palavras pelo STI fica sujeita à
informação desta pelo usuário via teclado;
Aquisição de uma base de locuções padronizada, que propicie aos
pesquisadores confrontar metodologias e resultados;
A interdisciplinaridade de um sistema de reconhecimento de voz, a larga
variedade de conhecimentos necessários e sua complexidade de
implementação, implicam que é indispensável o empenho de uma equipe de
pesquisadores com ciência nas mais diversas áreas, além de investimentos na
aquisição de equipamentos de qualidade.
11:07 51
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
52. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Trabalhos Futuros
Utilização de outros métodos para extração, como os MFCC’s e para a mensuração do
vetor de características, as variações do DTW e a wavelet daubechies de 10 níveis;
Adaptação e ampliação da base de dados para diferentes ambientes e locutores;
Utilizar diferentes configurações nos reconhecedores, como por exemplo, mudando o
número de estados nas HMM’s;
Aumentar o número de amostras utilizadas no treinamento;
11:07 52
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
53. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Trabalhos Futuros
Realizar uma análise mais minuciosa dos valores
escolhidos como limiares de aceite ou recusa da locução;
Aprimorar a imersão do usuário no ambiente do STI por
meio da modelagem de um avatar em duas dimensões
com aspecto tridimensional;
11:07 53
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
54. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Trabalhos Futuros
Simular um ambiente inteligente (Domótica) para acionamento de
dispositivos eletrônicos;
Cadastro e identificação de usuário por meio de pronúncia de senha;
Controle de um veículo robô construído sobre a plataforma Arduíno;
Assistente virtual apta a execução de mídias online, previsão do tempo,
fornecimento de notícias e horário local, impressão de documentos,
envio de e-mails e acesso à Web.
11:07 54
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
55. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Conclusões
11:07 55
Com relação ao desempenho dos classificadores, verificou-se que o
classificador por erro médio apresentou melhor acurácia de uma forma
geral, tanto para o reconhecimento de palavras isoladas, bem como de
palavras conectadas, quando combinado com as HMM’;
As classificações por desvio padrão e por covariância apresentaram
resultados idênticos, diferenciando-se apenas quanto ao custo
computacional;
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
56. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Conclusões
11:07 56
O mecanismo de reconhecimento automático de voz alcançou
resultados satisfatórios, atendendo fortemente a expectativa;
Para evitar uma degradação do desempenho, deve-se aplicar filtros
supressores de ruídos visando sua redução ou eliminação, e também,
gravar a base de dados no mesmo local onde vai ser utilizado o sistema
ou nas condições mais próximas possíveis;
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
57. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Conclusões
O enfoque adotado, além de resultar em um bom embasamento teórico e prático na
área de reconhecimento de voz, de forma contextualizada, possibilitou o
desenvolvimento de uma plataforma inicial sobre a qual pesquisas e desenvolvimentos
posteriores possam ser mais facilmente realizados;
O STI possibilita a geração de gráficos para uma análise mais profunda dos espectros,
magnitudes e similaridades entre os sinais de cada uma das palavras;
11:07 57
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
58. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Conclusões
11:07 58
Constatou-se que palavras de menor porte foram melhor classificadas
quando utilizou-se os classificadores por erro médio, desvio padrão e
covariância;
Por outro lado, às locuções de maior tamanho foram melhor
reconhecidas pelo classificador DTW, que por sinal, obteve o maior
custo computacional tanto para o treinamento como reconhecimento
das locuções, isto se deve em grande parte ao tempo e memória
necessários para a gerar e processar espectrogramas;
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
59. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Conclusões
11:07 59
Um STI baseado em voz para sistemas de RI segundo o modelo exposto e
implementado como subsídio para a pesquisa, corrobora ser viável em
termos de uma aplicação real;
O STI encontra-se apto ao reconhecimento de palavras, retornando o
significado, sinônimos, antônimos, definições gramaticais,
contextualização da palavra em uma frase e ilustrações de cada termo
reconhecido.
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
60. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Referencial Bibliográfico
ADAMI, A. G. Sistema de Reconhecimento de Locutor Utilizando Redes Neurais Artificiais. (Dissertação de Mestrado). Curso de Pós-Graduação em Ciência da
Computação (CPGCC) - Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, 1997.
BAKER, J. K. TheDragonSystem- anOverview. IEEE Transactions on Acoustics, Speech and Signal Processing - ASSP, Fev., 1975.
BRESOLIN, A. D. A. Estudo do Reconhecimento de Voz para o Acionamento de Equipamentos Elétricos via Comandos em Português. Programa de Pós-Graduação em
Automação Industrial (PGAI) Universidade do Estado de Santa Catarina (UDESC)
BRESOLIN, A. D. A. Reconhecimento de voz Através de Unidades Menores do que a Palavra, Utilizando Wavelet Packet e SVM, em uma Nova Estrutura Hierárquica de
Decisão. (Tese de Doutorado). Programa de Pós-Graduação em Engenharia Elétrica - Universidade Federal do Rio Grande do Norte - Centro de Tecnologia, Natal, 2008.
CAMPBELL, J. P. Speakerrecognition:a tutorial.Proceedings of the IEEE. p. 1437-1462, 1997.
CLANCEY, W. J. FromGUIDONtoNEOMYCINandHERACLESinTwentyShortLessons:ORNFinalReport1979-1985.AI Magazine, v. 7, 1986.
COHEN, F. M. et al. WaveletsandtheirApplicationsinComputerGraphics.ACM: SIGGRAPH 95 Conference, 1995.
COOLEY, J. W.; TUKEY, J. W. An Algorithm for the Machine Calculation of Complex Fourier Series. In: Mathematics of Computation. v. 19. COSTA, R. J. M. Sistemas
TutoresInteligentes.Mestrado de Informática Aplicada à Educação- Universidade Federal do Rio de Janeiro (UFRJ),
DELLER , J. R.; PROAKIS, J. G.; HANSEN, J. H. L. Discrete-timeProcessingofSpeechSignals.New York: Macmillan, 1993.
FISCHETTI, E.; GISOLFI, A. FromComputer-AidedInstructiontoIntelligent,1990.
FURUI, S. DigitalSpeechProcessing,SynthesisandRecognition. Marcel Dekker, Inc., 1989.
GAMBOA, H.; ANA, F. DesigningInteliggentTutoringSystem: aBayesianApproach. 3rd International Conference on Enterprise Information Systems (ICEIS), 2001.
GROSSI C. V., T. et al. Avaliação de Classificadores Automáticos no Mapeamento de Áreas Cafeeiras da Região de Guaxupé, Minas Gerais. VI Simpósio de Pesquisa dos
Cafés do Brasil, Vitória,2009.
11:07
ConsideraçõesFinais
61. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Referencial Bibliográfico
JANG, J. S. R. DTWforSpeechRecognition. MIR Lab. National Taiwan University, Taiwan, 2005.
JUANG, B. H. On the hidden Markov model and dynamic time warping for speech recognition - A unified view. AT&T Bell Laboratories Technical Journal. [S.l.]: Alcatel-
Lucent. p. 1213-1243, 1984.
KAPLAN, R.; ROCK, D. NewDirectionsforIntelligentTutoringSystems.AI Expert, 1995.
KEARSLEY, G. ArtificialIntelligenceandInstruction- ApplicationsandMethods.[S.l.]: Addison Wesley, 1987.
LEE, H.-R.; CHEN, C.; JANG, R. J. S. Approximate Lower-Bounding Functions for the Speedup of DTW for Melody Recognition. Computer Science Department, National
Tsing Hua University. Taiwan: IEEE. p. 178-181, 2005
LESTER, J.; BRATING, K.; MOTT, B. “ConversationalAgents”. The Practical Handbook of Internet Computing, 2004.
LINO, N. D. L.; TEDESCO, P.; ROUSY, D. Modelode PercepçãodeAgentesBaseadosemEmoções.Universidade Federal de Pernambuco, Recife.
MICHAEL, K. B.; LAWRENCE, R. R. An Adaptive, Ordered, Graph Search Technique for Dynamic Time Warping for Isolated Word Recognition. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 1982.
MILLER, J. R. FoundationsofIntelligentTutoringSystemsInteractingwithComputersSeries. [S.l.]: Psychology Press, 1982.
NEJAT, A. DigitalSpeechProcessing,SpeechCoding,SynthesisandRecognition, 1992.
RABINER, L. R. A TutorialonHiddenMarkovModelsandSelectedApplicationsinSpeechRecognition. Proceedings. IEEE, v. 77, n. 2, 1989.
RATZKA, A. Explorative studies on multimodal interaction in a PDA- and desktop-based scenario. Proceedings of the 10th international conference on Multimodal
interfaces (ICMI '08). New York: [s.n.]. p. 121-128, 2008.
RAVINDER, K. Comparison of HMM and DTW for Isolated Word Recognition System of Punjabi Language. Progress in Pattern Recognition, Image Analysis, Computer
Vision, and Applications. [S.l.]: Springer Berlin Heidelberg. p. 244-252, 2010.
11:07
ConsideraçõesFinais
62. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Referencial Bibliográfico
RIOUL, O.; VETTERLI, M. Waveletandsignalprocessing.IEEE Signal Processing Magazine, v. 8, n. 4, Out., 1991.
SANCHES, I. J. CompressãoSemPerdasdeProjeçõesdeTomografiaComputadorizadaUsandoa TransformadaWavelet.(Dissertação de Mestrado).
SANTOS, M. A. D. Interface Multimodal de Interação Humano-Computador em Sistema de Recuperação de Informação Baseado em Voz e Texto em Português.
(Dissertação de Mestrado). Pós-Graduação em Ciência da Informação,2013.
SCHROEDER, M. A briefhistoryofsyntheticspeech.Speech Communication.p. 231-237, 1993.
SHAUGHNESSY, D. O. SpeechCommunications,Humanandmachine. New York: IEEE Press, 2000.
SHNEIDERMAN, B.; PLAISANT, C. DesigningtheUserInterface: Strategies for Effective Human-Computer Interaction. 15. ed. Addison-Wesley, 2010.
SILVA, A. G. D. ReconhecimentodeVozparaPalavrasIsoladas. Graduação em Engenharia da Computação- Universidade Federal de Pernambuco (UFPE).
SILVA, S. M. Biometriade Voz: AspectosTeóricose Práticos.Londrina, Paraná, 2010.
SMITH, J. O. I. MathematicsoftheDiscreteFourierTransform(DFT):withAudioApplications.W3K Publishing, California,2007. ISBN-10: 097456074x.
SMITH, S. W. TheScientistandEngineer'sGuidetoDigitalSignalProcessing.1. ed. California Technical, 1997. ISBN-13: 978-0966017632.
TERMAN, L. M. The Measurement of Intelligence An Explanation of and a Complete Guide for the Use of the Stanford Revision and Extension of the Binet-Simon
IntelligenceScale, 1916. Disponível em: <http://www.gutenberg.org/files/20662/20662-h/20662-h.htm>. Acesso em: 22 mar. 2015.
TSIPORKOVA, E. An IntegrativeDTW-BasedImputationMethodforGeneExpressionTimeSeriesData.Intelligent Systems (IS) - IEEE International Conference.
VINTSYUK, T. K. SpeechDiscriminationbyDynamicProgramming,n.1, p. 81-88, 1968.
WEEKS, M. ProcessamentoDigitalde Sinais:UtilizandoMatlabe Wavelets.Traduçãode Edson Tanaka. 2ª. ed. Rio de Janeiro: LTC, 2012.
WENGER, E. ArtificialIntelligenceandTutoringSystems:ComputationalandCognitiveApproachestotheCommunicationsofKnowledge.Los Altos, CA, 1987.
YNOGUTI, C. A. Reconhecimentode FalaContínuaUsandoModelosOcultosde Markov.(Tese de Doutorado). Universidade Estadual de Campinas.
11:07
ConsideraçõesFinais
63. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Produções Resultantes
1. PEREIRA, L. F., SILVEIRA, A. de S., SILVA, J. L. C., “A Multimodal Interface HCI to Intelligent Tutoring Systems”
In: The Tenth International Conference on Systems (ICONS). International Academy, Research, and Industry
Association (IARIA), Barcelona – Espanha, 2015. (short paperaceitop/ publicação)
2. PEREIRA, L. F., SILVEIRA, A. de S., SILVA, J. L. C., "DeVoice: Um Tutor Inteligente Para Interação Humano-
Computador Multimodal Visando a Acessibilidade Computacional". In: InfoBrasil TI & Telecom, 2014, Fortaleza -
Ceará. Anais - VII Congresso Tecnológico, 2014. v. XII. pp. 357-361. (artigopublicado)
11:07 63
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
64. Introdução FundamentaçãoTeórica TrabalhosRelacionados Metodologiae Cenáriodo STI AnálisedosResultados ConsideraçõesFinais
Dúvidas?
11:07
Muito Obrigado!
Fale-me e eu esqueço. Mostre-me e eu lembro. Envolva-me e eu entendo.
Provérbio chinês.
leinylson@gmail.com
ConsideraçõesFinais
Desenvolvimento e Avaliação de Desempenho do Mecanismo de
Reconhecimento Automático de Voz de um Sistema Tutor Inteligente
Notas do Editor
Respira fundo...
Fundamentação Teórica: Apresenta um aparato para a compreensão do tema, discorrendo sobre os STI e o processamento de sinais da voz
Trabalhos Relacionados: Apresenta trabalhos que em alguns aspectos relacionam-se com o trabalho realizado
Metodologia e Cenário do STI: Descreve em detalhes a composição da arquitetura do modelo implementado a partir do modelo tradicional.
Análise dos Resultados: Foi realizado um estudo para validação e avaliação do mecanismo de reconhecimento da voz.
Considerações Finais: Relaciona as principais contribuições e conclusões, limitações, os próximos passos a serem alcançados na linha de pesquisa.
1.
2.
3.
4. Consequentemente, diminuindo o espaço físico de memória necessário para seu armazenamento.
Neste contexto a inteligência é tida como a aptidão para construir conceitos e compreender o seu significado
Modelo Pedagógico (regras de ensino) analisa a informação do aprendiz, decidindo quais estratégias serão empregadas;
Modelo Especialista (rede de conhecimento) expõe o conhecimento de um especialista na área de domínio do sistema;
Modelo do Estudante representa o conhecimento do aprendiz;
Módulo de Interface realiza a interação de informações entre o sistema, o instrutor e o aprendiz.
A transformada permite a partir de um sinal no domínio do tempo, obter o sinal correspondente no domínio da frequência.
A fala é um sinal real, em outras palavras, ela pode ser medida, mas sua transformada possui componentes reais e imaginários, mas apenas os valores absolutos são utilizados
1.
2. ou seja, representações bidimensionais (tempo e frequência) de um sinal unidimensional.
3. A transformada utiliza uma 𝑗𝑎𝑛𝑒𝑙𝑎 de haming para suavizar as extremidades das ondas, fazendo com que tornem-se mais próximas de zero.
1.
2. Considerado uma medida de variabilidade dos dados de uma distribuição de frequências.
3. O sinal na covariância indica a relação existente, caso positivo, movem-se juntas, seguindo a mesma direção, caso negativo, movem-se em direções opostas.
4. Visando um alinhamento que minimize a distorção causada pelos efeitos da fala, em que um sinal de teste é estirado ou comprimido de acordo com um modelo.
Considerando um conjunto de palavras, uma cadeia de Markov pode ser criada para identificar a probabilidade de uma determinada palavra ser pronunciada após a outra
Cada estado envolve a produção de uma palavra (observação), estabelecendo assim, uma restrição sintática/semântica durante a concatenação das palavras.
Expostos numa tabela de forma cronológica, temos que:
1. Michael: propôs uma alternativa para o DTW em comparação com o método padrão
2. Juang fornece uma visão teórica das técnicas DTW e HMM
3. Rabiner realizou um estudo do reconhecimento de palavras conectadas utilizando as HMM’s
4. Ynoguti abordou o problema de reconhecimento da fala contínua também por HMM5 Bresolin estudou o reconhecimento de fala para um grupo de 10 palavras (números de zero a nove) e acionamento de equipamentos elétricos (FFT).6. Lee, Chen e Jang apresentaram uma proposta para incremento da velocidade do DTW para o reconhecimento de melodias7. Ravinder desenvolveu um reconhecedor de palavras isoladas da numa língua indiana, no modo dependente de locutor, em tempo real.8. Santos apresentou uma interface multimodal de IHC para um sistema de Recuperação de Informação em português baseada em voz e texto.
Pela observação destes aspectos listados, nota-se que o STI desenvolvido, situa-se na intersecção dos demais, atuando em um ambiente reativo com interações
1. A arquitetura utilizada provê a substituição do Modelo Especialista em função da adoção de um Modelo Generalista com domínio sobre “qualquer área” do conhecimento humano.
2. A arquitetura sugere ainda, uma modificação no módulo de interface, adicionando um Mecanismo de Voz e um Ator Sintético na Interface Gráfica em substituição ao instrutor humano.
6. dependendo da função de busca, é que poderemos saber como se dará a interação, que adiciona, além dos componentes tradicionais (teclado, mouse, monitor), elementos da voz artificial e do texto
1.
2.
3. simulando uma conversa natural
1. isto é, a correspondência semântica das locuções reconhecidas.
3. Para o STI foram adquiridas 50 locuções
4. Para que um sistema seja útil não é necessário um vocabulário muito grande, existem sistemas que possuem vocabulário de apenas duas palavras: “sim” e “não”.
1. Carrega-se o sinal de voz pré-gravado que pretende-se reconhecer
2. Aplicam-se filtros visando a eliminação e influência dos ruídos adquiridos durante a gravação
3. Normaliza-se a amplitude, fazendo com que as frequências atuem numa mesma faixa de volume
7. A ser utilizado para geração de uma matriz de custos
Utilizado em 3 dos 4 classificadores.
Quanto maior a similaridade, maior será a pontuação.
Utilizado em 1 dos 4 classificadores
1.
2. O usuário fala e a entrada é convertida para texto simples
O texto é analisado por um parser sintático/semântico.
e uma engine TTS é utilizada como gerador de linguagem natural
3. A adoção de um Ator Sintético gera ilusão de vida, sendo necessário inserir uma função pedagógica no ator, passando então a ser considerado como ator pedagógico com função de tutor
Esta etapa buscou realizar testes utilizando a interface desenvolvida visando sua validação e avaliação do mecanismo de reconhecimento de voz
BEBA AGUA ...
A interface do STI é autoexplicativa, possuindo ícones com feedbacks sonoros que descrevem sua respectiva função no sistema por meio da síntese de voz.
Tudo o que aparece na tela do STI e cada etapa do processo é narrada pelo ator, exibido na área destinada à transcrição gráfica e acompanhada no painel de status, permitindo uma usabilidade mais acessível pela utilização de mais de um sentido de percepção.
Nestes exemplos, são apresentados casos de utilização do STI DeVoice visando demonstrar a eficácia do reconhecimento da fala e da síntese de voz empregada no sistema.
Num 1º cenário, são executadas tarefas correspondentes ao reconhecimento da sentença “Qual o significado de livro” e no segundo caso, foi solicitado ao STI a definição de humano.Como feedback à estas requisições, são exibidos na tela os significados, paralelamente à transcrição fônica por síntese de voz e ilustrações através de imagens associadas aos termos reconhecidos.
O qual pronuncia perfeitamente cada uma das palavras presentes na página Web
Nesta 2º caso, foi perguntado ao STI o significado de computação.Aqui utilizou-se de uma técnica Verbose, sendo ideal para pessoas com baixa visão que precisem de um alto contraste de cores (no caso, branco e preto) e fontes ampliadas, fazendo com que o trabalho com texto seja muito mais fácil.
O significado é sintetizado e transcrito para a tela do STI, diferentemente do cenário anterior, no qual era realizada a leitura diretamente na página web.
Avaliando os casos de usos percebe-se a presença de alterações de pronúncia apenas em algumas palavras estrangeiras (como input e output), as demais palavras do idioma Português brasileiro foram perfeitamente sintetizadas e pronunciadas pelo STI.
Para avaliação de desempenho dos classificadores, utilizou-se os índices global e kappa obtidos a partir da matriz de contingência.
Desconsidera o que está fora da diagonal principal
Podendo induzir a uma conclusão errada sobre o desempenho do mecanismo de reconhecimento
1. O erro de omissão mede a acurácia da classificação, consiste na exclusão de uma área da classe à qual ela pertence de fato
O erro de comissão é a inclusão de uma área dentro de uma classe à qual ela não pertence na realidade
3. kappa > 80% é considerado excelente
kappa < 40% é considerado ruim
O índice global (verde) superestima a classificação e sempre resultará em valores mais altos.
O índice kappa (laranja) ao calcular a concordância casual, superestima, reduzindo o valor do índice.
Baseado nesta afirmação (constatada durantes os testes), a acurácia final adotada na análise foi obtida pela média aritmética de ambos os índices.
Os resultados a seguir possibilitam identificar não somente o erro global da classificação para cada classe, mas também, como se deram as confusões.
Na parte superior, podem ser observados os níveis das taxas de comissão e omissão e na parte inferior uma sobreposição dos índices utilizados para medir a acurácia da classificação segundo a meta estipulada (na cor azul)
O tempo de processamento de cada amostra por palavra é apresentado em tabelas para cada grupo de palavras
As palavras Amor, Cachorro, Casa, Fome e Humano obtiveram 100% de acerto na classificação por Erro Médio.
A menor taxa de acerto registrada foi da palavra Brasil, atingindo somente 20% na classificação por Desvio Padrão e Covariância.
A acurácia final: 86%, 61% e 66%.
As palavras Lago, Livro, Idoso, Viagem obtiveram 100% de acerto na classificação por Erro Médio.
A acurácia final: 82%, 51% e 67%.
A menor taxa de acerto registrada foi da palavra Mostre, atingindo somente 60% na classificação por Desvio Padrão e Covariância.
A acurácia final: 100%, 88% e 85%.
As palavras Dois, Três, Quatro, Cinco, Sete e Nove obtiveram 100% de acerto na classificação por Erro Médio.
A menor taxa de acerto registrada foi da palavra Três, atingindo somente 30% na classificação por DTW.
A acurácia final: 94%, 72% e 73%.
Os maiores níveis de acurácia ocorreram na análise do Grupo C
A classificação por erro médio alcançou 100% de acerto
A classificação por DTW apresentou acurácia inferior aos demais classificadores, atingindo 87%
Os menores níveis de acurácia ocorreram na análise do Grupo B
A classificação por erro médio alcançou 84% de acerto
A classificação por DTW apresentou 69%
e os classificadores por desvio padrão e covariância apenas 54% cada
o classificador por erro médio alcançou níveis de acurácia global superiores aos demais, ultrapassando a meta estipulada nos quatro grupos (A,B,C,D) e atingindo em média 91,25% de acurácia global.
Os maiores valores de kappa ocorreram no Grupo C
Cuja classificação por erro médio alcançou 100%
e a classificação por DTW apresentou índice inferior aos demais classificadores, atingindo 83%.
Os menores valores de kappa ocorreram na análise do Grupo B,
no qual a classificação por erro médio alcançou 80%,
a classificação por DTW apresentou 66%
e os classificadores por desvio padrão e covariância somente 48% cada.
Os classificadores por desvio padrão e covariância alcançaram baixos níveis, ultrapassado a meta em apenas um dos quatro grupos de palavras analisados e atingindo em média 65,25%
o classificador por erro médio alcançou valores de coeficiente kappa superiores aos demais classificadores, ultrapassando a meta estipulada nos quatro grupos de palavras e atingindo em média 89,5%.
Na análise de reconhecimento das sentenças: Defina computação, Mostre imagens de livro, Mostre imagens da lua e Qual significado de humano.
O erro médio obteve taxa máxima de 40% em um dos testes
A configuração do classificador por erro médio + HMM alcançou níveis de acurácia global superiores às demais.
Atingindo níveis mínimos de 80% e alcançando 100% de acurácia em dois dos quatro testes realizados
Atingindo em média 90% de acurácia global no reconhecimento das frases.
A classificação por DTW apresentou acurácia inferior às demais configurações, atingindo taxas baixíssimas.
Na qual em apenas um dos casos, apresentou resultado satisfatório com 80% de acurácia global, não chegando à 50% nos três casos de testes restantes, ficando abaixo da meta
A configuração DTW + HMM não apresentou melhoras significativas.
Observando o custo de treinamento, percebe-se que para os 4 grupos de palavras, a FFT mostrou-se mais eficiente que a STFT.
Quanto à usabilidade, é imperceptível tal diferença de processamento
Obedecendo uma formatação condicional de gradiente, numa escala de cores variando do valor mais baixo (amarelo) ao valor mais alto (vermelho), indicando o tempo de processamento de cada amostra por palavra para cada grupo analisado.
Analisando o gráfico, percebe-se que em termos de custo computacional, o (DTW) STFT apresenta-se menos eficiente, visto que exige quase que o dobro do tempo para completar seu processamento, quando comparado à (erro medio, desvio e covariância) FFT
A classificação com menor tempo de processamento foi realizada pelo classificador por erro médio, consumindo apenas 0,19 segundos;
Por outro lado, a classificação por DTW apresentou desempenho inferior aos demais, tanto para o treinamento como para o reconhecimento das locuções, chegando a 0,35 segundos em média.;
1. comprometendo sua usabilidade, em virtude da disponibilização ou não da mesma na sua base de dados.
2. Até que existe, porém, torna-se sem utilidade para os fins desta pesquisa
O aperfeiçoamento e a continuidade, além das limitações apresentadas, constituem oportunidades para trabalhos futuros, que incluem:
1. buscando sempre a manutenção de níveis computacionais satisfatórios
Para gerar ilusão de vida é preciso expressar e controlar a personalidade, influenciando a cognição e aumentando as percepções e ações do ator através da renderização de imagens.
Utilizando-se do mecanismo de reconhecimento de fala criado e avaliado neste trabalho pretende-se...