Análise comparativa entre os métodos 
HMM e GMM-UBM na busca pelo α- 
ótimo dos locutores crianças para 
utilização da téc...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
I. Contextualização 
 Nos últimos anos progressos significativos no desenvolvimento de Sistemas de 
Reconhecimento de Fal...
I. Contextualização 
Brinquedos Sites Educacionais Tecnologias Assistivas 
Aplicativos para Celulares Tecnologias Contempo...
I. Contextualização 
 Desafio: Aumentar o desempenho dos SRF para crianças aos mesmos níveis que para 
os adultos. 
 Dif...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
 Função: Mitigar as variabilidades do comprimento do trato vocal. 
 Técnica: Normalização de Comprimento do Trato Vocal ...
Escalonamento do banco de filtros: 
 Obtido a partir do escalonamento das frequências centrais do banco de filtros realiz...
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization) 
Escalonamento do banco de filtros: 
10 
 As frequê...
Fator de escalonamento ótimo (ótimo) 
O ótimo será aquele que maximiza a probabilidade de um conjunto de característic...
 O fator ótimo é obtido pela busca entre uma faixa de fatores de escalonamento. 
 α é representado pela razão entre o ...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
III. Processo de busca utilizando HMM e GMM-UBM 
Método Estatístico : HMM 
 HMM – Hidden Markov Model (Modelo Oculto de M...
III. Processo de busca utilizando HMM e GMM-UBM 
Método Estatístico : GMM-UBM 
 GMM – Gaussian Mixture Models (Modelo de ...
III. Processo de busca utilizando HMM 
16
III. Processo de busca utilizando GMM-UBM 
17
III. Processo de busca utilizando HMM e GMM-UBM 
1-Distribuição dos valores dos Fatores de Escalonamento Ótimo 
 Conjunto...
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento....
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento....
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento....
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
IV. Reconhecimento do Sistema 
23 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
IV. Reconhecimento do Sistema 
24 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
IV. Reconhecimento do Sistema 
25 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
IV. Reconhecimento do Sistema 
26 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
IV. Reconhecimento do Sistema 
27 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
IV. Reconhecimento do Sistema 
28 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCo...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
V. Resultados Experimentais 
Cenário: Reconhecimento de Fala treinado por locutores adultos e utilizado com 
crianças. 
Ob...
V. Resultados Experimentais 
 Sistema treinado com locutores Adultos e testado com Crianças: 
Mistura ótima (Ponto de mín...
Sistema treinado com Locutores Masculinos e testado com Crianças: 
Mistura ótima (Ponto de mínimo): 
 4 Gaussianas na mis...
Sistema treinado com Locutores Femininos e testado com Crianças: 
Mistura ótima (Ponto de mínimo): 
 32 Gaussianas na mis...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
Comparação entre os métodos HMM e GMM-UBM 
Desempenho: 
Nos experimentos, conforme observado nos Resultados, o desempenho ...
VI. Conclusões 
Desempenho: 
Nos experimentos, conforme observado nos Resultados, o desempenho entre os 
sistemas foi simi...
37 
VI. Conclusões 
Comparação entre os métodos HMM e GMM-UBM 
Custo Computacional: 
 Tempo de Processamento 
• Busca pel...
38 
VI. Conclusões 
Comparação entre os métodos HMM e GMM-UBM 
Custo Computacional: 
 Utilização dos Recursos de Memória*...
 Foi apresentada uma forma alternativa, mais simples, de menor custo 
computacional e de memória, com desempenho similar,...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
VII. Trabalhos Futuros 
Como sugestão de futuras investigações sugerem-se: 
 No processo de extração de características a...
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM...
VIII. Artigos Publicados 
 YNOGUTI, C. A. e MARTINS, R. M. , “GMM as an alternative to HMM in the 
search for the optimal...
www.odinasr.blogspot.com 
mayor@mtel.inatel.br 
Obrigado !!! 
Mestrado em Telecomunicações 
09 de Outubro de 2014 
44
Próximos SlideShares
Carregando em…5
×

[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN

249 visualizações

Publicada em

120ª Defesa do Mestrado em Telecomunicações - Inatel (Instituto Nacional de Telecomunicações).
09/10/2014
Aluno: Ramon Mayor Martins
Professor: Dr. Carlos Alberto Ynoguti
Título: Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN

Publicada em: Engenharia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
249
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN

  1. 1. Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α- ótimo dos locutores crianças para utilização da técnica VTLN Aluno: Ramon Mayor Martins Prof. Orientador: Dr. Carlos Alberto Ynoguti Mestrado em Telecomunicações 09 de Outubro de 2014 1
  2. 2. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 2
  3. 3. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 3
  4. 4. I. Contextualização  Nos últimos anos progressos significativos no desenvolvimento de Sistemas de Reconhecimento de Fala (SRF).  A maior parte das pesquisas devotada a sistemas para locutores adultos.  Fraco desempenho dos SRF para usuários crianças.  Recentemente, grande atenção foi dada aos SRF para crianças em diversas aplicações, por exemplo: 4
  5. 5. I. Contextualização Brinquedos Sites Educacionais Tecnologias Assistivas Aplicativos para Celulares Tecnologias Contemporâneas SRF crianças 5 Entretenimento
  6. 6. I. Contextualização  Desafio: Aumentar o desempenho dos SRF para crianças aos mesmos níveis que para os adultos.  Dificuldades: Variabilidades na fala entre locutores crianças e adultos.  Variabilidade: Comprimento do trato vocal (VTL). 6 19 cm 14,5 cm 12 cm
  7. 7. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 7
  8. 8.  Função: Mitigar as variabilidades do comprimento do trato vocal.  Técnica: Normalização de Comprimento do Trato Vocal (VTLN).  Investigações: SRF treinado com locutores adultos e utilizado para reconhecer fala infantil, VTLN é capaz de melhorar o desempenho do reconhecimento.  Funcionamento: Todos os locutores analisados são normalizados em relação a um 8 locutor médio (ou seja, para o SRF os locutores parecerão ter a mesma voz).  Processo: Transformação dos parâmetros acústicos da fala através de escalonamento do banco de filtros. II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  9. 9. Escalonamento do banco de filtros:  Obtido a partir do escalonamento das frequências centrais do banco de filtros realizado por um fator de escalonamento (α).  O novo banco de filtros é obtido através da equação: 9 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  10. 10. II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization) Escalonamento do banco de filtros: 10  As frequências no banco de filtro serão comprimidas se () ou serão expandidas se () .
  11. 11. Fator de escalonamento ótimo (ótimo) O ótimo será aquele que maximiza a probabilidade de um conjunto de características acústicas de um determinado locutor em relação a um modelo acústico de referência. 11 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  12. 12.  O fator ótimo é obtido pela busca entre uma faixa de fatores de escalonamento.  α é representado pela razão entre o VTL do locutor sendo analisado e o VTL utilizado como referência.  Faixa: SRF treinado com locutores adultos e testado com crianças:  = 0.70 (da razão 12/17) até  = 1.12 (da razão 19/17).  Busca com passo de 0,02.  22 fatores.  Utilizados os métodos estatísticos HMM e GMM-UBM. 12 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  13. 13. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 13
  14. 14. III. Processo de busca utilizando HMM e GMM-UBM Método Estatístico : HMM  HMM – Hidden Markov Model (Modelo Oculto de Markov).  Máquina de estados finitos conectados.  A cada transição A = (푎푖푗) ocorre a emissão de um símbolo, com uma probabilidade B = (푏푖 (푂푡 ) ) formando uma sequência de símbolos observáveis.  Modela variabilidades temporais e espectrais.  Notação para caracterizar o modelo HMM. (Sendo π – o estado inicial). 14 Estrutura de um HMM left-right de 5 estados.
  15. 15. III. Processo de busca utilizando HMM e GMM-UBM Método Estatístico : GMM-UBM  GMM – Gaussian Mixture Models (Modelo de Mistura Gaussiana).  Modela qualquer tipo de distribuição de dados, alterando seus parâmetros de mistura. Ex: vetores acústicos extraídos de um sinal de voz de um locutor.  o GMM modela somente as variabilidades espectrais.  Utiliza-se a notação para caracterizar o modelo GMM. 15 Exemplo de 4 gaussianas na mistura (GMM)
  16. 16. III. Processo de busca utilizando HMM 16
  17. 17. III. Processo de busca utilizando GMM-UBM 17
  18. 18. III. Processo de busca utilizando HMM e GMM-UBM 1-Distribuição dos valores dos Fatores de Escalonamento Ótimo  Conjunto de teste crianças: 18 Avaliação dos Processos
  19. 19. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 19 Avaliação dos Processos
  20. 20. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 20 Avaliação dos Processos
  21. 21. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 21 Avaliação dos Processos
  22. 22. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 22
  23. 23. IV. Reconhecimento do Sistema 23 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Janela
  24. 24. IV. Reconhecimento do Sistema 24 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Extração de Parâmetros:  Pré-Enfase: (1-0,97푧−1)  Janela: Hamming. Com duração de 25ms e um atraso de 10 ms para o início da próxima janela.  Coeficientes: 39 MFCC (para cada locução proferida por cada locutor)  Banco de filtros: 24 filtros triangulares passa-faixa Janela
  25. 25. IV. Reconhecimento do Sistema 25 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Base de Dados:  TIDIGITS – Texas Instruments  Inglês-americano  Dígitos conectados  325 locutores (111 homens, 114 mulheres, 50 meninos e 50 meninas).  77 locuções Janela
  26. 26. IV. Reconhecimento do Sistema 26 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Topologia do modelo HMM:  5 estados, do tipo “left-right” utilizando trifones. Janela
  27. 27. IV. Reconhecimento do Sistema 27 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Treinamento:  55 locutores femininos e 57 locutores masculinos (112 locutores no total).  Algoritmo Baum-Welch para reestimações.(HERest)  Gaussianas na Mistura: 1, 2, 4, 8, 16, 32, 64, 128. Janela
  28. 28. IV. Reconhecimento do Sistema 28 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Teste:  25 locutores meninos e 25 locutores meninas (50 no total) normalizados com os fatores ótimos encontrados pelos métodos HMM e GMM-UBM para cada locutor  Algoritmo de Viterbi (HVite)  Obtenção da taxa de erro de palavra (WER%) Janela
  29. 29. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 29
  30. 30. V. Resultados Experimentais Cenário: Reconhecimento de Fala treinado por locutores adultos e utilizado com crianças. Objetivo: Medir a melhoria que a técnica VTLN pode fornecer ao sistema. Experimentos: Foram realizados três conjuntos de experimentos:  Treinamento com locutores adultos e teste com crianças normalizadas (A-C)  Treinamento com locutores masculinos e teste com crianças normalizadas (M-C)  Treinamento com locutores femininos e teste com crianças normalizadas (F-C) 30
  31. 31. V. Resultados Experimentais  Sistema treinado com locutores Adultos e testado com Crianças: Mistura ótima (Ponto de mínimo):  64 Gaussianas na mistura.  Possível Razão - Por ser maior a variabilidade entre adultos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER de 1,88% uma redução de 3,07% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 1,92%, uma redução de 3,03% em relação a baseline. 31 Gaussianas na Mistura
  32. 32. Sistema treinado com Locutores Masculinos e testado com Crianças: Mistura ótima (Ponto de mínimo):  4 Gaussianas na mistura.  Possível Razão – A variabilidade é menor entre locutores masculinos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER 28,39% uma redução de 6,83% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 29,75%, uma redução de 5,47% em relação a baseline.  Mesmo com o VTLN, a WER continuou alta. 32 V. Resultados Experimentais Gaussianas na Mistura
  33. 33. Sistema treinado com Locutores Femininos e testado com Crianças: Mistura ótima (Ponto de mínimo):  32 Gaussianas na mistura.  Possível Razão – Há variabilidades entre os locutores femininos, por exemplo, alguns locutores femininos podem ter voz mais grave e outros mais agudos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER 1,47% uma redução de 2,4% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 1,58%, uma redução de 2,29% em relação a baseline. 33 V. Resultados Experimentais Gaussianas na Mistura
  34. 34. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 34
  35. 35. Comparação entre os métodos HMM e GMM-UBM Desempenho: Nos experimentos, conforme observado nos Resultados, o desempenho entre os sistemas foi similar. 35 VI. Conclusões
  36. 36. VI. Conclusões Desempenho: Nos experimentos, conforme observado nos Resultados, o desempenho entre os sistemas foi similar. Complexidade de Implementação: HMM: • Requer uma topologia baseada em estados; • Os estados necessitam de uma probabilidade de transição e permanência, atualizados durante o treinamento; • Quanto maior a locução, mais complexo será o modelamento do sistema; • Necessidade de transcrição fonética. GMM-UBM • Utiliza somente um estado, que corresponde a palavra inteira; • Não utiliza transcrições fonéticas. • Mais simples! 36 Comparação entre os métodos HMM e GMM-UBM
  37. 37. 37 VI. Conclusões Comparação entre os métodos HMM e GMM-UBM Custo Computacional:  Tempo de Processamento • Busca pelo α-ótimo: HMM – 2 minutos por locutor GMM – 1 minuto e meio por locutor • Processamento dos modelos pré-treinados:
  38. 38. 38 VI. Conclusões Comparação entre os métodos HMM e GMM-UBM Custo Computacional:  Utilização dos Recursos de Memória* *utilizado o SensorsScreenlet v0.1 Linux Ubuntu 9.04
  39. 39.  Foi apresentada uma forma alternativa, mais simples, de menor custo computacional e de memória, com desempenho similar, para o cálculo dos α- ótimos, para a utilização da técnica VTLN.  A taxa de acertos subiu para 70,25% no caso de um sistema treinado com locutores adultos e testado com locutores crianças. HMM GMM-UBM Desempenho (WER%) Complexidade de Implementação Custo Computacional (Tempo de Processamento) Custo Computacional (Utilização dos Recursos de Memória) 39 VI. Conclusões
  40. 40. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 40
  41. 41. VII. Trabalhos Futuros Como sugestão de futuras investigações sugerem-se:  No processo de extração de características acústicas, utilização de janelas mais curtas, pois, segundo [1], deve-se proporcionar uma melhor adaptação à fala de crianças que têm tom mais alto, (por exemplo 15 ms).  Realizar uma análise comparativa dos métodos HMM e GMM-UBM para modelos acústicos dependentes de idades, pois, segundo [2], há uma forte relação entre o fator ótimo de escalonamento e a idade dos locutores crianças. [1] TEIXEIRA, A. D. C. Deteção e Correção de Disfluências em Crianças. Dissertação de Mestrado Faculdade de Ciência e Tecnologia. Coimbra. Portugal. 41 [2] GEROSA, M., GIULIANI, D., NARAYANAN, S. and POTAMIANOS, A., "A Review of ASR Technologies for Children’s", WOCCI'09 - Proceedings of the 2nd Workshop on Child, Computer and Interaction, pp. 3-6, Nov. 2009.
  42. 42. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 42
  43. 43. VIII. Artigos Publicados  YNOGUTI, C. A. e MARTINS, R. M. , “GMM as an alternative to HMM in the search for the optimal warping factor for VTLN”, ITS 2014 - International Telecommunications Symposium, São Paulo – SP.  YNOGUTI, C. A. e MARTINS, R. M. , “Normalização do locutor em Sistemas de Reconhecimento de Fala para usuários crianças”, IHC 2014 - XIII Simpósio Brasileiro Sobre Fatores Humanos em Sistemas Computacionais, Paraná – PR. 43
  44. 44. www.odinasr.blogspot.com mayor@mtel.inatel.br Obrigado !!! Mestrado em Telecomunicações 09 de Outubro de 2014 44

×