SlideShare uma empresa Scribd logo
1 de 44
Análise comparativa entre os métodos 
HMM e GMM-UBM na busca pelo α- 
ótimo dos locutores crianças para 
utilização da técnica VTLN 
Aluno: Ramon Mayor Martins 
Prof. Orientador: Dr. Carlos Alberto Ynoguti 
Mestrado em Telecomunicações 
09 de Outubro de 2014 
1
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
2
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
3
I. Contextualização 
 Nos últimos anos progressos significativos no desenvolvimento de Sistemas de 
Reconhecimento de Fala (SRF). 
 A maior parte das pesquisas devotada a sistemas para locutores adultos. 
 Fraco desempenho dos SRF para usuários crianças. 
 Recentemente, grande atenção foi dada aos SRF para crianças em diversas 
aplicações, por exemplo: 
4
I. Contextualização 
Brinquedos Sites Educacionais Tecnologias Assistivas 
Aplicativos para Celulares Tecnologias Contemporâneas 
SRF 
crianças 
5 
Entretenimento
I. Contextualização 
 Desafio: Aumentar o desempenho dos SRF para crianças aos mesmos níveis que para 
os adultos. 
 Dificuldades: Variabilidades na fala entre locutores crianças e adultos. 
 Variabilidade: Comprimento do trato vocal (VTL). 
6 
19 cm 
14,5 cm 
12 cm
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
7
 Função: Mitigar as variabilidades do comprimento do trato vocal. 
 Técnica: Normalização de Comprimento do Trato Vocal (VTLN). 
 Investigações: SRF treinado com locutores adultos e utilizado para reconhecer fala 
infantil, VTLN é capaz de melhorar o desempenho do reconhecimento. 
 Funcionamento: Todos os locutores analisados são normalizados em relação a um 
8 
locutor médio (ou seja, para o SRF os locutores parecerão ter a mesma voz). 
 Processo: Transformação dos parâmetros acústicos da fala através de escalonamento 
do banco de filtros. 
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization)
Escalonamento do banco de filtros: 
 Obtido a partir do escalonamento das frequências centrais do banco de filtros realizado 
por um fator de escalonamento (α). 
 O novo banco de filtros é obtido através da equação: 
9 
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization)
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization) 
Escalonamento do banco de filtros: 
10 
 As frequências no banco de filtro serão comprimidas se () ou serão 
expandidas se () .
Fator de escalonamento ótimo (ótimo) 
O ótimo será aquele que maximiza a probabilidade de um conjunto de características 
acústicas de um determinado locutor em relação a um modelo acústico de referência. 
11 
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization)
 O fator ótimo é obtido pela busca entre uma faixa de fatores de escalonamento. 
 α é representado pela razão entre o VTL do locutor sendo analisado e o VTL utilizado 
como referência. 
 Faixa: SRF treinado com locutores adultos e testado com crianças:  = 0.70 (da razão 
12/17) até  = 1.12 (da razão 19/17). 
 Busca com passo de 0,02. 
 22 fatores. 
 Utilizados os métodos estatísticos HMM e GMM-UBM. 
12 
II. Normalização de Locutor: 
VTLN (Vocal Tract Length Normalization)
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
13
III. Processo de busca utilizando HMM e GMM-UBM 
Método Estatístico : HMM 
 HMM – Hidden Markov Model (Modelo Oculto de Markov). 
 Máquina de estados finitos conectados. 
 A cada transição A = (푎푖푗) ocorre a emissão de um símbolo, com uma probabilidade B = 
(푏푖 (푂푡 ) ) formando uma sequência de símbolos observáveis. 
 Modela variabilidades temporais e espectrais. 
 Notação para caracterizar o modelo HMM. (Sendo π – o estado inicial). 
14 
Estrutura de um HMM left-right de 5 estados.
III. Processo de busca utilizando HMM e GMM-UBM 
Método Estatístico : GMM-UBM 
 GMM – Gaussian Mixture Models (Modelo de Mistura Gaussiana). 
 Modela qualquer tipo de distribuição de dados, alterando seus parâmetros de mistura. 
Ex: vetores acústicos extraídos de um sinal de voz de um locutor. 
 o GMM modela somente as variabilidades espectrais. 
 Utiliza-se a notação para caracterizar o modelo GMM. 
15 
Exemplo de 4 gaussianas na mistura (GMM)
III. Processo de busca utilizando HMM 
16
III. Processo de busca utilizando GMM-UBM 
17
III. Processo de busca utilizando HMM e GMM-UBM 
1-Distribuição dos valores dos Fatores de Escalonamento Ótimo 
 Conjunto de teste crianças: 
18 
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento. 
 Locutor criança “bg” do conjunto de teste: 
Utilizando o método de busca 
HMM 
Utilizando o método de busca 
GMM-UBM 
19 
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento. 
 Locutor criança “bg” do conjunto de teste: 
Utilizando o método de busca 
HMM 
Utilizando o método de busca 
GMM-UBM 
20 
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM 
2- Análise da curva de máxima verossimilhança por fator de escalonamento. 
 Locutor criança “bg” do conjunto de teste: 
Utilizando o método de busca 
HMM 
Utilizando o método de busca 
GMM-UBM 
21 
Avaliação dos Processos
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
22
IV. Reconhecimento do Sistema 
23 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Janela
IV. Reconhecimento do Sistema 
24 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Extração de Parâmetros: 
 Pré-Enfase: (1-0,97푧−1) 
 Janela: Hamming. Com duração de 
25ms e um atraso de 10 ms para o 
início da próxima janela. 
 Coeficientes: 39 MFCC (para cada 
locução proferida por cada locutor) 
 Banco de filtros: 24 filtros 
triangulares passa-faixa 
Janela
IV. Reconhecimento do Sistema 
25 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Base de Dados: 
 TIDIGITS – Texas Instruments 
 Inglês-americano 
 Dígitos conectados 
 325 locutores (111 homens, 114 
mulheres, 50 meninos e 50 
meninas). 
 77 locuções 
Janela
IV. Reconhecimento do Sistema 
26 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Topologia do modelo HMM: 
 5 estados, do tipo “left-right” 
utilizando trifones. 
Janela
IV. Reconhecimento do Sistema 
27 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Treinamento: 
 55 locutores femininos e 57 
locutores masculinos (112 
locutores no total). 
 Algoritmo Baum-Welch para 
reestimações.(HERest) 
 Gaussianas na Mistura: 1, 2, 4, 8, 
16, 32, 64, 128. 
Janela
IV. Reconhecimento do Sistema 
28 
Sinal de Pre-ênfase 
MFCC 
|FFT|² 
Banco de 
Filtro 
Log DCT 
Reconhecedor - HMM λ 
HCopy 
MFCC 
Treino 
Voz 
MFCC 
Teste 
Treinamento 
Teste 
WER% 
Extração de Parâmetros Acústicos 
Teste: 
 25 locutores meninos e 25 
locutores meninas (50 no total) 
normalizados com os fatores 
ótimos encontrados pelos 
métodos HMM e GMM-UBM para 
cada locutor 
 Algoritmo de Viterbi (HVite) 
 Obtenção da taxa de erro de 
palavra (WER%) 
Janela
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
29
V. Resultados Experimentais 
Cenário: Reconhecimento de Fala treinado por locutores adultos e utilizado com 
crianças. 
Objetivo: Medir a melhoria que a técnica VTLN pode fornecer ao sistema. 
Experimentos: Foram realizados três conjuntos de experimentos: 
 Treinamento com locutores adultos e teste com crianças normalizadas (A-C) 
 Treinamento com locutores masculinos e teste com crianças normalizadas (M-C) 
 Treinamento com locutores femininos e teste com crianças normalizadas (F-C) 
30
V. Resultados Experimentais 
 Sistema treinado com locutores Adultos e testado com Crianças: 
Mistura ótima (Ponto de mínimo): 
 64 Gaussianas na mistura. 
 Possível Razão - Por ser maior a 
variabilidade entre adultos. 
Taxa de Erro de Palavra (WER%): 
 HMM - no ponto de mínimo WER 
de 1,88% uma redução de 3,07% 
em relação à baseline. 
 GMM-UBM - no ponto de mínimo 
WER de 1,92%, uma redução de 
3,03% em relação a baseline. 
31 
Gaussianas na Mistura
Sistema treinado com Locutores Masculinos e testado com Crianças: 
Mistura ótima (Ponto de mínimo): 
 4 Gaussianas na mistura. 
 Possível Razão – A variabilidade 
é menor entre locutores 
masculinos. 
Taxa de Erro de Palavra (WER%): 
 HMM - no ponto de mínimo WER 
28,39% uma redução de 6,83% 
em relação à baseline. 
 GMM-UBM - no ponto de mínimo 
WER de 29,75%, uma redução 
de 5,47% em relação a baseline. 
 Mesmo com o VTLN, a WER 
continuou alta. 
32 
V. Resultados Experimentais 
Gaussianas na Mistura
Sistema treinado com Locutores Femininos e testado com Crianças: 
Mistura ótima (Ponto de mínimo): 
 32 Gaussianas na mistura. 
 Possível Razão – Há 
variabilidades entre os locutores 
femininos, por exemplo, alguns 
locutores femininos podem ter 
voz mais grave e outros mais 
agudos. 
Taxa de Erro de Palavra (WER%): 
 HMM - no ponto de mínimo WER 
1,47% uma redução de 2,4% em 
relação à baseline. 
 GMM-UBM - no ponto de mínimo 
WER de 1,58%, uma redução de 
2,29% em relação a baseline. 
33 
V. Resultados Experimentais 
Gaussianas na Mistura
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
34
Comparação entre os métodos HMM e GMM-UBM 
Desempenho: 
Nos experimentos, conforme observado nos Resultados, o desempenho entre os 
sistemas foi similar. 
35 
VI. Conclusões
VI. Conclusões 
Desempenho: 
Nos experimentos, conforme observado nos Resultados, o desempenho entre os 
sistemas foi similar. 
Complexidade de Implementação: 
HMM: 
• Requer uma topologia baseada em estados; 
• Os estados necessitam de uma probabilidade de transição e permanência, atualizados 
durante o treinamento; 
• Quanto maior a locução, mais complexo será o modelamento do sistema; 
• Necessidade de transcrição fonética. 
GMM-UBM 
• Utiliza somente um estado, que corresponde a palavra inteira; 
• Não utiliza transcrições fonéticas. 
• Mais simples! 
36 
Comparação entre os métodos HMM e GMM-UBM
37 
VI. Conclusões 
Comparação entre os métodos HMM e GMM-UBM 
Custo Computacional: 
 Tempo de Processamento 
• Busca pelo α-ótimo: 
HMM – 2 minutos por locutor 
GMM – 1 minuto e meio por locutor 
• Processamento dos modelos pré-treinados:
38 
VI. Conclusões 
Comparação entre os métodos HMM e GMM-UBM 
Custo Computacional: 
 Utilização dos Recursos de Memória* 
*utilizado o SensorsScreenlet v0.1 Linux Ubuntu 9.04
 Foi apresentada uma forma alternativa, mais simples, de menor custo 
computacional e de memória, com desempenho similar, para o cálculo dos α- 
ótimos, para a utilização da técnica VTLN. 
 A taxa de acertos subiu para 70,25% no caso de um sistema treinado com 
locutores adultos e testado com locutores crianças. 
HMM GMM-UBM 
Desempenho (WER%) 
Complexidade de 
Implementação 
Custo Computacional 
(Tempo de 
Processamento) 
Custo Computacional 
(Utilização dos Recursos 
de Memória) 
39 
VI. Conclusões
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
40
VII. Trabalhos Futuros 
Como sugestão de futuras investigações sugerem-se: 
 No processo de extração de características acústicas, utilização de janelas 
mais curtas, pois, segundo [1], deve-se proporcionar uma melhor adaptação à 
fala de crianças que têm tom mais alto, (por exemplo 15 ms). 
 Realizar uma análise comparativa dos métodos HMM e GMM-UBM para 
modelos acústicos dependentes de idades, pois, segundo [2], há uma forte 
relação entre o fator ótimo de escalonamento e a idade dos locutores 
crianças. 
[1] TEIXEIRA, A. D. C. Deteção e Correção de Disfluências em Crianças. Dissertação de Mestrado Faculdade de Ciência e 
Tecnologia. Coimbra. Portugal. 
41 
[2] GEROSA, M., GIULIANI, D., NARAYANAN, S. and POTAMIANOS, A., "A Review of ASR Technologies for Children’s", 
WOCCI'09 - Proceedings of the 2nd Workshop on Child, Computer and Interaction, pp. 3-6, Nov. 2009.
Agenda 
I. Contextualização 
II. Normalização do Locutor: VTLN 
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM 
IV. Reconhecimento do Sistema Normalizado 
V. Resultados Experimentais 
VI. Conclusões 
VII. Trabalhos Futuros 
VIII. Artigos Publicados 
42
VIII. Artigos Publicados 
 YNOGUTI, C. A. e MARTINS, R. M. , “GMM as an alternative to HMM in the 
search for the optimal warping factor for VTLN”, ITS 2014 - International 
Telecommunications Symposium, São Paulo – SP. 
 YNOGUTI, C. A. e MARTINS, R. M. , “Normalização do locutor em 
Sistemas de Reconhecimento de Fala para usuários crianças”, IHC 2014 - 
XIII Simpósio Brasileiro Sobre Fatores Humanos em Sistemas 
Computacionais, Paraná – PR. 
43
www.odinasr.blogspot.com 
mayor@mtel.inatel.br 
Obrigado !!! 
Mestrado em Telecomunicações 
09 de Outubro de 2014 
44

Mais conteúdo relacionado

Mais de Ramon Mayor Martins

IES GF - Linguagem de Programação Estruturada - Parte 1
IES GF - Linguagem de Programação Estruturada - Parte 1IES GF - Linguagem de Programação Estruturada - Parte 1
IES GF - Linguagem de Programação Estruturada - Parte 1Ramon Mayor Martins
 
IES GF - Circuitos Digitais - Parte 2
IES GF - Circuitos Digitais - Parte 2IES GF - Circuitos Digitais - Parte 2
IES GF - Circuitos Digitais - Parte 2Ramon Mayor Martins
 
IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1Ramon Mayor Martins
 
IFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareIFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareRamon Mayor Martins
 
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...Ramon Mayor Martins
 
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...Ramon Mayor Martins
 
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosIES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosRamon Mayor Martins
 
Nova geração de satélites brasileiros
Nova geração de satélites brasileirosNova geração de satélites brasileiros
Nova geração de satélites brasileirosRamon Mayor Martins
 
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Ramon Mayor Martins
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosRamon Mayor Martins
 
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRedes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRamon Mayor Martins
 

Mais de Ramon Mayor Martins (14)

IES GF - Linguagem de Programação Estruturada - Parte 1
IES GF - Linguagem de Programação Estruturada - Parte 1IES GF - Linguagem de Programação Estruturada - Parte 1
IES GF - Linguagem de Programação Estruturada - Parte 1
 
IES GF - Circuitos Digitais - Parte 2
IES GF - Circuitos Digitais - Parte 2IES GF - Circuitos Digitais - Parte 2
IES GF - Circuitos Digitais - Parte 2
 
IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1IES GF - Circuitos Digitais - Parte 1
IES GF - Circuitos Digitais - Parte 1
 
IFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por softwareIFSC SJ - Grupo de estudos em rádio definido por software
IFSC SJ - Grupo de estudos em rádio definido por software
 
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
IES GF - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - P...
 
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
IES - Ciência da Computação - Desenvolvimento de Sistemas Distribuídos - Part...
 
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a ObjetosIES GF - Introdução a Linguagem de Programação Orientada a Objetos
IES GF - Introdução a Linguagem de Programação Orientada a Objetos
 
INATEL - Matlab introdução
INATEL - Matlab introduçãoINATEL - Matlab introdução
INATEL - Matlab introdução
 
Introdução ao matlab
Introdução ao matlabIntrodução ao matlab
Introdução ao matlab
 
Nova geração de satélites brasileiros
Nova geração de satélites brasileirosNova geração de satélites brasileiros
Nova geração de satélites brasileiros
 
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
Application of Neural Network for Sensing Primary Radio Signals in a Cognitiv...
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios Cognitivos
 
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e DamageRedes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
Redes Neurais - Poda Hessiana: Optimal Brain Surgeon e Damage
 
Redes Oportunistas: Haggle
Redes Oportunistas: HaggleRedes Oportunistas: Haggle
Redes Oportunistas: Haggle
 

[Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN

  • 1. Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α- ótimo dos locutores crianças para utilização da técnica VTLN Aluno: Ramon Mayor Martins Prof. Orientador: Dr. Carlos Alberto Ynoguti Mestrado em Telecomunicações 09 de Outubro de 2014 1
  • 2. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 2
  • 3. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 3
  • 4. I. Contextualização  Nos últimos anos progressos significativos no desenvolvimento de Sistemas de Reconhecimento de Fala (SRF).  A maior parte das pesquisas devotada a sistemas para locutores adultos.  Fraco desempenho dos SRF para usuários crianças.  Recentemente, grande atenção foi dada aos SRF para crianças em diversas aplicações, por exemplo: 4
  • 5. I. Contextualização Brinquedos Sites Educacionais Tecnologias Assistivas Aplicativos para Celulares Tecnologias Contemporâneas SRF crianças 5 Entretenimento
  • 6. I. Contextualização  Desafio: Aumentar o desempenho dos SRF para crianças aos mesmos níveis que para os adultos.  Dificuldades: Variabilidades na fala entre locutores crianças e adultos.  Variabilidade: Comprimento do trato vocal (VTL). 6 19 cm 14,5 cm 12 cm
  • 7. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 7
  • 8.  Função: Mitigar as variabilidades do comprimento do trato vocal.  Técnica: Normalização de Comprimento do Trato Vocal (VTLN).  Investigações: SRF treinado com locutores adultos e utilizado para reconhecer fala infantil, VTLN é capaz de melhorar o desempenho do reconhecimento.  Funcionamento: Todos os locutores analisados são normalizados em relação a um 8 locutor médio (ou seja, para o SRF os locutores parecerão ter a mesma voz).  Processo: Transformação dos parâmetros acústicos da fala através de escalonamento do banco de filtros. II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  • 9. Escalonamento do banco de filtros:  Obtido a partir do escalonamento das frequências centrais do banco de filtros realizado por um fator de escalonamento (α).  O novo banco de filtros é obtido através da equação: 9 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  • 10. II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization) Escalonamento do banco de filtros: 10  As frequências no banco de filtro serão comprimidas se () ou serão expandidas se () .
  • 11. Fator de escalonamento ótimo (ótimo) O ótimo será aquele que maximiza a probabilidade de um conjunto de características acústicas de um determinado locutor em relação a um modelo acústico de referência. 11 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  • 12.  O fator ótimo é obtido pela busca entre uma faixa de fatores de escalonamento.  α é representado pela razão entre o VTL do locutor sendo analisado e o VTL utilizado como referência.  Faixa: SRF treinado com locutores adultos e testado com crianças:  = 0.70 (da razão 12/17) até  = 1.12 (da razão 19/17).  Busca com passo de 0,02.  22 fatores.  Utilizados os métodos estatísticos HMM e GMM-UBM. 12 II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
  • 13. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 13
  • 14. III. Processo de busca utilizando HMM e GMM-UBM Método Estatístico : HMM  HMM – Hidden Markov Model (Modelo Oculto de Markov).  Máquina de estados finitos conectados.  A cada transição A = (푎푖푗) ocorre a emissão de um símbolo, com uma probabilidade B = (푏푖 (푂푡 ) ) formando uma sequência de símbolos observáveis.  Modela variabilidades temporais e espectrais.  Notação para caracterizar o modelo HMM. (Sendo π – o estado inicial). 14 Estrutura de um HMM left-right de 5 estados.
  • 15. III. Processo de busca utilizando HMM e GMM-UBM Método Estatístico : GMM-UBM  GMM – Gaussian Mixture Models (Modelo de Mistura Gaussiana).  Modela qualquer tipo de distribuição de dados, alterando seus parâmetros de mistura. Ex: vetores acústicos extraídos de um sinal de voz de um locutor.  o GMM modela somente as variabilidades espectrais.  Utiliza-se a notação para caracterizar o modelo GMM. 15 Exemplo de 4 gaussianas na mistura (GMM)
  • 16. III. Processo de busca utilizando HMM 16
  • 17. III. Processo de busca utilizando GMM-UBM 17
  • 18. III. Processo de busca utilizando HMM e GMM-UBM 1-Distribuição dos valores dos Fatores de Escalonamento Ótimo  Conjunto de teste crianças: 18 Avaliação dos Processos
  • 19. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 19 Avaliação dos Processos
  • 20. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 20 Avaliação dos Processos
  • 21. III. Processo de busca utilizando HMM e GMM-UBM 2- Análise da curva de máxima verossimilhança por fator de escalonamento.  Locutor criança “bg” do conjunto de teste: Utilizando o método de busca HMM Utilizando o método de busca GMM-UBM 21 Avaliação dos Processos
  • 22. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 22
  • 23. IV. Reconhecimento do Sistema 23 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Janela
  • 24. IV. Reconhecimento do Sistema 24 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Extração de Parâmetros:  Pré-Enfase: (1-0,97푧−1)  Janela: Hamming. Com duração de 25ms e um atraso de 10 ms para o início da próxima janela.  Coeficientes: 39 MFCC (para cada locução proferida por cada locutor)  Banco de filtros: 24 filtros triangulares passa-faixa Janela
  • 25. IV. Reconhecimento do Sistema 25 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Base de Dados:  TIDIGITS – Texas Instruments  Inglês-americano  Dígitos conectados  325 locutores (111 homens, 114 mulheres, 50 meninos e 50 meninas).  77 locuções Janela
  • 26. IV. Reconhecimento do Sistema 26 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Topologia do modelo HMM:  5 estados, do tipo “left-right” utilizando trifones. Janela
  • 27. IV. Reconhecimento do Sistema 27 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Treinamento:  55 locutores femininos e 57 locutores masculinos (112 locutores no total).  Algoritmo Baum-Welch para reestimações.(HERest)  Gaussianas na Mistura: 1, 2, 4, 8, 16, 32, 64, 128. Janela
  • 28. IV. Reconhecimento do Sistema 28 Sinal de Pre-ênfase MFCC |FFT|² Banco de Filtro Log DCT Reconhecedor - HMM λ HCopy MFCC Treino Voz MFCC Teste Treinamento Teste WER% Extração de Parâmetros Acústicos Teste:  25 locutores meninos e 25 locutores meninas (50 no total) normalizados com os fatores ótimos encontrados pelos métodos HMM e GMM-UBM para cada locutor  Algoritmo de Viterbi (HVite)  Obtenção da taxa de erro de palavra (WER%) Janela
  • 29. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 29
  • 30. V. Resultados Experimentais Cenário: Reconhecimento de Fala treinado por locutores adultos e utilizado com crianças. Objetivo: Medir a melhoria que a técnica VTLN pode fornecer ao sistema. Experimentos: Foram realizados três conjuntos de experimentos:  Treinamento com locutores adultos e teste com crianças normalizadas (A-C)  Treinamento com locutores masculinos e teste com crianças normalizadas (M-C)  Treinamento com locutores femininos e teste com crianças normalizadas (F-C) 30
  • 31. V. Resultados Experimentais  Sistema treinado com locutores Adultos e testado com Crianças: Mistura ótima (Ponto de mínimo):  64 Gaussianas na mistura.  Possível Razão - Por ser maior a variabilidade entre adultos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER de 1,88% uma redução de 3,07% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 1,92%, uma redução de 3,03% em relação a baseline. 31 Gaussianas na Mistura
  • 32. Sistema treinado com Locutores Masculinos e testado com Crianças: Mistura ótima (Ponto de mínimo):  4 Gaussianas na mistura.  Possível Razão – A variabilidade é menor entre locutores masculinos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER 28,39% uma redução de 6,83% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 29,75%, uma redução de 5,47% em relação a baseline.  Mesmo com o VTLN, a WER continuou alta. 32 V. Resultados Experimentais Gaussianas na Mistura
  • 33. Sistema treinado com Locutores Femininos e testado com Crianças: Mistura ótima (Ponto de mínimo):  32 Gaussianas na mistura.  Possível Razão – Há variabilidades entre os locutores femininos, por exemplo, alguns locutores femininos podem ter voz mais grave e outros mais agudos. Taxa de Erro de Palavra (WER%):  HMM - no ponto de mínimo WER 1,47% uma redução de 2,4% em relação à baseline.  GMM-UBM - no ponto de mínimo WER de 1,58%, uma redução de 2,29% em relação a baseline. 33 V. Resultados Experimentais Gaussianas na Mistura
  • 34. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 34
  • 35. Comparação entre os métodos HMM e GMM-UBM Desempenho: Nos experimentos, conforme observado nos Resultados, o desempenho entre os sistemas foi similar. 35 VI. Conclusões
  • 36. VI. Conclusões Desempenho: Nos experimentos, conforme observado nos Resultados, o desempenho entre os sistemas foi similar. Complexidade de Implementação: HMM: • Requer uma topologia baseada em estados; • Os estados necessitam de uma probabilidade de transição e permanência, atualizados durante o treinamento; • Quanto maior a locução, mais complexo será o modelamento do sistema; • Necessidade de transcrição fonética. GMM-UBM • Utiliza somente um estado, que corresponde a palavra inteira; • Não utiliza transcrições fonéticas. • Mais simples! 36 Comparação entre os métodos HMM e GMM-UBM
  • 37. 37 VI. Conclusões Comparação entre os métodos HMM e GMM-UBM Custo Computacional:  Tempo de Processamento • Busca pelo α-ótimo: HMM – 2 minutos por locutor GMM – 1 minuto e meio por locutor • Processamento dos modelos pré-treinados:
  • 38. 38 VI. Conclusões Comparação entre os métodos HMM e GMM-UBM Custo Computacional:  Utilização dos Recursos de Memória* *utilizado o SensorsScreenlet v0.1 Linux Ubuntu 9.04
  • 39.  Foi apresentada uma forma alternativa, mais simples, de menor custo computacional e de memória, com desempenho similar, para o cálculo dos α- ótimos, para a utilização da técnica VTLN.  A taxa de acertos subiu para 70,25% no caso de um sistema treinado com locutores adultos e testado com locutores crianças. HMM GMM-UBM Desempenho (WER%) Complexidade de Implementação Custo Computacional (Tempo de Processamento) Custo Computacional (Utilização dos Recursos de Memória) 39 VI. Conclusões
  • 40. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 40
  • 41. VII. Trabalhos Futuros Como sugestão de futuras investigações sugerem-se:  No processo de extração de características acústicas, utilização de janelas mais curtas, pois, segundo [1], deve-se proporcionar uma melhor adaptação à fala de crianças que têm tom mais alto, (por exemplo 15 ms).  Realizar uma análise comparativa dos métodos HMM e GMM-UBM para modelos acústicos dependentes de idades, pois, segundo [2], há uma forte relação entre o fator ótimo de escalonamento e a idade dos locutores crianças. [1] TEIXEIRA, A. D. C. Deteção e Correção de Disfluências em Crianças. Dissertação de Mestrado Faculdade de Ciência e Tecnologia. Coimbra. Portugal. 41 [2] GEROSA, M., GIULIANI, D., NARAYANAN, S. and POTAMIANOS, A., "A Review of ASR Technologies for Children’s", WOCCI'09 - Proceedings of the 2nd Workshop on Child, Computer and Interaction, pp. 3-6, Nov. 2009.
  • 42. Agenda I. Contextualização II. Normalização do Locutor: VTLN III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM IV. Reconhecimento do Sistema Normalizado V. Resultados Experimentais VI. Conclusões VII. Trabalhos Futuros VIII. Artigos Publicados 42
  • 43. VIII. Artigos Publicados  YNOGUTI, C. A. e MARTINS, R. M. , “GMM as an alternative to HMM in the search for the optimal warping factor for VTLN”, ITS 2014 - International Telecommunications Symposium, São Paulo – SP.  YNOGUTI, C. A. e MARTINS, R. M. , “Normalização do locutor em Sistemas de Reconhecimento de Fala para usuários crianças”, IHC 2014 - XIII Simpósio Brasileiro Sobre Fatores Humanos em Sistemas Computacionais, Paraná – PR. 43
  • 44. www.odinasr.blogspot.com mayor@mtel.inatel.br Obrigado !!! Mestrado em Telecomunicações 09 de Outubro de 2014 44