Implementação da técnica VTLN 
Estudo de Métodos 
Aluno: Ramon Mayor Martins 
Prof: Carlos Alberto Ynoguti
Refinamento de Pesquisa 
Processamento de Voz 
Reconhecimento de Voz 
Reconhecimento de 
Palavras 
Independente do Locutor...
Refinamento de Pesquisa 
Processamento de Voz 
Reconhecimento de Voz 
Reconhecimento de 
Palavras 
Independente do Locutor...
Implementação do VTLN – Estudo dos Métodos 
-Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da 
Univ...
Implementação do VTLN – Estudo dos Métodos 
-Warping Factor Selection 
-2 grandes decisões: 
• Parametrico vs Não-Parametr...
Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 
VTLN 
Convencional 
VTLN Convencional 
Pre- 
Process 
FFT 
Banco de 
Filtr...
Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 
2 Formas de busca do Warp Factor Selection 
VTLN 
Convencional 
VTLN Conve...
VTLN Convencional 
-Distorção do Eixo de Frequencia: 
-O Banco de Filtros é escalonado no eixo das frequencias por um fato...
VTLN Convencional 
-Fator de Distorção (Warp Factor) 
-Com uma única FFT executada em cada segmento do sinal de fala anali...
VTLN Convencional 
-Fator de Distorção (Warp Factor) 
-A estimação segura deste comprimento deve ocorrer baseada em dados ...
VTLN Convencional 
-Fator de Distorção Otimo (Warp Factor) 
-O principal objetivo do VTLN é encontrar um fator de distorçã...
Métodos Estudados 
• Método Padrão 
0-Maximizing Likelihood [1] 
• Métodos Alternativos 
1- Maximizing Log-Likelihood [2] ...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
Artigo: 
[Lee, Rose , “A Frequency Warping approach to speaker normalizat...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Fator de Distorção Otimo ( OptimalWarp Factor) 
-Para cada locutor i , é...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Escolha do Fator de Distorção Otimo ( OptimalWarp Factor) 
-O melhor fat...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Algoritmo 
Inicialização 
-matrizes de transição e emissão , hmm1 pré-t...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Treinamento (baseado na tese da Raquel) 
-É realizado a partir de fones,...
Métodos Padrão 
Metodo 1: Maximizing Likelihood 
-Treinamento (baseado na tese da Raquel) 
-É feito uma comparação entre o...
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distort...
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Funcionamento: 
-Ao invés de avaliar vários fatores de distorçã...
Métodos Alternativos 
Metodo 1: Maximizing Log-Likelihood 
Motivação: 
-Reduzir a perturbação introduzida na estimação da ...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
-Particularidade do método: 
-A versossimilhan...
Métodos Alternativos 
Método 3: Pitch-Based Warp Factor estimation 
Motivação: 
-Melhorar o método da ML 
Funcionamento: 
...
Métodos Alternativos 
Método 3: Pitch-Based Warp Factor estimation 
-dado um pitch observado Fo = fi , o fator de distorçã...
Métodos Alternativos 
Método 4: Pitch-Based and ML Estimate – combination (MAP) 
Funcionamento: 
-Combinação dos Métidos 3...
Métodos Alternativos 
Método 2: Maximizing Likelihood with a GMM Reference 
Método 3: Pitch-Based Warp Factor estimation 
...
Métodos Alternativos 
Método 4: Pitch-Based and ML Estimate – combination (MAP) 
Funcionamento: 
-Combinação dos Métidos 3...
Métodos Alternativos – Método 5 
Método 5: Maximizing Likelihood with Jacobian Transcript 
Artigo: 
[Sarkar A., Umesh S. “...
Métodos Alternativos – Método 6 
Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM 
Artigo: 
[...
Métodos Alternativos – Método 6 
Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM 
Funcioname...
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Artigo: 
...
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Funcionam...
Métodos Alternativos – Método 7/8 
7- Maximizing Likelihood [Variação 1] 
8- Maximizing Likelihood [Variação 2] 
Variações...
Propostas 
Influência dos Parâmetros na Escolha do α ótimo (mel, delta 
delta mel) 
Influência da quantidade de locução ...
Bibliografia 
[Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] 
[Yoma et al, “On Reducin...
Próximos SlideShares
Carregando em…5
×

Implementação da técnica VTLN - Estudo dos métodos

228 visualizações

Publicada em

Estudo para Dissertação
Aluno: Ramon Mayor Martins
Professor. Dr. Carlos Alberto Ynoguti
Mestrado em Telecomunicações
INATEL - Instituto Nacional de Telecomunicações

Publicada em: Engenharia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
228
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
4
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Implementação da técnica VTLN - Estudo dos métodos

  1. 1. Implementação da técnica VTLN Estudo de Métodos Aluno: Ramon Mayor Martins Prof: Carlos Alberto Ynoguti
  2. 2. Refinamento de Pesquisa Processamento de Voz Reconhecimento de Voz Reconhecimento de Palavras Independente do Locutor HMM VTLN Warping Factor Selection LT Metodos Warp Application Warp Type Parametric Features Based Sintese da Fala Codificacao da Fala Reconhecimento de Locutor Identificação da Linguagem Dependente do Locutor Fala Discreta Fala Contínua Fala Discreta Fala Contínua Non- Parametric HMM Based Modo Normal Modo Calibração 1- Maximum Likelihood 2- Maximum Log-Likelihood 3- ML com referencia GMM 7- ML warp factor respect GMM-UBM 4- Pitch-Based warp factor estimation 5- Pitch-Based + ML estimation com 6-ML with Jacobian 8- ML variacao 1 9- ML variacao 2
  3. 3. Refinamento de Pesquisa Processamento de Voz Reconhecimento de Voz Reconhecimento de Palavras Independente do Locutor HMM VTLN Warping Factor Selection LT Metodos Warp Application Warp Type Parametric Features Based Sintese da Fala Codificacao da Fala Reconhecimento de Locutor Identificação da Linguagem Dependente do Locutor Fala Discreta Fala Contínua Fala Discreta Fala Contínua Non- Parametric HMM Based Modo Normal Modo Calibração 1- Maximum Likelihood 2- Maximum Log-Likelihood 3- ML com referencia GMM 7- ML warp factor respect GMM-UBM 4- Pitch-Based warp factor estimation 5- Pitch-Based + ML estimation com 6-ML with Jacobian 8- ML variacao 1 9- ML variacao 2
  4. 4. Implementação do VTLN – Estudo dos Métodos -Brian Widmer do SSLI (Signal, Speech and Language Interpratation Lab da Universidade de Washington) recomendou 3 áreas de pesquisa sobre o VTLN. • Warping Factor Selection: Como escolher o fator ótimo de distorção de cada locutor • Warp Application: Como aplicar a distorção nos dados • Warp Type: Linear, Não-Linear, Piece-wise Linear. -Procurou-se fazer uma pesquisa com relação á busca do Fator ótimo de distorção.
  5. 5. Implementação do VTLN – Estudo dos Métodos -Warping Factor Selection -2 grandes decisões: • Parametrico vs Não-Parametrico: Estimar o fator de distorção , ou buscar o fator ótimo sobre uma faixa pré-determinada de fatores de distorção. • HMM (Model) Based vs Feature Based: Usar HMM pré-treinados para estimar o fator de distorção , ou estima-lo baseando nas características da fala? Feature Based , podem ser movidos inteiramente no processamento de sinais do Front-End
  6. 6. Diagrama de Blocos: [Front-End ->VTLN -> HMM ] VTLN Convencional VTLN Convencional Pre- Process FFT Banco de Filtro Log DCT HCopy MFCC Treino Distorção do Eixo de Freq. Normalização de Locutor Implementação do Banco Transformação dos Parametros HCompV Sinal de MFCC Voz HERest HHEd MFCC Teste config .mfcc HVite HResult Front-End , Extração de Características Reconhecedor - HMM HMM Treinamento Teste Likelihood Acc
  7. 7. Diagrama de Blocos: [Front-End ->VTLN -> HMM ] 2 Formas de busca do Warp Factor Selection VTLN Convencional VTLN Convencional Pre- Process FFT Banco de Filtro Log DCT HCopy MFCC Treino Distorção do Eixo de Freq. Normalização de Locutor Implementação do Banco Transformação dos Parametros Feature Based HCompV Sinal de MFCC Voz HERest HHEd MFCC Teste config .mfcc HVite HResult Front-End , Extração de Características Reconhecedor - HMM hmmx Treinamento Teste Likelihood Acc Warp Factor Selection HMM Model Based
  8. 8. VTLN Convencional -Distorção do Eixo de Frequencia: -O Banco de Filtros é escalonado no eixo das frequencias por um fator de distorção. -Segundo [1] tem-se maior eficiência do método quando o processo de distorção é realizado no banco de filtros (variação do banco de filtros)
  9. 9. VTLN Convencional -Fator de Distorção (Warp Factor) -Com uma única FFT executada em cada segmento do sinal de fala analisado, pode-se empregar diferentes fatores de distorção (normalização) diretamente no banco de filtros. -Função: Escalonar um banco de filtros , afim de compensar a variação do comprimento do trato vocal de um locutor em relação a um trato vocal de comprimento médio. -Representado pela razão entre o comprimento do trato vocal do locutor sendo analisado e o comprimento do trato vocal utilizado como referencia.
  10. 10. VTLN Convencional -Fator de Distorção (Warp Factor) -A estimação segura deste comprimento deve ocorrer baseada em dados acusticos. -No entanto isso é dificil de fazer uma vez que diferentes locutores possuem diferentes comprimentos de trato vocal, que podem ser modificados de acordo com o som produzido. -Segundo [1] a melhor forma de se obter o fator responsavel pelo escalonamento é escolhe-lo de modo que a probabilidade de um conjunto de caracteristicas acusticas , de um determinado locutor, seja maximizada em relação a um dado modelo acustico tomado como referencia. -Não leva em consideração o movimento dos labios (não tem efeito significativo na estimação do fator de distorção) -O Fator de distorção pode ser estimado.
  11. 11. VTLN Convencional -Fator de Distorção Otimo (Warp Factor) -O principal objetivo do VTLN é encontrar um fator de distorção otimo para deformar o eixo da frequência do sinal de fala, de modo que variações de frequências formantes dos locutores pronunciando o mesmo som seja reduzida. [Umesh - Indian Academy of Sciences,2011] -O melhor alpha será aquele que, ao escalonarmos o banco de filtro, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções [Lee and Rose,1998] , o que define o método padrão de busca do alpha ótimo, usado na maioria dos artigos.
  12. 12. Métodos Estudados • Método Padrão 0-Maximizing Likelihood [1] • Métodos Alternativos 1- Maximizing Log-Likelihood [2] 2- Maximizing Likelihood with a GMM Reference [3] 3- Pitch-Based Warp Factor estimation [3] 4- Pitch-Based and ML Estimate – combinantion [3] 5- Maximizing Likelihood with Jacobian Transcript [4] 6- Maximizing Likelihood warp factor estimation respect to the GMM-UBM [5] 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2]
  13. 13. Métodos Padrão Metodo 1: Maximizing Likelihood Artigo: [Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] Resumo: -O paper apresenta um método eficiente de estimar o fator de distorção e um mecanismo para implementar o banco de filtro. Obs: Bem explorado na tese da Raquel.
  14. 14. Métodos Padrão Metodo 1: Maximizing Likelihood -Fator de Distorção Otimo ( OptimalWarp Factor) -Para cada locutor i , é então obtido pela máxima probabilidade de se obter um conjunto de características acústicas, dado um modelo λ e as transcrições de cada locução referente ao locutor i - conjunto de características acusticas de todas as N Locuções do locutor i, escalonados de alpha - conjunto de transcrições de todas as N locuções associadas a um dado locutor i - ótimo fator de distorção para o locutor i λ – representa o modelo HMM treinado por um grande numero de locutores
  15. 15. Métodos Padrão Metodo 1: Maximizing Likelihood -Escolha do Fator de Distorção Otimo ( OptimalWarp Factor) -O melhor fator de distorção será aquele que, ao escalonarmos o banco de filtros, na escala Mel, proporcionará a maior verossimilhança média nas suas locuções. -Na escolha são levados em consideração -Todas as locuções do locutor analisado -A transcrição fonética das locuções associadas a este locutor -Sub-unidades adotadas (fones) -modelo HMM utilizado como referencia
  16. 16. Métodos Padrão Metodo 1: Maximizing Likelihood -Algoritmo Inicialização -matrizes de transição e emissão , hmm1 pré-treinado Recursao -Definição de variável [alpha, Wi, Lambda, Xi ] -Para cada locutor i, faz: -calcular a maxima verossimilhança entre os 13 valores de alpha -Armazenar o valor de alpha que proporciona a max verossimilhança associado a seu respectivo locutor -Usa-se o Viterbi para isso Termino -Finalizado quando se obtem para cada locutor i, o seu respectivo alpha
  17. 17. Métodos Padrão Metodo 1: Maximizing Likelihood -Treinamento (baseado na tese da Raquel) -É realizado a partir de fones, locuções de treinamento separados por locutor, transcrição fonética, alphas obtidos para cada locutor, e o modelo hmm1 (sem normalização). -Inicialmente: -Calculam-se os alpha otimos para cada locutor do conjunto de M locutores de treinamento -Em seguida os alphas associados a seus respectivos locutores são empregados para calcular um novo conjunto de parametros mel-cepstrais q serao utilizados no treinamento do sistema -O treinamento é entao executado durante tantas epocas (até a distorção de 0.001 de uma época para outra) -Depois de realizada todas as epocas tem-se um novo modelo HMM
  18. 18. Métodos Padrão Metodo 1: Maximizing Likelihood -Treinamento (baseado na tese da Raquel) -É feito uma comparação entre os valores alpha novo e alpha incialmente calculado -Obtem-se no final deste processo o HMM normalizado -Reconhecimento -Realizado da mesma forma q no sistema s/ normalização -Entretanto, antes d se reconhecer cada locução deve-se escolher o melhor fator de distorção para cada um dos locutores de teste -O HMM normalizado (obtivo após o retreinamento) é utilizado tanto na escolha do melhor alpha quanto no reconhecimento das locucoes -Uma vez obtido o melhor fator de distorção , para cada locutor, este fator é utilizado para todos as demais locucoes do respectivo locutor (na obtencao dos parametros acusticos)
  19. 19. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Artigo: [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013] Resumo do escopo do estimador: -Apresenta um método que não é encontrado na literatura -Apresenta um esquema de otimização baseado na máxima verossimilhança para obter o fator de distorção (warp factor) para substituir o grid search. -O fator de distorção mostrado no artigo , mostrou mais dependência do locutor e mais independencia do conteudo acustico –fonético do que o fator de distorção resultante dos métodos VTLN-convencional e VTLN estado da arte
  20. 20. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Funcionamento: -Ao invés de avaliar vários fatores de distorção para escolher aquele que maximiza a verossimilhança , é sempre desejável estimar o ótimo analiticamente Estimador: C – vetor característica S – sequencia de estados dentro do λ (representando a decodificacao da melhor hipotese dada por Viterbi, computado com C) λ – sequencia de fonemas dependentes de contexto , modelo HMM com K estados - fator distorção otimo , estimado pelo maximo log-verossimilhança
  21. 21. Métodos Alternativos Metodo 1: Maximizing Log-Likelihood Motivação: -Reduzir a perturbação introduzida na estimação da energia do banco de filtro Mel pela composição harmonica dos intervalos de fala e amostras DFT quando a frequencia central dos filtros passa-faixa é deslocado. Contra o Método Padrão: -O deslocamento da frequencia central dos filtros passa-faixa pode introduzir perturbações na estimação de energia do filtro devido a descontinuidade causada pela DFT e a estrutura harmonica dos sinais de voz. Este problema é especialmente agudo nas baixas frequencias onde a largura de faixa do filtro é estreito de acordo com a escala Mel.
  22. 22. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (Maximum a posteriori) Artigo: [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005] Resumo: -Descrito uma abordagem alternativa -Explora a correlação entre o pitch médio do locutor e o comprimento do trato vocal, o modelo de distribuição de probabilidade do fator distorção condicionado na observação do pitch -Pitch do locutor (tom da voz, altura do som)
  23. 23. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) -Investigação : -A estimação do fator de distorção baseado no pitch para VTLN é eficiente e requer baixo custo computacional -O método mais comum para achar o fator de distorção no VTLN invoca o critério de ML para escolher o fator de distorção que da a maior probabilidade de observação para o locutor -A maxima verossimilhança pode ser computada usando modelos de reconhecimento de fones. Alternativas: -Como Alternativa o fator de distorção pode ser escolhido pela maxima verossimilhança das referencias acusticas dos Modelos de Misturas Gaussianas (GMM)
  24. 24. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) -Alternativas: -Outra abordagem de predição do fator de distorção é observando mais diretamente parametros acusticos da fala, tal como os formantes (frequencias ressonante do trato vocal) -Há o método proposto por [C. Lopes e Perdigão, “VTLN through warp factors based on pitch”, Revista Brasileira de Telecomunicações, vol 18 , 2003], onde o fator de distorção é computado usando a relação do pitch de um locutor para um valor de referencia. Faria, o autor do artigo sob analise, acredita que essa abordagem não é ótima desde que o pitch não é diretamente proporcional ao comprimento do trato vocal. -De acordo com [Eide e Gish, 1996] , frequencias formantes são diretamente proporcional ao comprimento do trato vocal.
  25. 25. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Motivação: -O trabalho de Faria, apresenta uma abordagem inspirada pela correlação entre o tamanho laringeal e o comprimento do trato vocal. Funcionamento: -Durante o treinamento, a distribuição conjunta do pitch e o fator de distorção é estimado pelo acumulo da verossimilhança da observação acustica na medida dos valores do pitch. -Essa distribuição conjunta, pode ser utilizada para selecionar o fator de distorção mais provavel dado um pitch médio de um locutor, ou pode ser utilizada como prioridade baseada em pitch para combinação com a maxima verossimilhança usado na estimação do fator de distorção.
  26. 26. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Vantagens: -O processo de seleção do fator de distorção pode ser reduzido para a extração de pitch, o qual irá reduzir o custo computacional e os recursos de memoria requerido pelo VTLN. -Usando o fator de estimação baseado em pitch para VTLN, provê uma melhora substancial no sistema sem VTLN -consegue-se ter uma maior precisão.
  27. 27. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference -Particularidade do método: -A versossimilhança acustica pode ser computada usando uma Mistura Multivariada Gaussiana ao modelo de fala generico em vez do modelamento HMM temporal. -a seleçao do fator de distorção pode ser deslocado completamente para o front-end, com uma referencia GMM , para atribuir probabilidades dos frames de locuções (warped utterance frames) -Mais eficiente para estimar o fator de estimação (elimina a necessidade de full recognition passes and rescored alignments)
  28. 28. Métodos Alternativos Método 3: Pitch-Based Warp Factor estimation Motivação: -Melhorar o método da ML Funcionamento: -Correlação entre o pitch médio do locutor e o tamanho do seu trato vocal -Leva em consideração a glote e as pregas vocais (o que afeta as caracteristicas da fala) -Pitch Based Warp Factor , simplesmente requer a probabilidade condicional onde: Fo – associado um valor único do pitch Fo de cada locutor fi – é considerado o pitch médio do frame da fala do i-ésimo locutor
  29. 29. Métodos Alternativos Método 3: Pitch-Based Warp Factor estimation -dado um pitch observado Fo = fi , o fator de distorção é encontrado por: -O modelamento de dos dados de treinamento é dado pela Probabilidade condicional de um alpha em particular.
  30. 30. Métodos Alternativos Método 4: Pitch-Based and ML Estimate – combination (MAP) Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  31. 31. Métodos Alternativos Método 2: Maximizing Likelihood with a GMM Reference Método 3: Pitch-Based Warp Factor estimation Método 4: Pitch-Based and ML Estimate – combinantion (MAP) Discussão: -O método 3, VTLN com estimação de fator de distorção baseado em pitch é um método eficiente de normalização de locutor -Os experimentos demonstraram uma redução substancial no WER comparado com um sistema sem VTLN -Deste modo , pitch foi util para estimar o fator de distorção, mesmo quando calculado sobre locuções curtas. -É quase tão bom quanto o ML -O método 4, melhorou bastante os resultados -Mas somente no cenário com dados normalizados limitados
  32. 32. Métodos Alternativos Método 4: Pitch-Based and ML Estimate – combination (MAP) Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  33. 33. Métodos Alternativos – Método 5 Método 5: Maximizing Likelihood with Jacobian Transcript Artigo: [Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010] Resumo: -No artigo é estudado o efeito de usar o Jacobiano no VTLN como uma transformação linear. Funcionamento: -Combinação dos Métidos 3 e 4 -o fator de distorção utiliza um critério de Maximum a posteriori -Obteve resultados muito bons para a Normalização de Locutor, comparado aos outros métodos e ao método padrão
  34. 34. Métodos Alternativos – Método 6 Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM Artigo: [Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker-Cluster UBM for Speaker Verification”, IEEE NCC, 2010] Resumo: -Tenta combinar o espectro de um locutor para outro locutor pelo escalonamento do eixo de frequencia do espectro com um fator de distorção ,ou fator VTLN. -a estimação do fator de distorção é feito com respeito ao GMM-UBM
  35. 35. Métodos Alternativos – Método 6 Método 6: Maximizing Likelihood warp factor estimation respect to the GMM-UBM Funcionamento: -Os passos envolvem uma estimação de α e um cluster de locutores baseado em α -Usa um separador UBM para um grupo de locutores alvo -Os locutores alvo são agrupados / clusterizados baseados no fator α
  36. 36. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Artigo: [Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009] Resumo: -O paper propoe usar modelo com uma gaussiana por estado no HMM como um conjunto de modelo inicial -Propoe algumas variacoes no método padrão -Suprir a fraqueza do método padrão.
  37. 37. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Funcionamento: -O procedimento termina imediatamente após a 1ª iteração -O modelo com uma gaussiana por estado HMM é escolhido porque ele não pode aprender as caracteristica de um locutor em particular , ao contrário dos modelos HMM com mais de uma mistura Gaussiana por estado. Fraqueza do método padrão -A fraqueza do processo padrão para estimação, é que ele favorece fonemas frequentes e longos.
  38. 38. Métodos Alternativos – Método 7/8 7- Maximizing Likelihood [Variação 1] 8- Maximizing Likelihood [Variação 2] Variações para melhorar o método padrão -1ª variação: Maximum Sample mean of likelihood per phoneme para um locutor em particular -objetivo: Eliminar a influencia da duração, mas não a influencia da frequencia do fone na estimação do coeficiente VTN. -2ª variação: Likelihood of a particular phoneme ,representa a média amostral da verossimilhança de todo vetor caracteristica que pertence a esse fonema. -método mais robusto.
  39. 39. Propostas Influência dos Parâmetros na Escolha do α ótimo (mel, delta delta mel) Influência da quantidade de locução na escolha do α ótimo Reduzir a diferença de Crianças para Adultos o máximo possível Otimizar o VTLN Convencional
  40. 40. Bibliografia [Lee, Rose , “A Frequency Warping approach to speaker normalization” , IEEE, 1998] [Yoma et al, “On Reducing Harmonic and Sampling Distortion in Vocal Tract Length Normalization”, IEEE Transactions on ASLP, 2013] [Faria A., Gelbart D. “Efficient Pitch-Based Estimation of VTLN Warp Factors”, INTERSPEECH, 2005] [Sarkar A., Umesh S. “Effect of Jacobian Compensation in Linear Transformation based VTLN under Matched and Mis-matched Speaker Conditions, IEEE, 2010] [Sarkar A., Umesh S., “Vocal Tract Lenght Normalization Factor Based Speaker- Cluster UBM for Speaker Verification”, IEEE NCC, 2010] [Jakovljevic N. , Secujski S. , “Vocal Tract Length Normalization Strategy Based on Maximum Likelihood Criterion” , IEEE , 2009]

×