Sistemas de Reconhecimento de Fala

Hidden Markov Model
Sistemas de Reconhecimento de Fala
Gabriel F. Araujo
Departamento de Computa¸c˜ao
Universidade Federal de Sergipe
gabrielfa@dcomp.ufs.br
15 de dezembro, 2012

Hidden Markov Model
Modelos Escondidos de Markov (HMM)
Observable Markov Model (OMM)
Ω = {1, 2, . . . , N} - Um
conjunto de estados
A = {aij } - Uma matriz de
probabilidades de transi¸c˜ao
π = {πi } - Um vetor de
probabilidades do estado inicial
Hidden Markov Model (HMM)
Ω = {1, 2, . . . , N} - Um
conjunto de estados
A = {aij } - Uma matriz de
probabilidades de transi¸c˜ao
π = {πi } - Um vetor de
probabilidades do estado inicial
O = {o1, o2, . . . , oM} - Alfabeto
de sa´ıda
B = {bi (k)} - Uma matriz de
probabilidades de sa´ıda
Gabriel F. Araujo (UFS) HMM 15 de dezembro, 2012 2 / 27

Hidden Markov Model
Exemplo - Markov Chain ou OMM
Dow Jones Industrial average
Ω = {up, down, unchanged} - Um conjunto de estados
A =



0.6 0.2 0.2
0.5 0.3 0.2
0.4 0.1 0.5


 - Uma matriz de probabilidades de transi¸c˜ao
π =



0.5
0.2
0.3


 - Um vetor de probabilidades do estado inicial

Hidden Markov Model
Exemplo - Markov Chain ou OMM

Hidden Markov Model
Exemplo - Hidden Markov Model ou HMM
Dow Jones Industrial average
Ω = {1, 2, 3} - Um conjunto de estados
A =



0.6 0.2 0.2
0.5 0.3 0.2
0.4 0.1 0.5


 - Uma matriz de probabilidades de transi¸c˜ao
π =



0.5
0.2
0.3


 - Um vetor de probabilidades do estado inicial
O = {up, down, unchanged} - Alfabeto de sa´ıda
B =



0.7 0.1 0.3
0.1 0.6 0.3
0.2 0.3 0.4


 - Uma matriz de probabilidades de sa´ıda

Hidden Markov Model
Exemplo - Hidden Markov Model ou HMM

Hidden Markov Model
Questões
Avalia¸cão
Dado um HMM Φ e a sequência de observa¸cões X = (X1, X2, . . . , XT ),
qual a probabilidade P(X|Φ) ?
The Forward Algorithm
Decodifica¸cão
qual a sequência de estados S = (S1, S2, . . . , ST ) mais provável?
The Virtebi Algorithm
Treinamento
como podemos ajustar os parâmetros Φ do modelo, para maximizar a
probabilidade do conjunto?
The Baum-Welch Algorithm

Processamento de Fala
Sistemas de Processamento de Fala
A fala é a forma predominante de
comunica¸cão entre os seres humanos.
Reconhecimento de Fala
(Automatic Speech Recognition)
Sintese de Fala
(Text-to-Speech Conversion)
Compreensão de Fala
(Spoken Language Understanding)
Reconhecimento de fala:
“... identificar uma sequência de
palavras articuladas por um
falante, dado o sinal acústico.”
[Norvig and Russell, 2003]

Framework Estat´ıstico
palavras - sequências poss´ıveis de palavras que podem ser articuladas
sinal - sequência de sinais acústicos observada
P(palavras|sinal) (1)

Pela regra de Bayes:
P(palavras|sinal) =
P(sinal|palavras)P(palavras)
P(sinal)
= αP(sinal|palavras)P(palavras)
(2)

Arquitetura B´asica
Arquitetura padr˜ao de sistemas de reconhecimento de fala (ASR’s)
[Huang, Acero and Hon, 2001]

Processamento do Sinal
Aquisi¸cão do sinal
taxa de amostragem: discretiza¸cão do sinal cont´ınuo
Ex: 8 ∼ 16kHz — 8 a 16 mil vezes por segundo
fator de quantiza¸cão: precisão da medi¸cão de cada amostra
Ex: 8 ∼ 12bits — quantidades de bits para representar cada amostra

Aquisi¸cão do sinal
taxa de amostragem: discretiza¸cão do sinal cont´ınuo
Ex: 8 ∼ 16kHz — 8 a 16 mil vezes por segundo
fator de quantiza¸cão: precisão da medi¸cão de cada amostra
Ex: 8 ∼ 12bits — quantidades de bits para representar cada amostra
Ex: 1 minuto de fala,
8kHz e 8bits
8000 × 60 ≈ 480kbytes

Representa¸cão do sinal
o sinal é analisado em quadros
um segmento de sinal curto o suficiente, pode ser considerado
estacionário
mudan¸cas de conteúdo do sinal ocorrem em baixa frequência
tamanho do quadro é de 10 ∼ 20ms – sobreposi¸cão (overlapping)
extra¸cão das caracter´ısticas importantes
o que caracteriza o sinal naquele momento
informa¸cões sêm importância são eliminadas
Sinal de fala
Segmenta¸cão
em quadros
Caracter´ısticas

Extra¸cão de Caracter´ısticas
Jean Baptiste Joseph
Fourier
Espectro de frequência
Transformada de Fourier
LPC (Linear Predictive Coding)
PLP (Perceptual Linear Predictive)
MFCC (Mel-Frequency Cepstral
Coefficients)
modelar a sensibilidade do ouvido
humano

Modelo Acústico
Modelo de Fone (Modelo de sensor)
Descreve como um fone é mapeado sobre uma sequência de quadros
P(caracteristicas|fone) = ?
caracter´ıstica: valor discreto, 0 ∼ 255
n caracter´ısticas ⇒ 256n
probabilidades a serem estimadas
Adimitir valor cont´ınuo. Distribui¸cão Gaussiana!!!
P(x) =
1
(2π)d/2|Σ|1/2
exp −
1
2
(x − µ)t
Σ−1
(x − µ) (4)
Na prática, somente uma gaussiana para cada fone não funciona bem
Solu¸cão: mistura de gaussianas (GMM - Gaussian Mixture Models)

Modelo Acústico
Modelo de Pronúncia (Modelo de transi¸cão)
Descreve como uma palavra é mapeada sobre uma sequência de fones
A probabilidade de um caminho é o produto das probabilidades dos
arcos que constiutem o caminho
cada palavra tem seu modelo
permite varia¸cões de dialetos
Ex: “tomato” ⇒ [t ow m ey t ow] , [t ow m aa t ow]

Modelo Acústico
Modelo de Pronúncia (Modelo de transi¸cão)
Descreve como uma palavra é mapeada sobre uma sequência de fones
A probabilidade de um caminho é o produto das probabilidades dos
arcos que constiutem o caminho
cada palavra tem seu modelo
permite varia¸cões de dialetos
Ex: “tomato” ⇒ [t ow m ey t ow] , [t ow m aa t ow]
P([t ow m ey t ow]|“tomato”) = P([t ow m aa t ow]|“tomato”) = 0.5

Modelo Acústico
Considera¸cões
co-articula¸cão
a acústica de um fone é afetada por aqueles que o circundam
no modelo de fone
modelos bifone e trifone
Ex: um GMM para cada tupla de fones
(fi , fi−1, fi+1) ⇒ {[m, ow, ey], [m, ow, aa], ...}
no modelo de pronúncia

Modelo Acústico
Considera¸cões
co-articula¸cão
no modelo de fone

Modelo Acústico
Considera¸cões
co-articula¸cão
no modelo de fone
P([t ah m ey t ow]|“tomato”) = P([t ah m aa t ow]|“tomato”) = 0.4

Modelo Acústico
Considera¸cões
fones de três estados

Modelo Ac´ustico
Exemplo de HMM da palavra “c´eu”[s E w]

Modelo Lingu´ıstico
P(palavras) = ?
modelar a sintaxe da linguagem
P(w1 · · · wn) = P(w1)P(w2|w1)P(w3|w1w2) · · · P(wn|w1 · · · wn−1)
=
n
i=1
P(wi |w1, w2, · · · , wi−1)
(5)

P(palavras) = ?
modelar a sintaxe da linguagem
P(w1 · · · wn) = P(w1)P(w2|w1)P(w3|w1w2) · · · P(wn|w1 · · · wn−1)
=
n
i=1
P(wi |w1, w2, · · · , wi−1)
(5)
Modelo N-Grams
Suposi¸c˜ao de Markov: Considera-se apenas N − 1 palavras anteriores
Da´ı o nome N-gram: uni-gram, bi-gram, tri-gram, . . .
P(w1, w2, · · · , wm) =
m
i=1
P(wi |w1, w2, · · · , wi−1)
≈
m
i=1
P(wi |wi−N+1, wi−N+2 · · · , wi−1)
(6)

N-gram
probabilidades representadas em escala logar´ıtimica
P(Eu,tenho, uma, rea¸c˜ao) =
= P(Eu)P(tenho|Eu)P(uma|Eu, tenho)P(rea¸c˜ao|tenho, uma)
= 10(−3.052994)+(−1.578986)+(−0.9324666)+(−2.410228)
= 10−7.9746746
≈ 1.1 × 10−8

N-gram
probabilidades representadas em escala logar´ıtimica
P(Eu,tenho, uma, rea¸cão) =
= P(Eu)P(tenho|Eu)P(uma|Eu, tenho)P(rea¸cão|tenho, uma)
= 10(−3.052994)+(−1.578986)+(−0.9324666)+(−2.410228)
= 10−7.9746746
≈ 1.1 × 10−8
P(Eu,tenho, uma, rela¸cão) =
= P(Eu)P(tenho|Eu)P(uma|Eu, tenho)P(rela¸cão|tenho, uma)
= 10(−3.052994)+(−1.578986)+(−0.9324666)+(−1.638537)
= 10−7.2029836
≈ 6.3 × 10−8

Smoothing
Problema: escassez de dados
N-grams que não ocorrem nos dados de treinamento
técnicas de smoothing
Modelos de backoff
Psmooth(wi |wi−N+1 · · · wi−1)
=
α(wi |wi−N+1 · · · wi−1), se C > 0
γ(wi−N+1 · · · wi−1)Psmooth(wi |wi−N+2 . . . wi−1), se C = 0
Modelos de interpola¸cão
Psmooth(wi |wi−N+1 · · · wi−1)
= λPML(wi |wi−N+1 · · · wi−1) + (1 − λ)Psmooth(wi |wi−N+2 · · · wi−1)

Gramáticas Probabil´ısticas
gramáticas livre de contexto (CFGs)
probabilidades associadas a cada regra de produ¸cão
P(A → αj |G) = C(A → αj )/
m
i=1
C(A → αi )
probabilidade de uma senten¸ca
P(S ⇒ W|G)

Decodiﬁcador
Como encontrar a sente¸ca ˆW ?

Decodiﬁcador
´Unico HMM combinando todos os modelos de palavras
estados
fone
estado atual do fone
palavra
Ex: [w]tomato
in´ıcio

Decodificador
estados
fone
palavra
Ex: [w]tomato
in´ıcio
transi¸cões
entre estados de fone
entre fones de uma palavras
entre o estado final de uma palavra e o estado inicial de outra

Decodificador
estados
fone
palavra
Ex: [w]tomato
in´ıcio
transi¸cões
entre estados de fone
entre fones de uma palavras
entre o estado final de uma palavra e o estado inicial de outra
Problema de busca!
Algoritmo Virtebi (Programa¸cão Dinâmica)
Algoritmo A*

Decodiﬁcador
[aa n iy dh ax] I need the

Divers˜ao
Hands on!

Referências
Referências
Russell, S. J., and P. Norvig. Artificial Intelligence: A Modern
Approach. Upper Saddle River, NJ: Prentice Hall/PearsonEducation.,
2003.
Huang, X., Acero, A., and Hon, H.W. Spoken Language Processing:
A Guide to Theory, Algorithm, and System Development. Upper
Saddle River, NJ: Prentice Hall PTR, 2001.

Sistemas de Reconhecimento de Fala

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Sistemas de Reconhecimento de Fala