Daniel Gonçalves Gomes
Elizângela Mara Rodrigues de Oliveira
Nathália Amorim Zolini
Identificação de Padrões de Fricativas ...
Daniel Gonçalves Gomes
Elizângela Mara Rodrigues de Oliveira
Nathália Amorim Zolini
Identificação de Padrões de Fricativas ...
Daniel Gonçalves Gomes
Elizângela Mara Rodrigues de Oliveira
Nathália Amorim Zolini
Identificação de Padrões de Fricativas ...
Daniel Gonçalves Gomes
Elizângela Mara Rodrigues de Oliveira
Nathália Amorim Zolini
Identificação de Padrões de Fricativas ...
Dedicamos este trabalho aos nossos Mestres, aos nossos familiares e amigos.
Agradecimentos
Agradecemos a Deus pela inspiração e capacitação. Aos meus orientadores, pelo
infinito apoio e dedicação, à ...
“Não podemos querer que as coisas mudem, se sempre fazemos o mesmo. A crise
é a maior benção que pode acontecer às pessoas...
Resumo
Introdução: Na sociedade contemporânea é cada vez maior a interação entre o homem
e a máquina, oferecendo inúmeras ...
Abstract
Introduction: In actual society the interaction between man and machine is growing ,
offering a lot of possibilit...
Lista de ilustrações
Figura 1 – Processo de comunicação. . . . . . . . . . . . . . . . . . . . . . . . 19
Figura 2 – Diagr...
Figura 33 – Distribuição dos Componentes Mel Cepstrais 05 ao 08 . . . . . . . . 58
Figura 34 – Distribuição dos Componente...
Lista de tabelas
Tabela 1 – Classificação das vogais quanto ao arredondamento dos lábios, an-
terioridade/posterioridade e ...
Lista de abreviaturas e siglas
DCT-II Discrete Cosine Transform - Transformada discreta de cosseno.
DTFT Discrete-time Fou...
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Tema . . . . . . . . . . . . . . ....
APÊNDICES 52
APÊNDICE A – CURVAS DE DENSIDADE DE PROBABILIDADE . 53
A.1 Densidades de probabilidade dos índices Cepstrais ...
15
1 Introdução
Na sociedade contemporânea é cada vez maior a interação entre o homem e a má-
quina. Com o advento das mai...
Capítulo 1. Introdução 16
das engenharias, destacando-se dentre elas o desenvolvimento de sistemas compu-
tacionais de rec...
Capítulo 1. Introdução 17
Em relação a falantes do português brasileiro poucos estudos buscam as particularida-
des do fal...
18
2 Referencial Teórico
2.1 Introdução a Comunicação por Voz
É possível atribuir ao processo de comunicação o grande dese...
Capítulo 2. Referencial Teórico 19
Figura 1 – Processo de comunicação.
Fonte: adaptado de Flanagan (2013).
cesso de comuni...
Capítulo 2. Referencial Teórico 20
O trato vocal é um tubo acústico não uniforme, com área de secção transversal altura,
l...
Capítulo 2. Referencial Teórico 21
Figura 2 – Diagrama esquemático do mecanismo vocal humano.
Fonte: adaptado de Flanagan ...
Capítulo 2. Referencial Teórico 22
Tabela 1 – Classificação das vogais quanto ao arredondamento dos lábios, anteriori-
dade...
Capítulo 2. Referencial Teórico 23
Figura 4 – Posição do véu palatino na produção de vogais (a) orais (como por exemplo
na...
Capítulo 2. Referencial Teórico 24
Figura 6 – O estado da glote em segmentos vozeados (esquerda) e desvozeados
(direita).
...
Capítulo 2. Referencial Teórico 25
Segundo Silva (2007), um segmento oral ou nasal é determinado pela posição do
véu palat...
Capítulo 2. Referencial Teórico 26
Tabela 2 – Tabela de consoantes (mecanismo de corrente de ar pulmonar)
Bilabial
Labio-
...
Capítulo 2. Referencial Teórico 27
Tabela 4 – Tabela de consoantes (mecanismo de corrente de ar não pulmonar)
w fricativa ...
Capítulo 2. Referencial Teórico 28
filtro h[n], tem-se a seguinte relação cepstral:
y[n] = x[n] ∗ h[n]
F
−→ Y ejω
= X ejω ˙...
Capítulo 2. Referencial Teórico 29
Figura 7 – Diagrama da distribuição perceptual de frequências na cóclea.
Fonte: Stevens...
Capítulo 2. Referencial Teórico 30
Figura 9 – Etapas na obtenção dos componentes mel-cepstrais.
Entrada
x[n]
DFT
Modulo
| ...
Capítulo 2. Referencial Teórico 31
sinal vozeado isso significa que d[n] consiste em um trem de impulsos (RABINER;
SCHAFER,...
Capítulo 2. Referencial Teórico 32
Algorithm 1 Levinson–Durbin
Require: None
Ensure: None
1: E0
= φ[0]
2: for i = 0 → P do...
Capítulo 2. Referencial Teórico 33
Figura 11 – Disposição das frequências dos formantes do português brasileiro.
Especifica...
Capítulo 2. Referencial Teórico 34
Figura 12 – Trajetória de formantes durante a execução de ditongos.
Fonte: Kent e Read ...
Capítulo 2. Referencial Teórico 35
Só é possível atribuir uma previsão se Y for uma quantidade observável. Muitas das
veze...
Capítulo 2. Referencial Teórico 36
dados x ter sido gerado pelo modelo θ é dado por:
θ = {pi, µi, Σi} para i = 1, 2, ..., ...
Capítulo 2. Referencial Teórico 37
até atingir um limiar de convergência. Para o calculo no modelo i + 1 são utilizadas
as...
38
3 Procedimentos Metodológicos
O referente texto adotou a modalidade de pesquisa mista entre a abordagem qualitativa
e q...
Capítulo 3. Procedimentos Metodológicos 39
A extração dos valores de frequência fundamental (F0 ou pitch1
) foi realizada ...
40
4 Análises Resultados
4.1 Componentes Cepstrais
Inicialmente foram coletados registros acústicos de seis locutores e at...
Capítulo 4. Análises Resultados 41
específicas das consoantes fricativas (/s/ ou /z/). Ou seja, através do gráfico analisou-...
Capítulo 4. Análises Resultados 42
Figura 16 – Componentes cepstrais.
Fonte: Elaborado pelos autores.
características de c...
Capítulo 4. Análises Resultados 43
Figura 17 – Distância Euclidiana calculada pelas Componentes cepstrais.
Fonte: Elaborad...
Capítulo 4. Análises Resultados 44
Figura 19 – Componentes mel-cepstrais.
Fonte: Elaborado pelos autores.
Assim como na an...
Capítulo 4. Análises Resultados 45
Figura 20 – Distância Euclidiana calculada pelas Componentes Mel-Cepstrais.
Fonte: Elab...
Capítulo 4. Análises Resultados 46
Tabela 5 – Tabela com o erro de estimação por GMM.
Acerto percentual Erro Percentual
De...
Capítulo 4. Análises Resultados 47
Esta observação indica que um refinamento mais preciso, principalmente na indicação
de p...
48
5 Considerações finais
5.1 Conclusões
No presente estudo, investigou-se o padrão característico de fala de 6 pessoas, de...
Capítulo 5. Considerações finais 49
• Explorar as características das fricativas do português brasileiro realizando o
recor...
50
Referências
BOERSMA, P. Accurate short-term analysis of the fundamental frequency and the
harmonics-to-noise ratio of a...
Referências 51
MCLACHLAN G.J.; BASFORD, K. Mixture Models: Inference and Applications to Clustering.
[S.l.]: Dekker, 1988....
Apêndices
53
APÊNDICE A – Curvas de densidade
de probabilidade
A.1 Densidades de probabilidade dos índices Cepstrais
Figura 23 – Dis...
APÊNDICE A. Curvas de densidade de probabilidade 54
Figura 24 – Distribuição dos componentes cepstrais dos índices 09 ao 1...
APÊNDICE A. Curvas de densidade de probabilidade 55
Figura 26 – Distribuição dos componentes cepstrais dos índices 17 ao 2...
APÊNDICE A. Curvas de densidade de probabilidade 56
Figura 28 – Distribuição dos componentes cepstrais dos índices 25 ao 2...
APÊNDICE A. Curvas de densidade de probabilidade 57
Figura 30 – Distribuição dos componentes cepstrais dos índices 33 ao 3...
APÊNDICE A. Curvas de densidade de probabilidade 58
A.2 Densidades de probabilidade das MFCC’c
Figura 32 – Distribuição do...
APÊNDICE A. Curvas de densidade de probabilidade 59
Figura 34 – Distribuição dos Componentes Mel Cepstrais 08 ao 12
Figura...
APÊNDICE A. Curvas de densidade de probabilidade 60
Figura 36 – Distribuição dos Componentes Mel Cepstrais 21 ao 24
61
APÊNDICE B – Parâmetros dos
Modelos de Mistura de Gaussianas
GMM da classe que modela os "demais sons"
Número de compon...
APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 62
03; 2.02341e-03; 7.33210e-04; 1.14723e-03; 1.32422e-03; 5.9...
APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 63
5.16680e-04; 6.45447e-04; 1.04491e-03; 5.98727e-04; 5.86911...
APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 64
-1.22813e+00; 1.00333e-01; 9.92402e-02; 4.25430e-02; 2.1715...
Próximos SlideShares
Carregando em…5
×

Trabalho de Conclusão de Curso

163 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
163
No SlideShare
0
A partir de incorporações
0
Número de incorporações
13
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Trabalho de Conclusão de Curso

  1. 1. Daniel Gonçalves Gomes Elizângela Mara Rodrigues de Oliveira Nathália Amorim Zolini Identificação de Padrões de Fricativas em Registros Acústicos Brasil 2016
  2. 2. Daniel Gonçalves Gomes Elizângela Mara Rodrigues de Oliveira Nathália Amorim Zolini Identificação de Padrões de Fricativas em Registros Acústicos Trabalho de Conclusão de Curso apresen- tado ao curso de Engenharia Elétrica da Fa- culdade de Ciências Exatas e Tecnológicas - FACET, do Centro Universitário Newton Paiva, como requisito parcial para obten- ção de título de bacharel em Engenharia Elétrica. Centro Universitário Newton Paiva Instituto de Ciências Exatas Curso de Graduação em Engenharia Elétrica Orientador: Adelino Pinheiro Silva Coorientador: Vanderléa M. Rocha Brasil 2016
  3. 3. Daniel Gonçalves Gomes Elizângela Mara Rodrigues de Oliveira Nathália Amorim Zolini Identificação de Padrões de Fricativas em Registros Acústicos– Brasil, 2016- 64 p. : il. (algumas color.) ; 30 cm. Orientador: Adelino Pinheiro Silva Coorientador: Vanderléa M. Rocha Trabalho de Conclusão de Curso – Centro Universitário Newton Paiva Instituto de Ciências Exatas Curso de Graduação em Engenharia Elétrica, 2016. 1. Análise de Voz e Fala. 2. Reconhecimento de Padrões. 3. Análise Cepstal. 4. Inferência Estatística. 5. Identificação de Locutor. I. Adelino Pinheiro Silva. II. Centro Universitário newton Paiva. III. Instituto de Ciências Exatas. IV. Bachare- lado em Engenharia Elétrica
  4. 4. Daniel Gonçalves Gomes Elizângela Mara Rodrigues de Oliveira Nathália Amorim Zolini Identificação de Padrões de Fricativas em Registros Acústicos Trabalho de Conclusão de Curso apresen- tado ao curso de Engenharia Elétrica da Fa- culdade de Ciências Exatas e Tecnológicas - FACET, do Centro Universitário Newton Paiva, como requisito parcial para obten- ção de título de bacharel em Engenharia Elétrica. Trabalho aprovado. Brasil, 29 de abril de 2016: Adelino Pinheiro Silva Orientador Wellington Damascena Dutra Convidado 1 Brasil 2016
  5. 5. Dedicamos este trabalho aos nossos Mestres, aos nossos familiares e amigos.
  6. 6. Agradecimentos Agradecemos a Deus pela inspiração e capacitação. Aos meus orientadores, pelo infinito apoio e dedicação, à minha família que sempre me incentivou e me deu condi- ções para realizar meus sonhos. Aos amigos e companheiros de trabalho, peças tão importantes nesta jornada. E a todos que contribuíram de forma direta ou indireta para a conclusão deste trabalho. Daniel Gonçaves Gomes Elizângela Mara Rodrigues de Oliveira Nathália Amorim Zolini
  7. 7. “Não podemos querer que as coisas mudem, se sempre fazemos o mesmo. A crise é a maior benção que pode acontecer às pessoas e aos países, porque a crise traz progressos. A criatividade nasce da angústia assim como o dia nasce da noite escura. É na crise que nascem os inventos, os descobrimentos e as grandes estratégias. Quem supera a crise supera a si mesmo sem ter sido superado. (Albert Einstein)
  8. 8. Resumo Introdução: Na sociedade contemporânea é cada vez maior a interação entre o homem e a máquina, oferecendo inúmeras possibilidades de exploração. Devido à informatiza- ção dos processos e à difícil adequação dos envolvidos no sistema, a comunicação realizada através da fala torna-se uma alternativa viável para a melhoria desta interface. Objetivo: O presente estudo tem como objetivo a composição de um banco de dados obtido através de um procedimento padronizado de coleta e a partir dele será extraído as fricativas (/s/ e /z/) das palavras e posteriormente analisado padrões existentes, através de técnicas de reconhecimento de fala por padrões estatísticos e métodos quantitativos de decodificação do sinal. Metodologia: para a composição da base de dados, adotou-se a coleta de material sonoro por meio de um protocolo padronizado. A modelagem realizada para o trato vocal é do tipo fonte-filtro. A extração dos valores de frequência fundamental foi realizada pelo método de auto-correlação. O cálculo dos formantes foi realizado por meio da análise LPC (Linear Prediction Code). Resultados: A metodologia utilizada, mostrou-se relativamente eficaz na separação das três classes de sons (“demais sons” /s/ e /z/) se combinadas com métodos computacionais para a maximização da expectância, podendo ainda ser confirmada através da estimativa de erro percentual. Palavras-chave: processamento de dados. padrões de linguagem. reconhecimento de voz. trato vocal.
  9. 9. Abstract Introduction: In actual society the interaction between man and machine is growing , offering a lot of possibilities for explore new experiences. Because of this new information age is difficult to adjust every people on the system, so the man-machine communication by speech becomes a viable alternative to improve this interface. Objective: This study aims the composition of a voice database collected by a standard procedure and from it extract the fricatives sounds (/ s / and / z /) from isolated words and analyze the paterns through speech recognition by statistical standards and and propose methods for identification and decoding. Methodology The autors adopted standard protocol to composition of database. The source-filter model was used for the physical of vocal tract. The extraction of fundamental frequency values was carried out by the autocorrelation method and the formants analisys was performed by LPC (Linear Prediction Code). Results: The methodology used was effective in the separation of the three classes of sounds ( "other sounds" / s / and / z /) and the combination of computational methods for maximizing expectation confirmed a small percentual error. Keywords: Data processing. language patterns. voice recognition. vocal tract.
  10. 10. Lista de ilustrações Figura 1 – Processo de comunicação. . . . . . . . . . . . . . . . . . . . . . . . 19 Figura 2 – Diagrama esquemático do mecanismo vocal humano. . . . . . . . . 21 Figura 3 – Disposição das vogais no diagrama IPA. . . . . . . . . . . . . . . . . 22 Figura 4 – Posição do véu palatino na produção de vogais (a) orais (como por exemplo na vogal da palavra lá) e (b) nasais (como na vogal da palavra lã). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Figura 5 – Movimentos articulatórios para a produção da vogal nasal baixa central. 23 Figura 6 – O estado da glote em segmentos vozeados (esquerda) e desvozea- dos (direita). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Figura 7 – Diagrama da distribuição perceptual de frequências na cóclea. . . . 29 Figura 8 – Banco de filtros para obtenção dos componentes mel-cepstrais. . . 29 Figura 9 – Etapas na obtenção dos componentes mel-cepstrais. . . . . . . . . 30 Figura 10 – Espectro da vogal oral /a/ e o LPC. Os picos do LPC indicam as frequências dos formantes. . . . . . . . . . . . . . . . . . . . . . . . 32 Figura 11 – Disposição das frequências dos formantes do português brasileiro. . 33 Figura 12 – Trajetória de formantes durante a execução de ditongos. . . . . . . . 34 Figura 13 – Histograma de dados e Modelo de Gaussianas . . . . . . . . . . . . 35 Figura 14 – Rede do Modelo de Mistura de Gaussianas . . . . . . . . . . . . . . 35 Figura 15 – Amostra dos espectros de frequência através do programa Praat. . 40 Figura 16 – Componentes cepstrais. . . . . . . . . . . . . . . . . . . . . . . . . . 42 Figura 17 – Distância Euclidiana calculada pelas Componentes cepstrais. . . . . 43 Figura 18 – Matriz correlação entra as Componentes cepstrais. . . . . . . . . . . 43 Figura 19 – Componentes mel-cepstrais. . . . . . . . . . . . . . . . . . . . . . . 44 Figura 20 – Distância Euclidiana calculada pelas Componentes Mel-Cepstrais. . 45 Figura 21 – Matriz correlação entra as Componentes Mel-Cepstrais. . . . . . . . 45 Figura 22 – Probabilidade a posteriori entre as classes . . . . . . . . . . . . . . 46 Figura 23 – Distribuição dos componentes cepstrais dos índices 05 ao 08 . . . . 53 Figura 24 – Distribuição dos componentes cepstrais dos índices 09 ao 12 . . . . 54 Figura 25 – Distribuição dos componentes cepstrais dos índices 13 ao 16 . . . . 54 Figura 26 – Distribuição dos componentes cepstrais dos índices 17 ao 20 . . . . 55 Figura 27 – Distribuição dos componentes cepstrais dos índices 21 ao 24 . . . . 55 Figura 28 – Distribuição dos componentes cepstrais dos índices 25 ao 28 . . . . 56 Figura 29 – Distribuição dos componentes cepstrais dos índices 29 ao 32 . . . . 56 Figura 30 – Distribuição dos componentes cepstrais dos índices 33 ao 36 . . . . 57 Figura 31 – Distribuição dos componentes cepstrais dos índices 37 ao 40 . . . . 57 Figura 32 – Distribuição dos Componentes Mel Cepstrais 01 ao 04 . . . . . . . . 58
  11. 11. Figura 33 – Distribuição dos Componentes Mel Cepstrais 05 ao 08 . . . . . . . . 58 Figura 34 – Distribuição dos Componentes Mel Cepstrais 08 ao 12 . . . . . . . . 59 Figura 35 – Distribuição dos Componentes Mel Cepstrais 17 ao 20 . . . . . . . . 59 Figura 36 – Distribuição dos Componentes Mel Cepstrais 21 ao 24 . . . . . . . . 60
  12. 12. Lista de tabelas Tabela 1 – Classificação das vogais quanto ao arredondamento dos lábios, an- terioridade/posterioridade e altura da língua. . . . . . . . . . . . . . 22 Tabela 2 – Tabela de consoantes (mecanismo de corrente de ar pulmonar) . . 26 Tabela 3 – Tabela de consoantes (mecanismo de corrente de ar não pulmonar) 26 Tabela 4 – Tabela de consoantes (mecanismo de corrente de ar não pulmonar) 27 Tabela 5 – Tabela com o erro de estimação por GMM. . . . . . . . . . . . . . . 46
  13. 13. Lista de abreviaturas e siglas DCT-II Discrete Cosine Transform - Transformada discreta de cosseno. DTFT Discrete-time Fourier transform - Transformada de Fourier de tempo discreto. FIR Finite Impulse Response - Resposta ao impulso finita. GMM Gaussian Mixture Models - Modelo de Mistura de Gaussianas. IFT Inverse Fourier Transform - Transformada inversa de Fourier. IPA International Phonetic Alphabet - Alfabeto fonético internacional. LPC Linear predictive coding - Codificação de predição linear. MFCC Mel-Frequency Component Cepstrum - Componentes Mel-Cepstrais
  14. 14. Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1 Tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2 Problematização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Análise De Situação . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1 Introdução a Comunicação por Voz . . . . . . . . . . . . . . . . . . 18 2.2 Fisiologia do Trato Vocal . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Sons da Fala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Ditongos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.3 Consoantes Fricativas . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4 Reconhecimento de Padrões de Vogais em Registros Acústicos 27 2.4.1 Cepstrum de um sinal de voz . . . . . . . . . . . . . . . . . . . . . . 27 2.4.2 Formantes e LPC em sílabas e ditongos . . . . . . . . . . . . . . . . 30 2.4.3 Inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.4 Modelo de Mistura de Gaussianas . . . . . . . . . . . . . . . . . . . . 35 3 PROCEDIMENTOS METODOLÓGICOS . . . . . . . . . . . . . . . . 38 4 ANÁLISES RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . 40 4.1 Componentes Cepstrais . . . . . . . . . . . . . . . . . . . . . . . . 40 4.2 Calculo da Probabilidade por GMM’s . . . . . . . . . . . . . . . . . 45 5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 48 5.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.2 Propostas de Continuidade . . . . . . . . . . . . . . . . . . . . . . 48 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
  15. 15. APÊNDICES 52 APÊNDICE A – CURVAS DE DENSIDADE DE PROBABILIDADE . 53 A.1 Densidades de probabilidade dos índices Cepstrais . . . . . . . . 53 A.2 Densidades de probabilidade das MFCC’c . . . . . . . . . . . . . . 58 APÊNDICE B – PARÂMETROS DOS MODELOS DE MISTURA DE GAUSSIANAS . . . . . . . . . . . . . . . . . . . . . 61
  16. 16. 15 1 Introdução Na sociedade contemporânea é cada vez maior a interação entre o homem e a má- quina. Com o advento das mais avançadas de tecnologias, esta comunicação tem se tornado cada vez melhor, entretanto mais complexa. Diante deste contexto, a comuni- cação homem-máquina ainda oferece inúmeras possibilidades de exploração. Devido à informatização dos processos e à difícil adequação dos envolvidos no sistema, a comunicação realizada através da fala torna-se uma alternativa viável para a melhoria desta interface. Editores de textos e softwares por comando de voz são uma realidade, embora neces- sitem aperfeiçoamento. O reconhecimento por comando de voz funciona, porém não é completamente robusto, devido a particularidades como gírias, chavões e particu- laridades regionais. Desta forma estes sistemas de reconhecimento de elementos de fala ainda possuem potencial de melhoria, tornando-se assim um vasto campo a ser explorado (MÜLLER, 2002), em especial como uma etapa do processo de identificação de falantes baseadas em características de alto nível (REYNOLDS et al., 2003). Muitas empresas de tecnologia investem em técnicas de decodificação e quantificação do sinal da locução, sempre com o objetivo de preservar a informação de voz e fala e, em consequência, seu reconhecimento. A partir desta perspectiva o presente trabalho irá propor a identificação de padrões silábicos em registros acústicos. Inicialmente será realizado a composição de um banco de dados obtido através de um procedimento padronizado de coleta e a partir dele será extraído as fricativas das palavras e posteriormente analisado padrões existentes, através de técnicas de reco- nhecimento de fala por padrões estatísticos e métodos quantitativos de decodificação do sinal. 1.1 Tema Identificação de padrões silábicos de fricativas em registros acústicos. 1.2 Problematização As inovações tecnológicas dos sistemas de telecomunicações contribuem para o aper- feiçoamento da interface homem-máquina, englobando diversas áreas de conhecimento
  17. 17. Capítulo 1. Introdução 16 das engenharias, destacando-se dentre elas o desenvolvimento de sistemas compu- tacionais de reconhecimento da linguagem falada (Spoken Language Understanding - SLU), neste contexto um elemento catalisador da interação homem máquina é a interface amigável, eficaz e intuitiva. Um modo eficaz para a evolução desta tecnologia é o reconhecimento da fala, e seus elementos, por meio de classificações de padrões e métodos quantitativos de deco- dificação do sinal, baseados na inferência estatística. O presente estudo, identificará padrões silábicos de fricativas específicas da fala humana, buscando ser reconhecidos automaticamente nos registros acústicos. 1.3 Objetivo Geral Identificar padrões silábicos de fricativas lábio-dentais e alveolares, vozeadas e não vozeadas em registros acústicos de falantes do português brasileiro. 1.4 Objetivos Específicos • Compor um banco de dados de registros acústicos obtidos por procedimento padronizado de coleta; • Extrair dados de voz e fala para realização de análises acústicas e composição de padrões; • Aplicar técnicas de processamento digital de sinais para reconhecimento de padrões de fricativas em registros de voz e fala; • Implementar técnica para identificação automática de sílabas diretamente nos registros acústicos. 1.5 Análise De Situação O estado da arte em processamento de sinais digitais de voz e fala possui diversas técnicas difundidas, como as apresentadas no livro Discrete-Time Signal Processing de Oppenheim e Schafer (2010), especificamente nas aplicações que envolvem processa- mento de voz e fala. O livro Digital Processing of Speech Signals de Rabiner e Schafer (1978) apresentam uma série de ferramentas matemáticas para análise acústica de sinais de voz e fala. No viés de reconhecimento de padrões estatísticos o material publicado no livro Pattern Classification de Duda, Hart e Stork (2004) expõe diferentes algoritmos que incluem as técnicas estatísticas de conversão de áudio em texto.
  18. 18. Capítulo 1. Introdução 17 Em relação a falantes do português brasileiro poucos estudos buscam as particularida- des do falar distinto e amplo deste país continental, sendo que a maioria dos estudos se concentra em particularidades fonológicas, dialetais e sócio linguísticas, com pouco foco nos estudos acústicos e de processamento de sinais (SILVA, 2007). A classificação de padrões sonoros ainda possui muito conteúdo inexplorado, incluindo o refinamento de características em sílabas fricativas, que possuem conteúdo ruidoso e espectral amplo, ambas objeto do presente estudo. 1.6 Justificativa Segundo Furui (2000), compreender profundamente os aspectos da comunicação é entender os processos sociais que nos trouxeram a sociedade moderna. Do ponto de vista social, a comunicação é o princípio básico da interação entre seres humanos, sendo um fator importante na aquisição e desenvolvimento da linguagem. Na atuali- dade, a interação multimídia, permite transpor barreiras espaciais em busca de uma comunicação mais eficiente e pessoal. Em relação aos aspectos ambientais, todo desenvolvimento tecnológico, principalmente nas técnicas de identificação de voz e fala, contribui para melhorar cada vez mais a qualidade de vida das pessoas, oferecendo velocidade em comunicação e segurança. Para formação acadêmica, os estudos transdisciplinares proporcionados no presente trabalho permitem aos autores adquirirem conhecimentos que não são tratados formal- mente em sua graduação criando um diferencial acadêmico. Economicamente, o desenvolvimento das tecnologias da comunicação por voz e fala e o domínio dos processos de comunicação, disparam a cada dia em equipamentos com a mais alta tecnologia. Tais conhecimentos, proporcionam uma maior aplicação na área de comunicação, na indústria de base, entretenimento e saúde. Do ponto de vista profissional, assim como o acadêmico, a contribuição tem um viés diferenciado, permitindo aos autores destacarem-se em área como processamento de sinais, estatística, e telecomunicações, abrindo ainda mais o leque de oportunidades no mercado de trabalho.
  19. 19. 18 2 Referencial Teórico 2.1 Introdução a Comunicação por Voz É possível atribuir ao processo de comunicação o grande desempenho que a civilização possui, em especial a comunicação por voz, por ser tratar de um mecanismo básico do qual os seres humanos são os únicos capazes de transmitir informação sem necessitar de ferramentas muito complexas (FLANAGAN, 2013). É claro que passivamente recebe- se muito mais estímulos visuais que auditivos, entretanto a comunicação visual isolada é muito ineficiente comparada com a comunicação por voz (FURUI, 2000). No processo de comunicação, define-se como voz o som produzido por humanos. A voz é um parâmetro do indivíduo e é tão particular quanto suas impressões digitais e pode ajudar a definir a personalidade, naturalidade, classe social, humor e saúde. A fala é o meio de expressão dos pensamentos, sentimentos e ideias através de uma série de movimentos complexos que alteram e moldam a voz em sons decodificáveis específicos (PIERANGELO; GIULIANI, 2007). Conforme Flanagan (2013), a comunicação inicia-se no cérebro falante por um processo linguístico de geração do significado através de palavras e frases. Em seguida, um comando fito-fisiológico ativa o trato vocal para gerar os sinais acústicos, que consistem em flutuações da pressão de ar que são geradas pelas pregas vocais, são moduladas pelo trato vocal e irradiadas pela boca. A mensagem gerada é transmitida através de um canal de comunicação, como o ar por exemplo, até o ouvinte. Ao ser detectada pelo ouvido, a flutuação de pressão no ar é transmitida e interpretada pelo cérebro do ouvinte. A figura 1 ilustra de forma resumida o processo de comunicação por um canal com ruído interferente. Nos estudos dos processos de comunicação é importante ainda definir o conceito de linguagem como a base de transmissão de significado através de sinais, sons, gestos, ou marcas entendidas dentro de um grupo ou comunidade (PIERANGELO; GIULIANI, 2007). Com o passar dos tempos a humanidade esforçou-se para comunicar-se através de grandes distâncias, utilizando diferentes linguagens, como batidas de tambores, sinais de fogo, telégrafos, ótico de Chappe e elétrico de Morse (GLEICK, 2013). A transmissão elétrica dos registros acústicos ocorreu a partir dos desenvolvimentos de Bell, que realizou estudos dos mecanismos da fala e da audição para aprimorar o pro-
  20. 20. Capítulo 2. Referencial Teórico 19 Figura 1 – Processo de comunicação. Fonte: adaptado de Flanagan (2013). cesso de comunicação por voz em longas distâncias. Inicialmente as telecomunicações eram realizadas preservando a forma de onda acústica, entretanto, o desenvolvimento de técnicas matemáticas de análise e processamento de sinais permitiu realizar a codi- ficação da onda acústica alcançar longas distâncias com mais eficiência (TEIXEIRA, 2012). 2.2 Fisiologia do Trato Vocal O discurso é o produto acústico final de movimentos voluntários, formalizados dos aparelhos respiratório e mastigatórios. O comportamento motor da produção da fala é adquirido, desenvolvido, controlado e mantido pela realimentação (feedback) acústica do mecanismo de audição e pela realimentação (feedback) sinestésica da musculatura da fala. A informação oriunda destes sentidos é organizada e coordenada pelo Sistema Nervoso Central e usados para conduzir a função da fala (FLANAGAN, 2013). Qualquer prejuízo ao mecanismo de controle, normalmente degrada o desempenho do aparelho vocal o que atrapalha o processo natural de comunicação, como apresentado pela figura 1. A função de inalação, que expande a caixa torácica, provoca a redução da pressão de ar dos pulmões criando a movimentação de uma corrente de ar (fluxo) através de narinas, cavidade nasal, véu palatino e traqueia. O ar é normalmente expelido pela mesma via. No processo de alimentação, a mastigação ocorre na cavidade oral, quando o alimento é ingerido as estruturas na entrada da traqueia são alocadas sob a epiglote que protege a abertura das pregas vocais e evita que o bolo alimentar vá para a traqueia. No mesmo movimento a epiglote proporciona a passagem do bolo alimentar para o esófago, que encontra-se fixo contra a parede de trás da garganta, e para o estômago (FLANAGAN, 2013).
  21. 21. Capítulo 2. Referencial Teórico 20 O trato vocal é um tubo acústico não uniforme, com área de secção transversal altura, largura e indices de perdas e reverberação variáveis. Em um homem adulto o tubo vocal tem cerca de 17 centímetros de comprimento e é deformado em corte transversal pelo movimento das articulações; ou seja, os lábios, mandíbula, língua e véu. O trato vocal tem início pela constrição das pregas vocais na parte superior da traqueia. e é terminado pelos lábios. (FLANAGAN, 2013). O trato nasal constitui um caminho auxiliar para a transmissão de som que começa no véu e termina nas narinas. No homem adulto a cavidade tem um comprimento de cerca de 12 cm e divide-se sobre uma parte da sua extensão da frente para trás por meio do septo nasal. O acoplamento acústico entre as vias nasais e vocais é controlado pelo tamanho da abertura no véu palatino. Em tal caso, o som pode ser irradiado a partir da boca e narinas. Em geral, o acoplamento nasal pode influenciar substancialmente o caráter do som irradiado a partir da boca. Para a produção de sons não nasais o véu fica firmemente acima e veda efetivamente a entrada para a cavidade nasal (FLANAGAN, 2013). A figura 2 apresenta um diagrama esquemático dos principais elementos fisiológicos do trato vocal. A fonte de energia para a produção da fala está nas musculaturas torácicas e abdomi- nais. O ar é expelido pela contração da caixa torácica e o aumento da pressão pulmonar. A produção dos sons das vogais no mais suave nível requer uma pressão pulmão de 4 cm H20 (aproximadamente 392, 3 Pa). Para sons agudos muito altos, por outro lado, as pressões são de cerca de 20 cm H20 ou mais (FLANAGAN, 2013). O ar é forçado a partir dos pulmões, que passa através da traqueia para a faringe. A parte superior da traqueia é composta pela laringe. A estrutura cartilaginosa que abriga dois lábios de ligamento e músculo é denominada prega vocal. O orifício como uma fenda entre as pregas é chamado de glote. As estruturas protuberantes, salientes, posterior e acima das pregas, são as cartilagens aritenoides. Estas cartilagens apoiam as pregas e facilitam o ajuste da tensão. As principais cartilagens que não compõe o trato vocal são a tireoide e a cricoide posterior (FLANAGAN, 2013). 2.3 Sons da Fala 2.3.1 Vogais Sons vocálicos são produzidos com o estreitamento das articulações do trato vocal sem que ocorra fricção, isto é, pela passagem do ar sem a obstrução do trato vocal durante a fala. São classificados pelos parâmetros: posição da língua em termos de
  22. 22. Capítulo 2. Referencial Teórico 21 Figura 2 – Diagrama esquemático do mecanismo vocal humano. Fonte: adaptado de Flanagan (2013). altura e em termos de posição anterior ou posterior, e arredondamento ou não dos lábios. A altura da língua, representa sua dimensão vertical dentro da cavidade bucal. Silva (2007), propõe uma variação da altura, desde alta; média-alta; média-baixa e baixa para descrever as vogais do português. E a posição anterior ou posterior refere-se à dimensão horizontal da língua dentro da cavidade bucal, possuindo ainda uma posição intermediária (central), durante a produção dos segmentos vocálicos. O quadro 1 a seguir demonstra a transcrição dos segmentos vocálicos adotado pela Associação Internacional de Fonética (IPA – International Phonetics Association) e a figura 3 apresenta a disposição das vogais em um diagrama geométrico. Cagliari (1981) descreve algumas propriedades articulatórias secundárias no processo de produção das vogais, como duração, desvozeamento e nasalização. A duração é obrigatoriamente uma medida comparativa entre dois ou mais segmentos analisados.
  23. 23. Capítulo 2. Referencial Teórico 22 Tabela 1 – Classificação das vogais quanto ao arredondamento dos lábios, anteriori- dade/posterioridade e altura da língua. Anterior Central Posterior Arredon- dada Não arre- dondada Arredon- dada Não arre- dondada Arredon- dada Não arre- dondada Alta y i 0 1 u W Média Alta ø e 8 9 o È Média Baixa œ E Æ 3 O 2 Baixa Œ æ a 6 A Fonte: adaptado de Silva (2007, p. 70) Figura 3 – Disposição das vogais no diagrama IPA. Fonte: Associação Internacional de Fonética. Fatores como o acento tônico também influenciam na duração de uma vogal, portanto vogais acentuadas tendem a ser mais longas, como por exemplo, no português, já no inglês a duração de um vogal determina o significado de algumas palavras, é o caso de “to leave” [li:v], sair e “to live” [liv] viver. Desvozeamento são segmentos vocálicos produzidos sem a vibração das pregas vocais, em português o desvozeamento de vogais ocorre geralmente em final de palavras, como as vogais finais de “pata, sapo, bote”. A nasalização de vogais ocorre quando o véu palatino encontra-se abaixado, permitindo que parte do fluxo de ar passe também pela cavidade nasal. Para uma vogal alta em relação à posição da língua – como i ou u - apenas uma pequena porção do fluxo de ar é suficiente para sua nasalização, isto é, o véu palatino pode apresentar um leve abaixamento. Estas vogais, quer sejam orais ou nasais apresentam uma configuração muito semelhante do trato vocal. Enquanto que uma vogal baixa – como o a – necessita de um abaixamento relativamente maior do véu palatino, tendo uma configuração bastante diferente entre o - a - oral e nasal (SILVA, 2007).
  24. 24. Capítulo 2. Referencial Teórico 23 Figura 4 – Posição do véu palatino na produção de vogais (a) orais (como por exemplo na vogal da palavra lá) e (b) nasais (como na vogal da palavra lã). (a) (b) Fonte: Adaptado de Oliveira e Brenner (1988, p. 46) Figura 5 – Movimentos articulatórios para a produção da vogal nasal baixa central. Fonte: Adaptado de Oliveira e Brenner (1988, p. 48) A figura 5 mostra a configuração do trato vocal na produção de vogal nasal com a língua na posição central. 2.3.2 Ditongos Ditongos são geralmente tratados como uma sequência de segmentos. Estes são divididos em dois segmentos, o vogal e o glide, também conhecido como semivocóide, semicontóide, semivogal ou vogal assilábica. Segundo Silva (2007) que determina um segmento sendo consonantal ou vocálico é o fato de haver ou não obstrução da passagem do ar pelo trato vocal no ponto de vista fonético. Sendo assim o ditongo é uma vogal na qual apresenta variações contínuas no trajeto do trato vocal.
  25. 25. Capítulo 2. Referencial Teórico 24 Figura 6 – O estado da glote em segmentos vozeados (esquerda) e desvozeados (direita). Fonte: Silva (2007, p. 28). Utilizando como exemplo, a palavra viu e leite, nota-se que as mesmas ao serem pronunciadas apresentam uma sequência de vogais na mesma sílaba “viu” e “lei”, caracterizando um ditongo, sendo que o [u] e o [i] destacam o glide e a falta de proeminência acentual, respectivamente. Todavia, o mesmo não ocorre utilizando a palavra juizado, isto é, as vogais /u/ e o /i/ não permanecem na mesma sílaba ao ser pronunciada, tendo proeminência acentual iniciada no [u] e finalizada no [i]. Portanto, um ditongo ocorre quando dois segmentos vocálicos permanecem unidas em uma mesma sílaba, caracterizado pela ausência de proeminência acentual assinalado ao glide. 2.3.3 Consoantes Fricativas Um segmento consonantal é determinado pelo som gerado devido a obstrução total ou parcial das correntes de ar nas cavidades supraglotais, podendo esta ser fricativas ou não. Em contrapartida o segmento vocálico não apresenta nenhuma obstrução ou fricção (SILVA, 2007). Classifica-se um som consonantal em ralação a diferentes fatores, sendo eles: o estado da glote; a nasalidade; a posição dos articuladores ativos; e a maneira ou modo de articulação. O estado da glote pode ser denominado vozeado quando as pregas vocais vibram no momento da produção de um determinado som. Isto ocorre devido a passagem de ar que ocasiona uma aproximação dos músculos estriados que formam a glote, gerando assim a vibração. Caso contrário, quando não há vibração, ou seja, os músculos que compõe a glote estão totalmente separados durante a passagem do ar, é denominado estado de glote desvozeado (figura 6).
  26. 26. Capítulo 2. Referencial Teórico 25 Segundo Silva (2007), um segmento oral ou nasal é determinado pela posição do véu palatino, e este pode ser acompanhado juntamente com a posição da úvula. Dependendo desta posição, durante a pronúncia de uma vogal, determinamos se o som será oral ou nasal. Se durante a fala a úvula estiver levantada, não permitindo a passagem de ar à cavidade nasal e consequentemente impedindo a ressonância nesta cavidade, produzindo um som oral. Entretanto, se a úvula estiver abaixada e o ar penetrar na cavidade nasal gerando uma ressonância, produzindo um som nasal. Denomina-se articuladores ativos, estruturas que se movimentam durante a fala, sendo elas: lábio inferior, língua, véu palatino e as pregas vocais. Os articuladores passivos são lábios superior, os dentes superiores e o céu da boca que se divide em alvéolos, palato duro, véu palatino e úvula. Para se definir o lugar da articulação é necessário observar a posição dos articuladores ativos em relação aos passivos. Mediante ao proposto estudo, os lugares da articulação mais importantes são labio- dental, dental e alveolar. Labiodental tem como articulador ativo o lábio inferior e o articulador passivo os dentes incisivos superiores (Exemplos: faca, vá). Já o dental tem como articulador ativo o ápice ou a lâmina da língua e o articulador passivo os dentes incisivos superiores (Exemplos: sapa, zapata). O alveolar possui como articulador ativo o ápice ou lâmina da língua e como articulador passivo os alvéolos (Exemplos: sapa, zapata). Consoantes alveolares de diferenciam de consoantes dentais apenas com relação ao articulador passivo (SILVA, 2007). Pode-se também classificar os encontros consonantais quanto à maneira ou modo de articulação. O presente estudo irá abordar de maneia mais detalhada à maneira fricativa, determinadas pela aproximação dos articuladores durante a passagem central do ar, acarretando em uma fricção. Para que ocorra esta fricção, a corrente de ar não pode ser totalmente obstruída, deve ocorrer passagem parcial deste ar. O símbolo fonético f é classificado como fricativa labiodental desvozeada, sendo este uniforme em todos os dialetos do português brasileiro. Um exemplo ortográfico é a palavra faca, cuja transcrição fonética é [‘faka]. O símbolo fonético v é classificado como fricativa labiodental vozeada, sendo este uniforme em todos os dialetos do português brasileiro. Um exemplo ortográfico é a palavra vaca, cuja transcrição fonética é [‘vaka]. O símbolo fonético s é classificado como fricativa alveolar desvozeada, sendo este uniforme em início de sílaba em todos os dialetos do português brasileiro podendo ocorrer com a articulação alveolar ou dental, havendo marca de variação dialetal em final de sílaba. Um exemplo ortográfico é a palavra caça, cuja transcrição fonética é [‘kasa]. O símbolo fonético z é classificado como fricativa alveolar vozeada, sendo este
  27. 27. Capítulo 2. Referencial Teórico 26 Tabela 2 – Tabela de consoantes (mecanismo de corrente de ar pulmonar) Bilabial Labio- Dental Dental Alveolar Pós- Alveolar Retrof. Palatal Velar Uvular Farin- gal Epi- glotal Glotal Oclusiva p b t d ú ã c é k g q G Ü P Nasal m M n ï ñ N Africada Ù Ã Fricativa F B f v T ð s z S Z ù ü ç J x G X K è Q Ë Ý h H Fricativa lateral ì Ð Vibrante à r ö Tepe (ou flepe) R ó Flepe lateral Õ Aproximante V ô õ j î Aproximante lateral l í L L Fonte: IPA (International Phonetic Alphabet), 2005. Tabela 3 – Tabela de consoantes (mecanismo de corrente de ar não pulmonar) Cliques Implosivas Vozeadas Ejectivas ò Bilabial á Bilabial ’ as in’ F Dental â Dental/Alveolar p’ Bilabial ! (Pos)alveolar ä Palatal t’ Dental/Alveolar } Palato-alveolar ä Velar k’ Velar { Alveoplar lateral É Uvular s’ Alveolar fricativa Fonte: IPA (International Phonetic Alphabet), 2005. uniforme em início de sílaba em todos os dialetos do português brasileiro podendo ocorrer com a articulação alveolar ou dental, havendo marca de variação dialetal em final de sílaba. Um exemplo ortográfico é a palavra casa, cuja transcrição fonética é [‘kaza] (SILVA, 2007). Os símbolos fonéticos do IPA (International Phonetic Alphabet) apresentados na tabela 2 foram propostos pela associação internacional da fonética com o objetivo de fornecer um símbolo para cada som ou segmento de fala distinto. A tabela 2 indica o modo de articulação, ou seja, como a consoante é produzida, e o ponto de articulação, mostrando o lugar do trato vogal em a consoante é produzida. Nela estão apresentadas as consoantes que utilizam o mecanismo de corrente de ar pulmonar, incluindo apenas aquelas com um único ponto de articulação. Em alguns pontos da tabela existem pares de símbolos. O símbolo da direita representa uma consoante vozeada. Nas áreas sombreadas, acredita-se ser impossível as arti- culações. As consoantes que utilizam do mecanismo de corrente de ar não pulmonar estão descritas na tabela 3.
  28. 28. Capítulo 2. Referencial Teórico 27 Tabela 4 – Tabela de consoantes (mecanismo de corrente de ar não pulmonar) w fricativa labio-velar desvozeada û aproximante labio-velar vozeada 4 aproximante labio-palatal vozeada ý fricativa alveolo palatal vozeada C fricativa alveolo palatal desvozeada / fricativa velar-palatal desvozeada Fonte: IPA (International Phonetic Alphabet), 2005. Algumas consoantes envolvem dois pontos de articulação simultâneos, isto é, são pronunciados com o uso de duas partes diferentes do trato vocal ao mesmo tempo. Para estas consoantes complexas têm-se a tabela 4. Embora o alfabeto fonético utilize de uma enorme quantidade de símbolos para trans- crever uma determinada fala, nem sempre se utilizam de todos os símbolos relevantes ao mesmo tempo. É possível transcrever a fala com diferentes níveis de precisão. 2.4 Reconhecimento de Padrões de Vogais em Registros Acústicos 2.4.1 Cepstrum de um sinal de voz O cepstrum de um sinal foi inicialmente definido por Borgert, Healy e Tukey (1963), como a transformada inversa de Fourrier do logaritmo da magnitude espectral do sinal. Esta abordagem foi utilizada pelos autores na detecção de reflexões e ecos em um sinais e permite analisar e extrair do sinal suas componentes reflexivas. Em outra abordagem, realizada por Oppenheim e Schafer (2010), define-se o cepstrum discreto como a transformada inversa de Fourier (IFT - Inverse Fourrier Transform) do logaritmo do módulo da transformada de Fourier de tempo discreto (DTFT - Discrete Time Fourrier Transform) de um sinal. Em contra partida, o calculo do cepstrum com- plexo omite a etapa de extração do módulo da transformada de Fourrier, e é definido apenas como a IFT do logaritmo da DTFT, ficando respectivamente definidos como as equações a seguir. c[n] = 1 2π π −π log|X ejω |ejωn dω C {x[n]} = x[n] = 1 2π π −π log X ejω ejωn dω Assim como o cepstrum complexo, o cepstrum real permite o desacoplamento das amplitudes dos modelos fonte-filtro, sendo com y[n] a correlação do sinal x[n] com o
  29. 29. Capítulo 2. Referencial Teórico 28 filtro h[n], tem-se a seguinte relação cepstral: y[n] = x[n] ∗ h[n] F −→ Y ejω = X ejω ˙H ejω Em seguida, tomando o logaritmo e em seguida a transformada inversa de Fourrier: log Y ejω = log X ejω + log H ejω F−1 −−→ y[n] = x[n] + h[n] A transformada de Fourier transforma o domínio do sinal do tempo para frequência, a transformação cepstral alterara do domínio do tempo para o domínio da quefrência, tal nomenclatura (e outras similares) foram propostas no trabalho de Borgert, Healy e Tukey (1963). A escala mel, com nome derivado da palavra melodia (melody), é uma escala logarít- mica perceptual definida por Stevens, Volkmann e Newman (1937), que tem por objetivo manter os tons de frequência equidistantes tomando como referência 40 dB acima do limite de percepção humana em 1000 Hz. Observando-se a anatomia da cóclea humana (figura 7) é possível constata-se que a sensibilidade da membrana basilar as frequências audíveis segue uma escala logarítmica. Entretanto, a transformação da escala linear de frequência para a escala mel não é única, sendo a fórmula mais popular definida por O’shaughnessy (1987) pela equação: m(f) = 1127 · ln 1 + f 700 , f(m) = 700 · e m 1127 − 1 Com base nestes conceitos, os componentes mel cepstrais de um sinal são definidos a partir da soma da potência cepstral de uma faixa espectral dentro da escala mel. Em termos práticos para obter-se um componente mel-cepstral de um sinal é realizado o somatório da potência cepstral, no domínio da quefrência, de um sinal filtrado em uma determinada faixa de acordo com a escala mel. A componente mel cepstral pode ser definida como a potência cepstral de uma faixa de frequência na escala mel. Uma das abordagens mais difundidas é descrita por Togneri e Pullella (2011). Cada uma das C componentes mel cepstrais será calculada, em cada frame de N pontos, a partir de uma faixa espectral obtida pela aplicação de um filtro centralizado em uma frequência na escala mel (geralmente triangular) sobre o módulo da transformada de Fourier (figura 8). Em seguida é calculado o logaritmo do espectro filtrado e a transformada discreta cosseno do tipo 2 (DCT-II - Discrete Cosine Transform - type II), conforme etapas de cálculo apresentadas na figura 9.
  30. 30. Capítulo 2. Referencial Teórico 29 Figura 7 – Diagrama da distribuição perceptual de frequências na cóclea. Fonte: Stevens, Volkmann e Newman (1937). Figura 8 – Banco de filtros para obtenção dos componentes mel-cepstrais. Fonte: Togneri e Pullella (2011).
  31. 31. Capítulo 2. Referencial Teórico 30 Figura 9 – Etapas na obtenção dos componentes mel-cepstrais. Entrada x[n] DFT Modulo | | Amplitude espectral C filtros log( ) C bandas espectrais DCT MFCC’s Cn Fonte: Togneri e Pullella (2011). Tendo como |X (ejω ) | o módulo da transformada de Fourier do frame x[n] calculado utilizando a janela espectral de Hanning 1 e Hn (ejω ) o n-ésimo dos C filtros na escala mel, obtém-se Sn como: Sn = N 2 −1 k=0 | X[k] | · Hn[k] Assim, cada coeficientes mel cepstrais é obtido pela transformada discreta cosseno da forma: cn = K k=1 log(Sk)cos n k − 1 2 π K para n = 1, 2, ..., C. 2.4.2 Formantes e LPC em sílabas e ditongos Conforme Makhoul (1975), um modelo de predição linear apenas com pólos assume que um sinal s[n] é gerado pela combinação linear de seus valores passados e uma determinada entrada u[n], a equação temporal e a função transferência H(z) deste modelo de predição apresentam a seguinte forma: s[n] = − P k=1 aks[n − k] + Gu[n], H(z) = S(z) U(z) = G 1 + P k=1 akz−k Onde G é um fator de ganho. Neste caso um preditor linear ˜s[n] modelado pelos coeficientes αk é definido a seguir e possui o erro de predição d[n]: ˜s[n] = − P k=1 αks[n − k], d[n] = s[n] − ˜s[n] = s[n] − P k=1 αks[n − k], Tomando a transformada z do preditor linear ˜s[n], nota-se que o mesmo possui a característica de um filtro de resposta ao impulso finita (FIR 2 ), e se comparada com a equação anterior tem-se que ak = αk quando o erro d[n] é igual a Gu[n]. Para um 1 A janela de Hanning é definida como: w[n] = 0.5 1 − cos 2πn N−1 . 2 Finite Impulse Response
  32. 32. Capítulo 2. Referencial Teórico 31 sinal vozeado isso significa que d[n] consiste em um trem de impulsos (RABINER; SCHAFER, 2007) intervalados pelo período fundamental. A(z) = 1 − P k=1 αkz−k = D(z) S(z) , H(z) = G A(z) Neste caso, o polinômio A(z) é o denominador da função transferência. Se esta análise for utilizada em em um segmento de voz ressonante, as raízes complexas conjugadas de A(z) serão os pólos ressonantes do trato vocal e indicarão também suas frequências de ressonância. Para um determinado intervalo de voz é possível separar um quadro de áudio sw[m], com comprimento de M amostras recortado por uma janela espectral w[n] da seguinte forma: sw[m] =    s[n + m]w[m], se M1 ≤ m ≤ M2 0, caso contrário Desta forma, a função de autocorrelação de tempo curto é definida a seguir, gerando também no conjunto de equações que definem os coeficientes de predição ótimos. φ[k] = ∞ k=−∞ sw[m]sw[m + k], φ[i] = P k=1 αkφw[i − k], i = 1, 2, ..., P. A relação anterior permite definir para os valores 1 ≤ i ≤ P uma relação matricial do tipo Φα = φ com a seguinte estrutura detalhada:         φ[0] φ[1] · · · φ[P − 1] φ[1] φ[0] · · · φ[P − 2] ... ... ... ... φ[P − 1] φ[P − 2] · · · φ[0]         ·         α1 α2 ... αP         =         φ[1] φ[2] ... φ[P]         E possui como características, conforme descrito por Rabiner e Schafer (2007): • O valor do erro de predição é teoricamente impossível de ser zero, implicando na existência de um resíduo d[n] = Gu[n]; • A matriz Φ é simétrica positiva-definida de Toeplitz; • As raízes do filtro de predição A(z) estão garantidamente no interior do circulo de raio unitário no plano z, garantindo estabilidade da predição. • O resultado α da relação matricial Φα = φ pode ser facilmente encontrado pelo algoritmo Levinson–Durbin apresentado no quadro 1.
  33. 33. Capítulo 2. Referencial Teórico 32 Algorithm 1 Levinson–Durbin Require: None Ensure: None 1: E0 = φ[0] 2: for i = 0 → P do 3: ki = φ[i]− (i−1) j=i α (i−1) j φ[i−j] E(i−1) 4: α (i) i = ki 5: if i > 1 then 6: for i = 0 → P do α (i) j = α (i−1) j − kiα (i−j) i−1 7: end for 8: end if 9: Ei = (1 − k2 i )E(i−1) 10: end for 11: αj = α (j) j j = 1, 2, ..., P. Os formantes do trato vocal são importantes características que podem ser extraídas como as raízes do polinômio A(z) localizando os picos de ressonância da função de transferência H(z)como apresentado na figura 10. Kim, Seo e Sung (2006) apresenta um método para extração dos formantes que mistura o rastreamento dos picos do módulo de H(z) com o refinamento das raízes de A(z) utilizando a propriedade da integral de Cauchy. A figura 11 apresenta o posicionamento do primeiro e o segundo formante para as diferentes vogais do português pronunciadas no contexto conforme a legenda por um falante do sexo masculino. Figura 10 – Espectro da vogal oral /a/ e o LPC. Os picos do LPC indicam as frequências dos formantes.
  34. 34. Capítulo 2. Referencial Teórico 33 Figura 11 – Disposição das frequências dos formantes do português brasileiro. Especificamente, quando os ditongos são produzidos em contexto ou em taxas rápidas de fala, uma variação considerável pode ocorrer tanto nos valores de formantes dos onglides quantos nos offglides. Por conseguinte, essas descrições de trajetória devem ser consideradas mais como valores sugeridos do que como prescritos. Pelo menos para alguns dialetos, a taxa de mudança da frequência dos formantes pode ser um traço característico da produção do ditongo. Gay (1968), relata que a taxa da mudança de frequência foi essencialmente invariante apesar de variações nos valores de onglide e offglide. Possivelmente, então, a taxa de mudança da frequência dos formantes é uma caracte- rística perceptualmente importante para a identificação dos ditongos do inglês. 2.4.3 Inferência Bayesiana Na estatística, é sempre necessária uma informação sobre uma quantidade de interesse θ. Entretanto na grande maioria das vezes esse valor é desconhecido e a intensidade desta incerteza pode assumir diferentes graus. O Teorema de Bayes veio na tentativa de reduzir este desconhecimento utilizando de modelos probabilísticos (EHLERS, 2007). Considerando uma quantidade de interesse desconhecida θ e resumindo em termos probabilísticos p(θ), sabe-se que é possível aumentar a informação ao observar-se uma quantidade aleatória X. De acordo com a teoria bayesiana tem-se uma regra utilizada para quantificar o aumento da informação, P(θ|x) = P(x, θ) P(x) = P(x|θ)p(θ) P(x) = P(x|θ)p(θ) P(θ, x)dθ
  35. 35. Capítulo 2. Referencial Teórico 34 Figura 12 – Trajetória de formantes durante a execução de ditongos. Fonte: Kent e Read (2015) Para um valor de x fixo, a função, L(θ; x) = p(θ|x) indica a verossimilhança de cada um dos possíveis valores de θ enquanto que p(θ) indica a distribuição a priori de θ. Fazendo a combinação dessas duas indicações obtêm-se a distribuição a posteriori de θ, determinada por p(θ|x). Assim, o teorema de base é representado por, p(θ|x)α(θ; x)p(θ) Denomina-se de distribuição a posteriori ou preditiva, a distribuição esperada para a observação x, dado θ. Logo, p(x) = p(x, θ)dθ = p(x, θ)p(θ)dθ = Eθ [p(X|θ)] Segundo Ehlers (2007), um grande interesse neste processo é a previsão do mesmo em pontos não observados do tempo ou espaço. Ou seja, ao se observar X = x será feita uma previsão de uma quantidade Y , que também estará relacionada a θ e pode ser resumida probabilisticamente como p(y|x, θ). Tal distribuição preditiva pode ser obtida através de: p(y|x) = p(y, (θ|x))dθ = p((y|θ), x)p(θ|x)dθ Portanto, quando ocorre uma independência condicional entre X e Y , dado θ obtém-se: p(y|x) = p(y, |θ)p(θ|x)dθ
  36. 36. Capítulo 2. Referencial Teórico 35 Só é possível atribuir uma previsão se Y for uma quantidade observável. Muitas das vezes a expressão acima não apresenta uma solução analítica, tornando necessária a utilização de métodos de aproximação. p(y|x) = E(θ|x) [p(Y |θ)] Note-se então que as distribuições a priori e a posteriori são relativas àquela observação que está sendo considerada no momento, ou seja, p(θ|x) é a posteriori de θ em relação a X, mas a priori de θ em relação a Y (EHLERS, 2007). 2.4.4 Modelo de Mistura de Gaussianas O modelo de mistura de gaussianas (GMM - Gaussian Mixture Model) visa aproximar uma função de densidade de probabilidade de uma variável aleatória pela soma ponde- rada de funções de distribuição normal.Dada um função de densidade de probabilidade normal N(x, µ, Σ) de uma dimensão, definida e expandida para n dimensões da forma: N(x, µ, σ) = 1 √ 2πσ2 · e− (x−µ)2 2σ2 , N(x, µ, Σ) = 1 (2π|Σ|) D 2 · e−1 2 (x−µ)Σ−1(x−µ)T Por exemplo, se considerarmos uma massa de dados conforme distribuída na figura 13 a seguir, em sequência pode-se obter o seu modelo de misturas de gaussianas de uma massa de dados multidimensional. Figura 13 – Histograma de dados e Modelo de Gaussianas (a) (b) (c) Figura 14 – Rede do Modelo de Mistura de Gaussianas Desta forma, temos para uma determinada massa de dados x, o modelo θ que define a mistura de gaussianas e é composto por θ, sendo que a probabilidade de um vetor de
  37. 37. Capítulo 2. Referencial Teórico 36 dados x ter sido gerado pelo modelo θ é dado por: θ = {pi, µi, Σi} para i = 1, 2, ..., G. M(x, θ) = G i=1 pi (2π|Σi|) D 2 · e−1 2 (x−µi)Σ−1 i (x−µi)T Uma propriedade da função de densidade de probabilidade é que a área sobre a função é unitária, desta forma, integrando o modelo de misturas de gaussianas tem-se que: 1 = ∞ −∞ p(x|θ) = ∞ −∞ G i=1 piN(x, µi, Σi) = G i=1 pi ∞ −∞ N(x, µi, Σi) = G i=1 pi A expectância, também conhecido como esperança matemática ou valor esperado de uma variável aleatória é a soma das probabilidades de cada possibilidade de saída da experiência multiplicada pelo seu valor. O algoritmo de maximização da expectância (EM - expectation–maximization) é um método iterativo para encontrar máxima verossi- milhança (ML - maximum likelihood) de parâmetros em modelos estatísticos, onde o modelo depende variáveis latentes não observadas. A etapas do algoritmo EM alternam entre os passos de cálculo da expectância (passo E), onde utiliza-se uma função para o calculo da log-verossimilhança que é avaliada a partir do modelo presente; e um passo de maximização (passo M), que calcula os parâmetros que maximizam a log-verossimilhança até obter-se o modelo de máxima verossimi- lhança. O algoritmo EM foi sugerido a primeira vez por Dempster A.P.; Laird (1977) entretanto, as analises de convergência do algoritmo só foram sanadas posteriormente por Wu (1983). O algoritmo consiste em maximizar a verossimilhança entre um modelo de mistura de gaussianas θ e um conjunto de dados X = {x0, x1, ..., xT }. Se considerarmos, por simplificação, que os dados xi são independentes entre si (REYNOLDS D. A.; ROSE, 1995), a probabilidade de observação do conjunto X dados o modelo θ é: p(X|θ) = p(x0, x1, ..., xT |θ) = p(x0|θ)p(x1|θ)...p(xT |θ) = T t=0 p(xt|θ) A log-verossimilhança L{X|λ} pode ser obtida combinando o logaritmo, na forma: L{X|θ} = log T t=0 G i=1 piN(xt, µi, Σi) = T t=0 log G i=1 piN(xt, µi, Σi) Desta forma a ideia básica do algoritmo de maximização da verossimilhança consiste em obter, a partir de um modelo inicial θi um novo modelo θi+1 onde L{X|θi+1 } ≥ L{X|θi }. O novo modelo é obtido a partir do modelo atual e o processo se repete
  38. 38. Capítulo 2. Referencial Teórico 37 até atingir um limiar de convergência. Para o calculo no modelo i + 1 são utilizadas as condições descritas por (MCLACHLAN G.J.; BASFORD, 1988), que resultam nas equações a seguir, garantem o incremento monotônico do modelo: pi+1 = 1 T T t=0 p(i|xt, θ) µi+1 = T t=0 p(i|xt, θ)xt T t=0 p(i|xt, θ) σ2 i+1 = T t=0 p(i|xt, θ)xt 2 T t=0 p(i|xt, θ) − µ2 i A probabilidade da mistura i dado o vetor de dados xt e o modelo de mistura de gaussianas θ pode ser calculado como: p(i|xt, θ) = piN(xt, µi, Σi) G i=1 piN(xt, µi, Σi) Entretanto, no algoritmo de maximização da expectância, a escolha tamanho G do mo- delo e de suas configurações iniciais θ0 podem ser fatores críticos de sua convergência, e não existem boas escolhas capazes de garantir um bom modelo inicial. Este fato motiva que técnicas alternativas de busca da máxima log-verossimilhança possam ser discutidos para contornar estes problemas.
  39. 39. 38 3 Procedimentos Metodológicos O referente texto adotou a modalidade de pesquisa mista entre a abordagem qualitativa e quantitativa, como método para atingir seus objetivos, abrangendo traços de pesquisa descritiva, experimental e exploratória. Atendendo o critério de origem dos dados para a composição da base de dados, adota- se a metodologia de coleta de material sonoro por meio de um protocolo padronizado, para garantir a autenticidade do material sonoro (OLIVEIRA; BRENNER, 1988). Para atender o critério de propósito da base de dados, tem-se como objeto das amostras o estudo de características distintivas presentes no material sonoro para caracterização de consoantes fricativas. A primeira etapa consistiu na elaboração dos aspectos a serem trabalhados, como fenômenos linguísticos e acústicos, em seguida estabeleceu-se um roteiro de coleta, composto de uma etapa de leitura de palavras. Tal etapa serve de referência, onde foram escolhidas unidades de acordo com suas características, contemplando palavras que contenhas as fricativas qz/ ou /s/, posicionadas em sílaba átona no fim da palavra, ou em sílaba tônica intermediária ou em sílaba tônica no início de palavra; e palavras semelhantes com diversidade de encontros vocálicos. O material sonoro bruto, que consiste no período completo de gravação, foi padronizado em ser capturado em um canal (mono) amostrado à uma taxa de 44100 amostras por segundos, com uma resolução de 16 bits por amostra, sendo está o dobro da frequência da amostragem utilizado por Silva, Neto e Klautau (2009). A modelagem realizada para o trato vocal é do tipo fonte-filtro, onde a fonte pode ser modelada de acordo com a frequência fundamental de entrada e sua amplitude. O filtro pode ser modelado como um sistema ressonante, com polos complexos conjugados, que caracterizam as frequências de ressonância do filtro; e como o trato vocal pode apresentar características dinâmicas variantes no tempo, convencionou-se a janela para análise em 20 milissegundos. Para cada fornecedor será preenchido um questionário que armazenará informações importantes sobre o seu histórico de fonação, que podem ser muito úteis na análise sociolinguística dos indivíduos, como local de nascimento do indivíduo e de seus pais, locais e períodos onde residiu, o histórico de doenças fonatórias e tratamento fonoaudiológico, e se possui fluência em outros idiomas.
  40. 40. Capítulo 3. Procedimentos Metodológicos 39 A extração dos valores de frequência fundamental (F0 ou pitch1 ) foi realizada pelo método de auto-correlação descrito por Boersma (1993), onde foram calculados valores entre 50 Hz e 400 Hz, para falantes do sexo masculino; e entre 50 Hz e 500 Hz, para falantes do sexo feminino. O método de cálculo da intensidade sonora realizava elevando os valores ao quadrado e convoluidos com uma janela gaussiana do tipo Kaiser-20 com frequência mínima de 50 Hz (BOERSMA, 1993). O cálculo dos formantes foi realizado por meio do método descrito por (KIM; SEO; SUNG, 2006), utilizando análise LPC (Linear Prediction Code), com pré-ênfase de 50 dB, com estimação de cinco formantes até a frequência de 5500 Hz. Para ser possível um estudo completo sobre a identificação de padrões silábicos em registros acústicos, inicialmente foi realizado uma pesquisa bibliográfica em base de dados como a Scielo, cujas palavras chaves foram: processamento de dados, padrões de linguagem, reconhecimento de voz e trato vocal. Após pesquisas foram selecionados os artigos e livros mais recentes e com maior embasamento teórico e lidos posteriormente. 1 Apesar de neste texto a expressão pitch ser tratada como sinônimo da frequência fundamental é importante ressaltar que a literatura adota a expressão pitch com referência a sensação auditiva da frequência fundamental.
  41. 41. 40 4 Análises Resultados 4.1 Componentes Cepstrais Inicialmente foram coletados registros acústicos de seis locutores e através do soft- ware Praat, foi possível realizar a separação dos mesmos em frames, onde foram identificadas as fricativas e separadas em três vertentes, /s/, /z/ e "demais sons". Figura 15 – Amostra dos espectros de frequência através do programa Praat. Fonte: Elaborado pelos autores. A partir dos frames é possível obter um espectro com uma determinada quantidade de pontos. Posteriormente foi aplicada a Transformada de Fourier, resultando em um gráfico de magnitude em função da frequência, cuja as quantidades de pontos apresentados equivalem a metade dos pontos inicialmente projetados. Para uma maior compreensão dos dados submetemos o sinal à escala logarítmica e retirada a transformada inversa de Fourier novamente com o objetivo de se obter o cepstrum. Esta abordagem é muito utilizada para detecção de reflexões e ecos em um sinal e permite extrair do sinal analisado suas componentes reflexivas (BOGERT; HEALY; TUKEY, 1963). Portanto, para cada frame analisado, obtém-se um vetor. Através desta série de vetores é possível então fazer o traçado das componentes, com o intuito de se obter informações
  42. 42. Capítulo 4. Análises Resultados 41 específicas das consoantes fricativas (/s/ ou /z/). Ou seja, através do gráfico analisou-se a capacidade das característica de distinguir entre as fricativas alvo do presente estudo e restante material sonoro. Realizando a análise estatística dos índices cepstrais, ou seja, avaliando o comporta- mento da magnitude cepstral de cada índice para cada classe temos suas densidades de probabilidade estimadas. A estimação de densidade de probabilidade não paramé- trica é realizada pela ponderação de uma função de núcleo. ??) e ??) mostram que a densidade de probabilidade estimada ˆf(x) é definida da forma: ˆf(x) = 1 Nh N i=1 K x − xi h Onde N é o número de amostras da variável aleatória e h o intervalo do domínio de x que a função kernel K(x) abrange. Para o caso em que a função K(x) é uma distribuição uniforme com h constante, ˆf(x) será o histograma das N amostras. As figuras 16 apresentam as densidade estimadas dos componentes cepstrais de índice 1 a 4. Tais componentes foram selecionadas devido ao fato de apresentarem uma maior separação entre as consoantes fricativas do restante sonoro. Na componente 1 é possível distinguir, de forma clara, as consoantes fricativas /s/ ou /z/ do restante. Nota-se que existe uma pequena área de intercessão da curva vermelha com as demais curvas (verde e azul). Entretanto, as curvas azul e verde praticamente se sobrepõem, ou seja possuem uma grande área de intercessão, tornando difícil a separação entre fricativas /s/ e /z/ e consequentemente alterando a precisão do algoritmo. Já na componente 2 a separação entre as fricativas /s/ e /z/ (curvas verde e azul) torna-se mais evidentes, reduzindo o ponto de intercessão. Ainda sim, mesmo não sendo o padrão desejável, é possível ainda separar o restante sonoro das fricativas /s/ ou /z/. Portanto, tal componente foi a melhor encontrada para identificar padrões acústicos específicos. As outras componentes analisadas, não apresentaram uma boa resposta quanto a distinção de elementos, não sendo então realizada uma análise mais detalhada, e os respectivos gráficos encontram-se no apêndice deste trabalho. Na tentativa de agrupar as consoantes fricativas /s/, /z/ e o restante foram calcula- das as distâncias Euclidianas (DUDA; HART; STORK, 2004), entre as médias das
  43. 43. Capítulo 4. Análises Resultados 42 Figura 16 – Componentes cepstrais. Fonte: Elaborado pelos autores. características de cada indivíduo, conforme as equações a seguir. dEucl(x, y) = D d=1 (xd − yd)2 Onde D é a dimensionalidade das classes, e neste caso D = 40. Os resultados para os cenários acima descritos são apresentados respectivamente nas figuras abaixo. O traçado da distância euclidiana representa uma matriz, onde as cores representam as distâncias em que as consoantes fricativas /s/, estão da /z/, do restante e dela mesma e vice-versa. Sendo que o azul indica a menor distância possível e a cor vermelha a maior distância. Portanto, ao relacionar a fricativa /z/ com a fricativa /s/, identificamos a cor azul, ou seja, distância igual a zero. De acordo com as figuras acima, percebe-se que ao cruzar a fricativa /z/ com o resto e o resto com a fricativa /z/, obtem-se no ponto de encontro a cor vermelha, indicativo de uma distância longa. Isto mostra que é possível fazer uma separação eficiente destes grupos. Em contrapartida, ao cruzar as fricativas s com o resto e o resto com a fricativa s, esta distância reduz, indicando que a separação destes grupo tornou-se um pouco mais complexa.
  44. 44. Capítulo 4. Análises Resultados 43 Figura 17 – Distância Euclidiana calculada pelas Componentes cepstrais. Fonte: Elaborado pelos autores. É importante salientar que as análises das matrizes apresentadas são idênticas. O que diferente uma matriz da outra é que na figura 19 só se utiliza valores da matriz de correlação, reduzindo assim o número de componentes utilizadas para sua elaboração, tornando seus valores mais reais. Figura 18 – Matriz correlação entra as Componentes cepstrais. Fonte: Elaborado pelos autores. Pode-se então concluir que, tanto na análise cepstral dos componentes quanto na análise das distâncias euclidianas observa-se que separação das fricativas do restante sonoro é muito mais eficiente do que a separação entre as duas fricativas. Posteriormente foi realizada a análise através das MFCC (mel-frequency cepstrum), e novamente obteve-se as componentes de cada uma, onde identificamos aquelas com uma maior possibilidade de separação dos grupos, como mostrado abaixo.
  45. 45. Capítulo 4. Análises Resultados 44 Figura 19 – Componentes mel-cepstrais. Fonte: Elaborado pelos autores. Assim como na análise anterior, ao verificar a componente 14 é possível distinguir, de forma clara, as consoantes fricativas /s/ ou /z/ do restante. Por outro lado, a separação entre as fricativas é um pouco mais complexa, haja visto a sobreposição de áreas da mesma. O mesmo ocorre na componente 15, onde o ponto de intercessão das fricativas com o resto possui uma densidade de probabilidade relativamente baixa. Analisando as distâncias euclidianas é possível perceber que as fricativas /s/ se dis- tanciam pouco do restante sonoro, caracterizando assim uma separação muito mais eficiente. De maneira oposta, as fricativas /s/ se distanciam muito das fricativas /z/ e vice versa, tornando uma possível separação bastante complexa. A figura 20, torna tal afirmação ainda mais evidente, quando as fricativas se distanciam ainda menos do restante sonoro, ficando bem próximo a zero. Através da matriz de correlação apresentada abaixo, foi possível garantir um resultado confiável. Observa-se que os pontos onde aparecem as cores azul, verde e amarelo, apresentam uma melhor separação das fricativas com o restante, mostrando padrões característicos e independentes entre si.
  46. 46. Capítulo 4. Análises Resultados 45 Figura 20 – Distância Euclidiana calculada pelas Componentes Mel-Cepstrais. Fonte: Elaborado pelos autores. Figura 21 – Matriz correlação entra as Componentes Mel-Cepstrais. Fonte: Elaborado pelos autores. Sobre o resultado do agrupamento utilizando o cepstrum e com o mfcc, as caracte- rísticas selecionadas apresentaram agrupamento tanto para a distância euclidiana quanto para a análise das componentes cepstrais, porém este agrupamento é mais caracterizado entre as fricativas /s/ ou /z/ com os demais sinais sonoros. 4.2 Calculo da Probabilidade por GMM’s Após a análise das características cepstrais para avaliar a capacidade de distinção entre as as fricativas /s/, /z/ e os demais sinais sonoros a etapa natural é a parametrização das funções densidade de probabilidade por modelos de misturas de gaussianas para o calculo da probabilidade a posteriori de uma determinada amostra ser ou não oriunda de uma determinada classe.
  47. 47. Capítulo 4. Análises Resultados 46 Tabela 5 – Tabela com o erro de estimação por GMM. Acerto percentual Erro Percentual Demais sons 95, 6% 4, 4% /s/ 93, 9% 6, 1% /z/ 97, 6% 2, 4% As três classes ("demais sons", s/ e /z/) foram separadas e para as amostras disponíveis de cada classe foram levantados os Modelos de Mistura de Gaussianas (GMM’s) contendo 5 distribuições Gaussianas, de dimensionalidade 40, e matriz de covariância diagonal. A pré separação dos modelos de misturas foi realizada utilizando o algoritmo C-médias e o ajuste pela maximização da expectância. Obtidos os GMM’s a partir dos dados de cada classe foi calculada a probabilidade a posteriori dos conjuntos de dados pertencerem a cada classe conforme apresenta a figura 22. Em seguida cada quadro de componentes cepstrais foi submetida a cada modelo de classe e avaliada a probabilidade máxima a posteriori (MAP - maximum a posteriori), a classe que apresentasse o MAP foi escolhida e comparada com sua classe de origem para avaliar o erro de estimação estatística que é apresentado na tabela 5. Figura 22 – Probabilidade a posteriori entre as classes Fonte: Elaborado pelos autores. Nota-se que os resultados apresentam acerto de classificação acima de 93%, de forma que o desempenho, baseado apenas na informação estatística apresentou resultados muito significativos. Tal resultado é importante do ponto de vista da robustez estatística, entretanto avaliando o posicionamento das ocorrências notou-se que algumas ocorrem nas adjacências das fricativas enquanto outras ocorrências apareceram em ambientes de ausência de fala.
  48. 48. Capítulo 4. Análises Resultados 47 Esta observação indica que um refinamento mais preciso, principalmente na indicação de presença ou ausência de atividade de voz, deve ser utilizada em complementação ao presente trabalho.
  49. 49. 48 5 Considerações finais 5.1 Conclusões No presente estudo, investigou-se o padrão característico de fala de 6 pessoas, dentre elas algumas do sexo feminino e outras do sexo masculino. Foram realizadas análise de frequência fundamental, análise de formantes e análise cepstral. Foi possível dife- renciar as consoantes fricativas dos demais registros sonoros por meio de cepstrum e formantes. A metodologia utilizada, Inferência Bayesiana e Modelos de Misturas Gaussianas mostrou-se relativamente eficaz na separação das três classes de sons (“demais sons” /s/ e /z/) se combinadas com métodos computacionais para a maximização da expectância, que confiram a máxima verossimilhância entre o modelo e a massa de dados observados. Tal fato foi confirmado através da estimativa de erro percentual calculado pela probabili- dade de distribuição a posteriori, onde a fricativa /z/ apresentou menor índice, seguido pelos “demais sons” e pela fricativa /s/. Observando-se nas três classes um índice de acerto percentual acima de 93 %. É importante frisar, todavia, que os resultados encontrados devem ser ponderados. Uma vez que não se tem controle sobre a qualidade das gravações. Mais estudos, realizados com maior controle em relação aos equipamentos utilizados na gravação, ruído, bem como frase a ser falada, precisam ser realizados. Além disso, é importante aumentar a amostra, e parear também os resultados por idade, sexo, como também naturalidade. 5.2 Propostas de Continuidade Os autores sugerem como propostas de continuidade do presente trabalho: • Explorar os padrões dos demais sons fricativos mais comumente encontradas no português brasileiro como /f/, /v/, /S/, /Z/, /x/, /G/, /h/, /H/, incluindo os sons das africadas /Ù/, /Ã/.
  50. 50. Capítulo 5. Considerações finais 49 • Explorar as características das fricativas do português brasileiro realizando o recorte em relação a presença de vibração das pregas vocais (vozeamento), aprofundando os estudos em detecção de atividade de voz. • Explorar ainda padrões fricativos em contextos articulatórios contínuos. Os autores apontam ainda que as possibilidades no estudo de sons da fala é extremamente amplo, possibilitando uma vasta gama de recortes e casos particu- lares capazes apontar padrões matemáticos que contribuem para o entendimento e desenvolvimento de sistemas baseados no suporte por voz e fala.
  51. 51. 50 Referências BOERSMA, P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound. In: AMSTERDAM. Proceedings of the institute of phonetic sciences. [S.l.], 1993. v. 17, n. 1193, p. 97–110. Citado na página 39. BOGERT, B. P.; HEALY, M. J.; TUKEY, J. W. The quefrency alanysis of time series for echoes: Cepstrum, pseudo-autocovariance, cross-cepstrum and saphe cracking. In: CHAPTER. Proceedings of the symposium on time series analysis. [S.l.], 1963. v. 15, p. 209–243. Citado na página 40. BORGERT, B.; HEALY, M.; TUKEY, J. The quefrency analysis of time series for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum and saphe craking: Proc. Symp. On Time Series Analysis, Rosenblatt, M. ed. [S.l.]: John Wiley and Sons, Inc, 1963. Citado 2 vezes nas páginas 27 e 28. CAGLIARI, L. C. Elementos de fonética do português brasileiro. Tese (Doutorado) — Universidade Estadual de Campinas, 1981. Citado na página 21. DEMPSTER A.P.; LAIRD, N. R. D. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, Vol. 1, p. 1–38, 1977. Citado na página 36. DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. [S.l.]: John Wiley & Sons., 2004. Citado 2 vezes nas páginas 16 e 41. EHLERS, R. S. Análise de séries temporais. Laboratório de Estatística e Geoinformação. Universidade Federal do Paraná, 2007. Citado 3 vezes nas páginas 33, 34 e 35. FLANAGAN, J. L. Speech analysis synthesis and perception. [S.l.]: Springer Science & Business Media, 2013. Citado 4 vezes nas páginas 18, 19, 20 e 21. FURUI, S. Digital Speech Processing: Synthesis, and Recognition, Second Edition,. Taylor & Francis, 2000. (Signal Processing and Communications). ISBN 9781420002669. Disponível em: <https://books.google.com.br/books?id=X6mZGqZmcbgC>. Citado 2 vezes nas páginas 17 e 18. GAY, T. Effect of speaking rate on diphthong formant movements. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 44, n. 6, p. 1570–1573, 1968. Citado na página 33. GLEICK, J. A informação: um história, uma teoria, uma exurrada. Tradução de Augusto Calil. São Paulo: Companhia das letras, 2013. Citado na página 18. KENT, R. D.; READ, C. Análise Acústica da Fala. [S.l.]: Cortez Editora, 2015. Citado na página 34. KIM, C.; SEO, K.-d.; SUNG, W. A robust formant extraction algorithm combining spectral peak picking and root polishing. EURASIP Journal on Applied Signal Processing, Hindawi Publishing Corp., v. 2006, p. 33–33, 2006. Citado 2 vezes nas páginas 32 e 39. MAKHOUL, J. Linear prediction: A tutorial review. Proceedings of the IEEE, IEEE, v. 63, n. 4, p. 561–580, 1975. Citado na página 30.
  52. 52. Referências 51 MCLACHLAN G.J.; BASFORD, K. Mixture Models: Inference and Applications to Clustering. [S.l.]: Dekker, 1988. Citado na página 37. MÜLLER, D. N. Compreensão da linguagem falada. Porto Alegre: PPGC-UFRGS, 2002. Citado na página 15. OLIVEIRA, S. G. de; BRENNER, T. de M. Introdução à fonética e à fonologia da lingua portuguesa: Fundamentação teórica e exercícios para o III Grau. [S.l.]: ed. da autora, 1988. Citado 2 vezes nas páginas 23 e 38. OPPENHEIM, A.; SCHAFER, R. Discrete-Time Signal Processing. [S.l.]: Pearson, 2010. Citado 2 vezes nas páginas 16 e 27. O’SHAUGHNESSY, D. Speech communication: human and machine. [S.l.]: Universities press, 1987. Citado na página 28. PIERANGELO, R.; GIULIANI, G. Special education eligibility: A step-by-step guide for educators. [S.l.]: Corwin Press, 2007. Citado na página 18. RABINER, L. R.; SCHAFER, R. W. Digital processing of speech signals. [S.l.]: Prentice Hall, 1978. Citado na página 16. RABINER, L. R.; SCHAFER, R. W. Introduction to digital speech processing. Foundations and trends in signal processing, Now Publishers Inc., v. 1, n. 1, p. 1–194, 2007. Citado na página 31. REYNOLDS, D. et al. Beyond cepstra: exploiting high-level information in speaker recognition. In: CITESEER. Proceedings of the Workshop on Multimodal User Authentication. [S.l.], 2003. p. 223–229. Citado na página 15. REYNOLDS D. A.; ROSE, R. C. Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, v. 3, p. 72–83, 1995. Citado na página 36. SILVA, A. H. P. Língua Portuguesa I: fonética e fonologia. [S.l.]: IESDE BRASIL SA, 2007. Citado na página 23. SILVA, P.; NETO, N.; KLAUTAU, A. Novos recursos e utilizaçao de adaptaçao de locutor no desenvolvimento de um sistema de reconhecimento de voz para o português brasileiro. XXVII simpósio Brasileiro de telecomuniçacões, 2009. Citado na página 38. SILVA, T. C. Fonética e fonologia do português: roteiro de estudos e guia de exercícios. [S.l.]: Contexto, 2007. Citado 6 vezes nas páginas 17, 21, 22, 24, 25 e 26. STEVENS, S. S.; VOLKMANN, J.; NEWMAN, E. B. A scale for the measurement of the psychological magnitude pitch. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 8, n. 3, p. 185–190, 1937. Citado 2 vezes nas páginas 28 e 29. TEIXEIRA, M. M. As faces da comunicação. Munique: Grin, 2012. Citado na página 19. TOGNERI, R.; PULLELLA, D. An overview of speaker identification: Accuracy and robustness issues. IEEE Circuits And Systems Magazine, Second Quarter 2011. Citado 3 vezes nas páginas 28, 29 e 30. WU, C. F. J. On the convergence properties of the em algorithm. Annals of Statistics, Vol. 1, p. 95–103, 1983. Citado na página 36.
  53. 53. Apêndices
  54. 54. 53 APÊNDICE A – Curvas de densidade de probabilidade A.1 Densidades de probabilidade dos índices Cepstrais Figura 23 – Distribuição dos componentes cepstrais dos índices 05 ao 08
  55. 55. APÊNDICE A. Curvas de densidade de probabilidade 54 Figura 24 – Distribuição dos componentes cepstrais dos índices 09 ao 12 Figura 25 – Distribuição dos componentes cepstrais dos índices 13 ao 16
  56. 56. APÊNDICE A. Curvas de densidade de probabilidade 55 Figura 26 – Distribuição dos componentes cepstrais dos índices 17 ao 20 Figura 27 – Distribuição dos componentes cepstrais dos índices 21 ao 24
  57. 57. APÊNDICE A. Curvas de densidade de probabilidade 56 Figura 28 – Distribuição dos componentes cepstrais dos índices 25 ao 28 Figura 29 – Distribuição dos componentes cepstrais dos índices 29 ao 32
  58. 58. APÊNDICE A. Curvas de densidade de probabilidade 57 Figura 30 – Distribuição dos componentes cepstrais dos índices 33 ao 36 Figura 31 – Distribuição dos componentes cepstrais dos índices 37 ao 40
  59. 59. APÊNDICE A. Curvas de densidade de probabilidade 58 A.2 Densidades de probabilidade das MFCC’c Figura 32 – Distribuição dos Componentes Mel Cepstrais 01 ao 04 Figura 33 – Distribuição dos Componentes Mel Cepstrais 05 ao 08
  60. 60. APÊNDICE A. Curvas de densidade de probabilidade 59 Figura 34 – Distribuição dos Componentes Mel Cepstrais 08 ao 12 Figura 35 – Distribuição dos Componentes Mel Cepstrais 17 ao 20
  61. 61. APÊNDICE A. Curvas de densidade de probabilidade 60 Figura 36 – Distribuição dos Componentes Mel Cepstrais 21 ao 24
  62. 62. 61 APÊNDICE B – Parâmetros dos Modelos de Mistura de Gaussianas GMM da classe que modela os "demais sons" Número de componentes Gaussianas: 05 Dimensionalidade: 24 Vetor de pesos pi: 1.92165e-01; 5.53000e-01; 7.76799e-02; 4.96517e-02; 1.27503e-01 Vetores de médias µj: -1.31065e+00; 1.06447e-01; -1.73481e-02; 4.33591e-02; -2.68636e-02; 4.19807e-02; -3.45610e-02; 5.39568e-02; -4.17689e-02; 2.44239e-02; -3.84765e-02; 2.45404e-02; -4.41376e- 02; 1.53851e-02; -4.06925e-02; 5.35128e-03; -4.73892e-02; 1.30142e-03; -4.28459e-02; -8.76201e-03; -4.07448e-02; -4.98118e-03; -4.01267e-02; -9.56786e-03. -1.83438e+00; 3.91138e-02; -4.78101e-02; 1.37040e-02; -5.16309e-02; 2.47500e-02; -3.82329e-02; 3.22604e-02; -3.11794e-02; 2.52229e-02; -3.81097e-02; 2.23387e-02; -2.95305e- 02; 2.07217e-02; -1.77565e-02; 2.79298e-02; -2.34364e-02; 1.83808e-02; -2.29834e-02; 7.20689e-03; -1.91162e-02; 1.14979e-02; -2.55940e-02; -6.68704e-03. -4.80588e-01; 1.79615e-01; -6.00988e-02; -1.20954e-02; -1.25804e-01; 1.44638e-02; -6.71859e-02; -3.46183e-02; -6.65609e-02; 9.30451e-05; -6.81183e-02; 1.91850e-02; -7.18517e-02; -4.43831e-03; -6.50747e-02; -6.42851e-03; -6.27918e-02; -6.15035e-03; -5.72248e-02; -1.18298e-02; -5.80940e-02; -1.67699e-02; -5.08325e-02; -1.55799e-02. -1.99483e-01; 2.23699e-01; -4.74139e-02; -5.22143e-02; -5.27793e-02; 1.47323e-02; -1.19744e-01; 7.60419e-02; -9.67831e-02; 8.17621e-03; -9.21190e-02; 4.50150e-02; -3.62066e- 02; 3.95136e-02; -4.39996e-02; 1.16504e-02; -5.45314e-02; -4.48228e-03; -4.80041e-02; -6.33833e-04; -4.36533e-02; -1.79820e-03; -4.27386e-02; -3.27446e-04. -5.87295e-01; 6.42205e-02; 6.80056e-03; 1.59564e-01; -1.57564e-02; 4.81007e-02; -8.83968e- 02; 3.60712e-02; -7.99960e-02; 1.27575e-03; -8.56394e-02; -1.27256e-02; -8.43497e-02; -3.56159e-03; -6.70937e-02; -3.43424e-03; -5.47211e-02; 3.70038e-03; -3.98390e-02; -1.30323e-03; -4.09703e-02; -3.52821e-03; -3.69693e-02; -2.53834e-03. Diagonal das matrizes de variância Σj,j: 9.52417e-02; 3.10980e-02; 6.48890e-03; 5.67812e-03; 3.19304e-03; 2.14361e-03; 2.42250e- 03; 2.48751e-03; 1.96771e-03; 1.40785e-03; 1.46907e-03; 1.53877e-03; 1.11315e-03; 1.28397e-03; 1.06239e-03; 1.12464e-03; 1.07229e-03; 1.01159e-03; 9.45631e-04; 1.06245e- 03; 9.57725e-04; 9.96075e-04; 8.44216e-04; 8.72018e-04. 2.31628e-02; 1.35145e-03; 1.26863e-03; 1.10559e-03; 1.27195e-03; 8.94483e-04; 9.07519e- 04; 9.61308e-04; 8.85005e-04; 8.25376e-04; 8.65063e-04; 8.41974e-04; 8.22641e-04; 8.10896e-04; 7.91468e-04; 8.35327e-04; 7.97424e-04; 7.96917e-04; 7.46855e-04; 7.52105e- 04; 7.31509e-04; 7.26029e-04; 7.18053e-04; 6.90120e-04. 1.99600e-01; 6.91381e-03; 2.27790e-02; 1.04760e-02; 4.74195e-03; 3.90310e-03; 2.27035e-
  63. 63. APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 62 03; 2.02341e-03; 7.33210e-04; 1.14723e-03; 1.32422e-03; 5.98949e-04; 5.69900e-04; 6.17517e-04; 5.74506e-04; 4.20035e-04; 4.55275e-04; 4.86208e-04; 4.49077e-04; 5.76054e- 04; 5.08093e-04; 5.03488e-04; 4.44992e-04; 4.02404e-04. 5.03796e-02; 4.54815e-03; 1.48119e-03; 3.23661e-03; 4.74123e-03; 2.30143e-03; 2.51026e- 03; 1.77211e-03; 2.58872e-03; 1.46533e-03; 9.74756e-04; 8.84313e-04; 1.62778e-03; 7.90539e-04; 4.88994e-04; 4.29281e-04; 4.02172e-04; 5.62545e-04; 4.74413e-04; 3.20735e- 04; 2.92189e-04; 2.55248e-04; 2.30423e-04; 2.50338e-04. 1.01849e-01; 2.50127e-02; 7.12227e-03; 6.30215e-03; 6.04952e-03; 2.67107e-03; 4.65861e- 03; 3.36366e-03; 2.13024e-03; 1.99991e-03; 1.64388e-03; 1.17924e-03; 9.27993e-04; 9.93398e-04; 8.12812e-04; 6.24459e-04; 6.09995e-04; 5.71116e-04; 5.31938e-04; 5.01102e- 04; 5.02370e-04; 5.89037e-04; 5.02595e-04; 4.88693e-04. GMM da classe que modela os /s/ Número de componentes Gaussianas: 05 Dimensionalidade: 24 Vetor de pesos pi: 1.13115e-01 8.50997e-02 1.45880e-01 3.56701e-01 2.99204e-01. Vetores de médias µj: -1.06189e+00; 1.62422e-01; -1.74947e-02; 3.69637e-02; -4.13546e-02; 1.00047e-01; -1.28258e-02; 1.30892e-03; -5.73655e-02; 1.22174e-02; -2.88737e-02; 2.50477e-02; -1.03004e- 01; -5.18827e-03; -7.02876e-02; -1.43378e-02; -3.57277e-02; 4.99381e-03; -4.73287e-02; 1.71439e-03; -6.02233e-02; -2.88630e-02; -5.47232e-02; -3.35868e-02. -1.31752e+00; 9.67482e-02; 2.66175e-02; -1.88570e-02; -1.18969e-02; 1.62875e-02; -3.33566e-02; 6.91305e-02; -4.45869e-02; -1.90847e-02; -7.33568e-02; 2.77103e-02; -4.01300e-02; 3.08306e-02; -4.20689e-02; 1.46795e-02; -5.06428e-02; 1.95036e-02; -2.49559e- 02; 7.49733e-03; -2.81291e-02; 6.04688e-03; -2.54973e-02; -6.19664e-03. -1.17277e+00; -2.65158e-01; 1.04895e-03; -4.54721e-02; -5.54269e-02; 4.13057e-02; -7.30818e-02; 5.87038e-02; -6.45036e-02; 5.40169e-02; -2.19373e-02; 2.21310e-02; -4.67503e- 02; 3.81857e-02; -3.35076e-02; 1.68417e-02; -1.20753e-02; 3.91225e-02; -2.65937e-02; 2.91602e-02; -1.13213e-02; 2.13730e-02; -3.46118e-02; 8.38715e-03. -1.14690e+00; -1.17628e-01; -3.42375e-02; -6.73659e-04; -3.41150e-02; 8.45983e-03; -1.60428e-02; 3.03161e-02; -3.74464e-02; 3.22317e-02; -1.70793e-02; 2.66533e-02; -2.58280e- 02; 4.61729e-02; -1.46511e-02; 2.79224e-02; -3.94666e-02; 2.90792e-02; -3.60912e-02; 1.55124e-02; -2.15561e-02; 1.57158e-02; -3.15451e-02; 1.46539e-02. -1.16852e+00; -3.57419e-02; -1.04140e-01; 7.53671e-04; -8.99906e-02; 3.19009e-02; -6.56611e-02; 2.28558e-02; -4.63474e-02; 2.11119e-02; -2.47455e-02; 5.29090e-02; -2.87297e- 02; 3.51896e-02; -3.45063e-02; 2.99039e-02; -1.92638e-02; 2.03857e-02; -3.85899e-02; -7.87176e-04; -3.26775e-02; -9.35716e-04; -4.12666e-02; -1.42505e-03. Diagonal das matrizes de variância Σj,j: 5.89768e-03; 5.95137e-03; 8.12212e-04; 1.58625e-03; 3.74023e-03; 8.68014e-04; 2.37897e- 03; 1.09220e-03; 1.57594e-03; 1.49504e-03; 6.65168e-04; 6.70284e-04; 1.07228e-03;
  64. 64. APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 63 5.16680e-04; 6.45447e-04; 1.04491e-03; 5.98727e-04; 5.86911e-04; 1.06326e-03; 4.48981e- 04; 3.16657e-04; 1.05847e-03; 3.45598e-04; 2.83156e-04. 2.76820e-01; 5.08320e-03; 2.34142e-03; 7.54747e-04; 2.70887e-03; 9.52063e-04; 2.15357e- 03; 1.18251e-03; 1.21087e-03; 1.68800e-03; 1.57321e-03; 6.92350e-04; 1.17793e-03; 1.40564e-03; 3.99702e-04; 1.22079e-03; 9.84163e-04; 4.39520e-04; 7.32784e-04; 3.80664e- 04; 5.00446e-04; 6.25529e-04; 5.15151e-04; 5.10260e-04. 3.07133e-02; 2.30952e-03; 2.26921e-03; 2.61067e-03; 1.37321e-03; 3.06021e-03; 9.07430e- 04; 1.07657e-03; 6.56711e-04; 6.09654e-04; 9.53688e-04; 9.84244e-04; 1.14306e-03; 2.95642e-04; 9.27412e-04; 8.11257e-04; 6.02500e-04; 1.03330e-03; 7.60486e-04; 6.40360e- 04; 9.33039e-04; 4.93563e-04; 6.07514e-04; 3.92202e-04. 1.26921e-02; 2.58287e-03; 1.87600e-03; 1.94357e-03; 2.96149e-03; 1.41780e-03; 1.16600e- 03; 1.45614e-03; 1.26386e-03; 8.11396e-04; 1.09128e-03; 8.26775e-04; 8.34781e-04; 1.04849e-03; 4.86780e-04; 8.16828e-04; 9.08311e-04; 7.65073e-04; 7.57752e-04; 6.21271e- 04; 4.71239e-04; 6.90472e-04; 8.74337e-04; 7.23192e-04. 6.18551e-03; 3.29634e-03; 1.62889e-03; 3.26592e-03; 1.16162e-03; 8.57211e-04; 1.06039e- 03; 1.01906e-03; 1.04790e-03; 1.34595e-03; 1.07815e-03; 7.19959e-04; 8.47530e-04; 1.12133e-03; 1.24984e-03; 8.28921e-04; 5.04092e-04; 8.21817e-04; 4.46947e-04; 7.65734e- 04; 4.99699e-04; 6.89767e-04; 7.70057e-04; 6.44105e-04. GMM da classe que modela os /z/ Número de componentes Gaussianas: 05 Dimensionalidade: 24 Vetor de pesos pi: 7.31707e-02; 9.72129e-02; 1.21913e-01; 5.36623e-01; 1.71080e-01. Vetores de médias µj: -9.60267e-01; -3.91307e-02; 1.46709e-01; -2.84628e-02; 4.13652e-02; 3.92572e-02; -4.68173e- 03; 1.03183e-01; -7.41555e-02; 4.44302e-02; -1.14968e-01; 3.36116e-02; -2.61021e-02; 3.01558e-02; 7.14320e-03; 8.30059e-03; -7.46714e-02; 1.65235e-02; -4.73313e-02; -7.26910e- 03; -2.57274e-02; 4.84240e-03; -3.16164e-02; 1.19967e-02. -1.07393e+00; -2.39954e-02; 1.21048e-01; 2.33600e-02; 3.52047e-03; 6.88783e-02; -2.34587e- 02; 1.12724e-01; -3.81447e-02; -9.99415e-03; -4.33819e-02; 3.55168e-02; -5.05081e-02; 3.71646e-02; -1.34961e-02; -2.15729e-02; -5.55303e-02; 4.39543e-02; -5.24885e-02; 8.74250e-03; -4.51192e-02; 2.42416e-02; -1.62574e-02; 1.17675e-02. -1.08871e+00; 1.20262e-01; 7.00249e-02; 1.56937e-02; -3.03947e-03; 5.88500e-02; 4.78753e- 04; 3.93464e-02; -7.93251e-02; -5.05800e-04; -3.14868e-02; 4.13174e-02; -4.43373e-02; 1.12876e-02; -1.00254e-01; 3.15610e-02; -6.34990e-02; 9.93976e-03; -2.84799e-02; -2.04656e-02; -5.98438e-02; -1.82551e-02; -5.37303e-02; -3.11831e-02. -1.04765e+00; 2.01632e-01; 1.06443e-02; 4.07921e-02; -3.53737e-02; 8.76668e-02; -2.11507e- 02; -9.22257e-04; -5.33102e-02; 1.01576e-02; -3.03724e-02; 3.15472e-02; -7.07749e-02; 1.45109e-02; -6.07863e-02; 5.78589e-03; -4.13114e-02; -1.35608e-02; -5.22285e-02; -1.62696e-02; -5.72441e-02; -2.38965e-02; -5.33440e-02; -2.80368e-02.
  65. 65. APÊNDICE B. Parâmetros dos Modelos de Mistura de Gaussianas 64 -1.22813e+00; 1.00333e-01; 9.92402e-02; 4.25430e-02; 2.17156e-02; 1.86774e-02; 9.60830e- 03; 7.71413e-02; -1.95745e-02; 1.63351e-02; -5.44306e-02; 2.92146e-02; -3.53146e-02; 1.53569e-02; -3.17706e-02; 2.70216e-02; -5.84178e-02; -3.28852e-04; -5.48825e-02; 1.64546e-02; -4.34769e-02; 2.74202e-02; -1.93249e-02; -7.75899e-04. Diagonal das matrizes de variância Σj,j: 5.91317e-04; 3.53792e-04; 2.07568e-04; 1.43018e-04; 1.93516e-04; 3.47853e-04; 2.15983e- 04; 5.26512e-04; 1.35328e-03; 2.30815e-04; 2.12788e-04; 2.38048e-05; 2.34121e-04; 3.29170e-04; 1.62992e-04; 3.33749e-04; 6.43146e-04; 1.01656e-05; 2.87029e-04; 1.13825e- 04; 1.61455e-04; 3.85669e-04; 6.56403e-04; 2.89931e-04. 1.38606e-02; 3.38908e-03; 5.80215e-04; 1.68789e-03; 4.32710e-04; 5.55713e-04; 1.92350e- 04; 6.98242e-04; 1.01850e-03; 2.43891e-04; 2.34783e-03; 2.22578e-04; 1.22891e-04; 1.02933e-04; 8.02787e-05; 5.78388e-04; 5.55751e-05; 5.08530e-04; 5.59500e-04; 1.97816e- 03; 3.30297e-04; 1.59851e-04; 3.36801e-04; 1.20709e-04. 6.69374e-04; 4.74420e-03; 1.80402e-04; 7.17785e-04; 1.59506e-03; 4.03702e-04; 1.67818e- 03; 6.00704e-04; 1.12594e-04; 5.79046e-04; 4.41157e-04; 8.06747e-04; 6.34157e-04; 3.88727e-04; 2.03111e-04; 7.09546e-04; 2.45201e-04; 1.53682e-04; 4.41306e-04; 4.28795e- 04; 9.25821e-04; 2.00164e-04; 2.31420e-04; 4.79458e-04. 1.02331e-02; 3.98238e-03; 8.89143e-04; 1.02529e-03; 8.33543e-04; 1.04017e-03; 4.12224e- 04; 1.37373e-03; 4.24082e-04; 6.88298e-04; 4.92562e-04; 5.64244e-04; 5.79470e-04; 5.89051e-04; 3.20120e-04; 9.70901e-04; 5.72846e-04; 4.80696e-04; 4.61155e-04; 6.44824e- 04; 5.28629e-04; 3.97047e-04; 4.79763e-04; 4.64338e-04. 7.07111e-04; 1.85950e-03; 2.63456e-04; 5.36513e-04; 2.93703e-04; 4.37722e-04; 3.14233e- 04; 4.58688e-04; 3.36141e-04; 7.36570e-04; 3.28259e-04; 1.87205e-04; 2.90547e-04; 1.15164e-04; 9.71804e-05; 2.99202e-04; 2.99128e-04; 2.58704e-04; 4.49353e-04; 7.67805e- 04; 1.71537e-04; 3.00681e-04; 1.08544e-04; 2.56736e-04.

×