O documento apresenta uma pesquisa sobre análise acústica de patologias da fala para identificar problemas vocais. Foram analisadas 209 vozes com diagnósticos médicos confirmados de normal e dez patologias diferentes. Os resultados preliminares mostraram sucesso de cerca de 100% na separação de vozes normais e patológicas, e de 60% na identificação da patologia específica. Análises estatísticas como componentes principais estão sendo realizadas para melhor entender os fatores acústicos que separam as classes de patologia
Análise Acústica de patologias da fala (VOICECLIN)
1. WDCOPIN 2012
Análise Acústica de patologias da fala
(VOICECLIN)
Mestrando Sérgio de Brito Espinola
Ciência da Computação – LAD/COPIN/UFCG
Orientadores: Prof. Dr. Elmar Uwe Kurt Melcher,
Prof. Dra. Joseana Macêdo Fechine Régis de Araújo
2. Agenda
Contexto da Pesquisa
Problema
Relevância
Motivação
Objetivo
Materiais e métodos
Resultados Preliminares
Considerações Finais e
Trabalhos Futuros
Fonte Figura microfone : Microsoft ® Office: mac, Clipart, HOME & STUDENT, 2011.
Campina Grande, 8 de Maio de 2012 2 Sérgio Espinola – LAD/COPIN/CEEI/UFCG
3. Voz, Economia e Sociedade
Instrumento natural de Comunicação;
Um terço (1/3) da força de trabalho produtiva
depende da Voz para seus ofícios (FRAILE et ali 2009);
Esses profissionais podem ser
classificados em: (SDERSTEN 2007)
Instrutores,
Intérpretes,
Persuasivos,
Profissionais de emergência.
Campina Grande, 8 de Maio de 2012 3 F
Fonte Fotos: Religioso: http://www.pletz.com/blog e Aula: http://morgadodeontologia.blogspot.com
4. Voz, Economia e Sociedade II
3 a 10% dos americanos terão
algum problema relacionado a
fala durantes suas vidas;
~60 % dos professores podem
ter problemas de voz no Brasil
(ZAMBOM; BEHLAU, 2010). “Em 29 de outubro, Lula foi diagnosticado com
câncer de laringe após passar por exames no
Hospital Sírio-Libanês, em São Paulo.”
Revista Veja
População de Professores PT-BR:
•Cerca de 2,4 milhões (Educação Básica 2 mi)
•Mulheres representam
81,5 % do total amostrado
Dados de 1651 professores da rede básica de ensino e
1614 pessoas da população em geral
Dados MEC/INEP (ZAMBOM, BEHLAU 2010):
Disponível em <http://www.rbep.inep.gov.br/index.php/RBEP/article/viewFile/474/487>
Reportagem sobre Lula:
4 <http://veja.abril.com.br/noticia/brasil/lula-divulga-foto-sem-barba-e-cabelo>
5. Problema na Voz e
Questões sobre seu Diagnóstico
Procedimentos
1. Paciente: Procurar Otorrino ou Fonoaudiólogo;
2. Especialista médico deverá:
Escutar diretamente a voz do paciente;
Inspecionar (direta ou indireta) por meio de
exames das pregas vocais.
+Considerações Levantadas
1. Análises subjetivas (experiência do especialista).
Imprecisão e ambiguidade nos diagnósticos!
2. Exames são custosos (equipamentos e reagentes) /desagradáveis
(invasivos).
Falta de estímulo ou declínio total para consulta e constrangimentos!
Fonte Figura microfone: Microsoft ® Office: mac, Clipart, HOME & STUDENT, 2011.
5 Fonte Figura exame: http://midwestearnosethroat.com/services/throat
6. Objetivo
Modelar um sistema para apoiar o
Diagnóstico Clínico da Voz (Voice),
por meio da análise acústica,
para identificar um conjunto de
patologias da fala
Campina Grande, 8 de Maio de 2012 6
7. Estudo
Caracterização de um Sistema de Processamento digital de
sinais de Voz (PDSV) para classificação automática de um
conjunto de Patologias Vocais.
Terapia vocal,
cirurgia e, em
alguns casos,
radioterapia
(MARTINEZ & RUFINER, 2000).
Indicar um
Diagnóstico
Fala do (Patologia)
Paciente
VOICECLIN
Campina Grande, 8 de Maio de 2012 7 Sérgio Espinola – LAD/UFCG
8. Motivação
1. Diagnóstico precoce - quase sempre –
é favorável à recuperação do paciente;
Chances de cura (carcinoma na laringe *):
•Tumor em estágio inicial – acima de 90%
•“ “ médio – de 40% a 70%
•“ “ avançado – abaixo de 20%
1. Sinalizar um diagnóstico por meio de uma
gravação local (própria voz) pode alcançar um
grande público.
Exemplo: Sistema em Computador ou num dispositivo portátil (celular,
smartphone ou tablet).
* Fonte: http://g1.globo.com/bemestar/noticia/2011/10/cancer-de-laringe-que-atinge-lula-acomete-5-homens-para-cada-mulher.html
Sérgio Espinola – LAD / COPIN / UFCG
Campina Grande, 12 de dezembro de 2011 8 sergiodbe@lad.dsc.ufcg.edu.br
9. Motivação II
1. Não existe ainda um consenso dos cientistas
a respeito da:
Modelagem mais “apropriada” para caracterizar uma
determinada patologia;
Definição dos descritores acústicos (Fo, Pitch, etc)
“bons” na discriminação de determinada (s) Patologia
(s);
2. Acesso a uma base de dados relevante e
também usada por outros pesquisadores no
Mundo.
Sérgio Espinola – LAD / COPIN / UFCG
Campina Grande, 12 de dezembro de 2011 9 sergiodbe@lad.dsc.ufcg.edu.br
10. Materiais e Métodos I
Figura 2. 5 - Modelo do trato vocal ( RAB I NER and S CHAFER , 1978) .
O trato nasal começa na úvula e termina nas narinas. Quando a úvula é
Objetos da pesquisa:
abaixada, o trato nasal é acusticamente acoplado ao trato vocal para produzir os
sons nasais da voz. Na Figura 2.6, é apresentado um diagrama em blocos da
produção de voz humana (DELLER, PROAKIS & HANSEN, 1993), também
Exame da Fala (Voz): denominado sistema fonte-filtro, em que as dobras vocais são consideradas a
fonema /a/ gravado,
fonte sonora e o trato vocal, o filtro. Nesse modelo, as saídas produzem ondas
acústicas que representam a voz humana (RABINER e JUANG, 1993).
Diagnósticos de Patologias.
É Necessário citar o
Contexto da Produção da Voz
Está relacionado à Laringe, faringe, língua,
palato, lábios e às estruturas relacionadas
(pulmão, pregas ou dobras vocais, etc).
A articulação destes mecanismos/estruturas
produz sons particulares que, de forma
simplificada, serão tratados como vozes.
Figura 2. 6 - Um diagrama de blocos da produção de voz humana.
Figura UM DIAGRAMA DE BLOCOS DA PRODUÇÃO DA VOZ HUMANA
(COSTA, 2008)
10
11. Materiais e Métodos II
Base: 209 Vozes
Gravação da Fonação da
Vogal sustentada a
Duração média: 1-3 s
Sexo: F=136; M=73
Respaldo: Estudo de profissionais
médicos e especialistas em voz do
Hospital-Enfermaria de Olhos, Ouvido e
Garganta de Massachusetts/USA MEEI
(KAY, 1994)
Fonte Figura WORKSHOP ON ACOUSTIC ANALYSIS, TITZE, Ingo R. PH.D. Page 9. 11
13. Resultados Preliminares I
Diagnósticos Confirmados
com especialista:
1. Normal
2. Patologias (dez)
Campina Grande, 8 de Maio de 2012 13 Sérgio Espinola – LAD/COPIN/CEEI/UFCG
14. Resultados Preliminares II
1. Estudos de Caso (UC)
I. UC1: Da Presença de Patologias
“Normal X Patológica”:
Sucesso esperado (Cerca de 100% de CA)!
A não-normalidade na produção da fala (patologia) está associada ao
aparecimento da não-estacionariedade do sinal produzido na fonação sustentada.
Efeitos: Mudanças de Amplitude, ruído de turbulência, etc.
II. UC2: Dentre Patologias,
Identificar qual está presente na fala.
Sucesso de cerca de 60% (ainda baixo).
Classificador: Redes neurais Artificiais, MLP,
Diversas configurações testadas.
2. Protótipo de Aplicação de voz no
iPhone/iPad (c): registro e armazenamento
da fala.
Campina Grande, 8 de Maio de 2012 14
16. Validação II: Contraexemplo
Frequência
Fundamental Média: Fo
Descritor não útil para a
Classificação Pretendida.
Uma Linha não separa
Normal / Patológica !
Para todas vozes, eixo X,
variação de Fo é a mesma
(entre 60 Hz e 350 Hz).
Normais Patológicas
Campina Grande, 8 de Maio de 2012 16 Sérgio Espinola – LAD/COPIN/CEEI/UFCG
17. Considerações Finais
Após a análise e confirmação recente (abril) dos
diagnósticos das Patologias por especialista médico,
a pesquisa segue em novo ritmo de decobertas e
resultados;
O Foco passou para a investigação
estatística/inferencial, análise multivariada dos
fatores (cerca de 20 descritores acústicos), técnicas
de PDSV e de Inteligência Artificial para a separação
das classes de patologias pretendidas, etc.
Sérgio Espinola – LAD / COPIN / UFCG
Campina Grande, 12 de dezembro de 2011 17 sergiodbe@lad.dsc.ufcg.edu.br
18. Validação em Curso:
Análise de Componentes Principais (PCA)
Objetivos:
Identificar as principais fontes de variação
de dados complexos (muitas variáveis);
Tornar as informações interpretáveis
(gráficos simples): Ex. Pareto.
Comp. {1-2} podem
explicar quase 65% da
variabilidade total
v
18
19. Trabalhos Futuros
Finalizar o Relatório com Síntese dos
Experimentos e Gráficos da PCA anterior;
Cruzar as Análises PCA;
Conhecer “bem” a influência estatística desses descritores acústicos
para classificação;
Leia-se matematicamente efetivo para as métricas de sucesso.
Revalidar com alguns desses melhores;
19
20. Obrigado!
“A voz revela, lá do
mais recôndito do
ser, nossa condição
primeira, nossa
autenticidade maior
e a sonora
expressão da nossa
verdade” Edmée Brandi
E
Mestrando: Sérgio de Brito Espinola
Ciência da Computação LAD/COPIN/UFCG
Contatos: sergiodbe@lad.dsc.ufcg.edu.br
http://twitter.com/sergiodbe
20 LAD/COPIN/CEEI/UFCG
Campina Grande, 8 de Maio de 2012
Notas do Editor
3 momentos! Indicar claramente qual relevância das partes para o todo! Interpretar principais elos!
Explicar bem o TECHNICAL PROBLEM. Ponto de vistas Do natureza do diagnóstico Do processo pelo paciente