Introdução Grupo FalaBrasil Conclusão
Construção de Aplicativos Usando PLN e
Recursos para Reconhecimento e Síntese de
Fal...
Introdução Grupo FalaBrasil Conclusão
Sumário
Introdução
Definição
Motivação
Aspectos do Reconhecimento automático de voz
F...
Introdução Grupo FalaBrasil Conclusão
Sumário
Introdução
Definição
Motivação
Aspectos do Reconhecimento automático de voz
F...
Introdução Grupo FalaBrasil Conclusão
Reconhecimento automático de voz (ASR) e síntese
de voz (TTS)
4 / 29
Introdução Grupo FalaBrasil Conclusão
Por que reconhecimento automático de voz?
• Automação
• Acessibilidade
• Mais de 9 m...
Introdução Grupo FalaBrasil Conclusão
Reconhecimento automático de voz
• Comando e controle vs Ditado, “Distributed versus...
Introdução Grupo FalaBrasil Conclusão
Ferramentas para o desenvolvimento de ASR
• HTK: treinamento e decodificação de HMM
•...
Introdução Grupo FalaBrasil Conclusão
Evolução do Reconhecimento Automático de Voz
8 / 29
Introdução Grupo FalaBrasil Conclusão
Sumário
Introdução
Definição
Motivação
Aspectos do Reconhecimento automático de voz
F...
Introdução Grupo FalaBrasil Conclusão
Recursos Disponibilizados
• Corpus de áudio livre com mais de 10 horas
• Scripts par...
Introdução Grupo FalaBrasil Conclusão
Modelos acústico e de linguagem: LaPSAM e
LaPSLM
Decodificador Modelos independentes ...
Introdução Grupo FalaBrasil Conclusão
Engine para reconhecimento de voz: Coruja
• Desenvolvimento de aplicativos com recon...
Introdução Grupo FalaBrasil Conclusão
Aplicações Desenvolvidos pelo Grupo FalaBrasil
• SpeechOO
• Simon em Português Brasi...
Introdução Grupo FalaBrasil Conclusão
SpeechOO: Ditado no LibreOffice
• Atualmente permite:
• Ditado
• Comandos para:
• Mud...
Introdução Grupo FalaBrasil Conclusão
Simon em Português Brasileiro
• Automação predial, voltada para teatros e auditórios...
Introdução Grupo FalaBrasil Conclusão
Solução para atendimento eletrônico em centrais
telefônicas
• Reconhecimento de voz ...
Introdução Grupo FalaBrasil Conclusão
FFTranscriber: Transcritor de Áudio Forense
17 / 29
Introdução Grupo FalaBrasil Conclusão
Coruja Navigator
• Navegação Web não visual e sem as mãos
• Funcionamento:
• Usuário...
Introdução Grupo FalaBrasil Conclusão
Coruja Navigator
19 / 29
Introdução Grupo FalaBrasil Conclusão
Speech-to-Speech Machine Translation
• Permite diálogo entre falantes nativos do PB ...
Introdução Grupo FalaBrasil Conclusão
Speech-to-Speech Machine Translation
21 / 29
Introdução Grupo FalaBrasil Conclusão
Rotas
• Definição de rota via transporte público dado um destino
falado
• Funcionamen...
Introdução Grupo FalaBrasil Conclusão
voiceconet
• Adaptação do modelo acústico do FalaBrasil a voz do
usuário
• Funcionam...
Introdução Grupo FalaBrasil Conclusão
mlf2textgrid
• Alinha áudio e texto e converte para TextGrid do Praat
24 / 29
Introdução Grupo FalaBrasil Conclusão
Aplicações Desenvolvidas por Terceiros Utilizando
Recursos do FalaBrasil
• Automação...
Introdução Grupo FalaBrasil Conclusão
Sumário
Introdução
Definição
Motivação
Aspectos do Reconhecimento automático de voz
F...
Introdução Grupo FalaBrasil Conclusão
Grupo de discussão
• Mais de 250 membros
• Mensagens acumuladas
27 / 29
Introdução Grupo FalaBrasil Conclusão
Conclusão
• Disponibilização de recursos tanto para PB como para
outras línguas
• To...
Introdução Grupo FalaBrasil Conclusão
Obrigado!
Contato: a.klautau@ieee.org
29 / 29
Próximos SlideShares
Carregando em…5
×

Construção de Aplicativos Usando PLN e Recursos para Reconhecimento e Síntese de Fala Disponibilizados pelo Projeto FalaBrasil

367 visualizações

Publicada em

Construção de Aplicativos Usando PLN e Recursos para Reconhecimento e Síntese de Fala Disponibilizados pelo Projeto FalaBrasil. Prof. Dr. Aldebaro Klautau

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
367
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Construção de Aplicativos Usando PLN e Recursos para Reconhecimento e Síntese de Fala Disponibilizados pelo Projeto FalaBrasil

  1. 1. Introdução Grupo FalaBrasil Conclusão Construção de Aplicativos Usando PLN e Recursos para Reconhecimento e Síntese de Fala Disponibilizados pelo Projeto FalaBrasil da UFPA Aldebaro Klautau Grupo FalaBrasil Laboratório de Processamento de Sinais (LaPS) Universidade Federal do Pará (UFPA) http://www.laps.ufpa.br/falabrasil XI Encontro de Linguística de Corpus (ELC), Set. 2012 1 / 29
  2. 2. Introdução Grupo FalaBrasil Conclusão Sumário Introdução Definição Motivação Aspectos do Reconhecimento automático de voz Ferramentas Grupo FalaBrasil Recursos Disponibilizados Aplicações Desenvolvidos pelo Grupo FalaBrasil Aplicações Desenvolvidas por Terceiros Utilizando Recursos do FalaBrasil Conclusão Interação com a comunidade Conclusão 2 / 29
  3. 3. Introdução Grupo FalaBrasil Conclusão Sumário Introdução Definição Motivação Aspectos do Reconhecimento automático de voz Ferramentas Grupo FalaBrasil Recursos Disponibilizados Aplicações Desenvolvidos pelo Grupo FalaBrasil Aplicações Desenvolvidas por Terceiros Utilizando Recursos do FalaBrasil Conclusão Interação com a comunidade Conclusão 3 / 29
  4. 4. Introdução Grupo FalaBrasil Conclusão Reconhecimento automático de voz (ASR) e síntese de voz (TTS) 4 / 29
  5. 5. Introdução Grupo FalaBrasil Conclusão Por que reconhecimento automático de voz? • Automação • Acessibilidade • Mais de 9 milhões de pessoas com dificuldades físicas, segundo o IBGE. 5 / 29
  6. 6. Introdução Grupo FalaBrasil Conclusão Reconhecimento automático de voz • Comando e controle vs Ditado, “Distributed versus desktop” • front end: extrai parâmetros do sinal de voz • Modelo de linguagem: probabilidade de uma dada sequência de palavras • Modelo acústico: probabilidade de um sinal de voz ser um determinado fone • Dicionário fonético: mapeamento entre palavras e fones • 6 / 29
  7. 7. Introdução Grupo FalaBrasil Conclusão Ferramentas para o desenvolvimento de ASR • HTK: treinamento e decodificação de HMM • SRILM: treinamento de modelos de linguagem • Decodificadores: • Julius • HDecode • Sphinx-4 • PocketSphinx • APIs para o desenvolvimento de aplicativos: • Microsoft Speech API • Java Speech API • Coruja: Reconhecimento Automático de Voz em Português Brasileiro 7 / 29
  8. 8. Introdução Grupo FalaBrasil Conclusão Evolução do Reconhecimento Automático de Voz 8 / 29
  9. 9. Introdução Grupo FalaBrasil Conclusão Sumário Introdução Definição Motivação Aspectos do Reconhecimento automático de voz Ferramentas Grupo FalaBrasil Recursos Disponibilizados Aplicações Desenvolvidos pelo Grupo FalaBrasil Aplicações Desenvolvidas por Terceiros Utilizando Recursos do FalaBrasil Conclusão Interação com a comunidade Conclusão 9 / 29
  10. 10. Introdução Grupo FalaBrasil Conclusão Recursos Disponibilizados • Corpus de áudio livre com mais de 10 horas • Scripts para treino e adaptação de modelos • Conversor grafema para fonema (G2P) • Modelos acústicos e de linguagem • Engine para reconhecimento: Coruja (decodificador Julius) 10 / 29
  11. 11. Introdução Grupo FalaBrasil Conclusão Modelos acústico e de linguagem: LaPSAM e LaPSLM Decodificador Modelos independentes Modelos dependentes CWR(%) xRT CWR(%) xRT Julius 60.42 0.7 77,7 0.7 HDecode 70.63 0.9 84,6 0.8 IBM ViaVoice 70.71 - 82.7 - • Testes utilizando o LaPSBenchmark • Para o teste com modelos adaptados foram utilizados 10 minutos de áudio para cada um dos dois locutores 11 / 29
  12. 12. Introdução Grupo FalaBrasil Conclusão Engine para reconhecimento de voz: Coruja • Desenvolvimento de aplicativos com reconhecimento de voz em Português Brasileiro • Suporte a linguagens .NET, C/C++ e Java • Implementa parte da JSAPI JLaPSAPI LaPSAPI JSAPI Decodificador Julius API Decodificador Engine JSAPI Aplicação Java 12 / 29
  13. 13. Introdução Grupo FalaBrasil Conclusão Aplicações Desenvolvidos pelo Grupo FalaBrasil • SpeechOO • Simon em Português Brasileiro • Solução para atendimento eletrônico em centrais telefônicas • FFTranscriber • Coruja Navigator • Rotas • voiceconet • Dicionário fonético • 65 mil palavras transcritas utilizando 38 fones • mlf2textgrid 13 / 29
  14. 14. Introdução Grupo FalaBrasil Conclusão SpeechOO: Ditado no LibreOffice • Atualmente permite: • Ditado • Comandos para: • Mudar formato e tamanho de fontes • Mudar cor • Mudar formatação (negrito, etc) • Seleção de texto • Salvar arquivo • Dentre outros 14 / 29
  15. 15. Introdução Grupo FalaBrasil Conclusão Simon em Português Brasileiro • Automação predial, voltada para teatros e auditórios • Controle do computador por Voz • Atualmente com cenários para controle: • do sistema operacional • do mouse • do teclado • do navegador Firefox 15 / 29
  16. 16. Introdução Grupo FalaBrasil Conclusão Solução para atendimento eletrônico em centrais telefônicas • Reconhecimento de voz para atendimento telefônico • Integração com o software Asterisk 16 / 29
  17. 17. Introdução Grupo FalaBrasil Conclusão FFTranscriber: Transcritor de Áudio Forense 17 / 29
  18. 18. Introdução Grupo FalaBrasil Conclusão Coruja Navigator • Navegação Web não visual e sem as mãos • Funcionamento: • Usuário fala um site • Software entra no site e então o lê para o usuário destacando os links • Usuário pode falar um link para ser acessado • Atualmente funciona para o site de notícias Folha de São Paulo 18 / 29
  19. 19. Introdução Grupo FalaBrasil Conclusão Coruja Navigator 19 / 29
  20. 20. Introdução Grupo FalaBrasil Conclusão Speech-to-Speech Machine Translation • Permite diálogo entre falantes nativos do PB e do Inglês • Funcionamento: • Usuário dita uma frase em PB • O sistema reconhece e traduz a fala para o Inglês • O texto gerado é então passado como entrada para um TTS em Inglês • O processo inverso acontece de forma similar • A versão atual possui limitações, mas é operacional 20 / 29
  21. 21. Introdução Grupo FalaBrasil Conclusão Speech-to-Speech Machine Translation 21 / 29
  22. 22. Introdução Grupo FalaBrasil Conclusão Rotas • Definição de rota via transporte público dado um destino falado • Funcionamento • Usuário fala um destino • Uma rota é traçada a partir de sua localização atual • Atualmente funciona para a cidade de Belém do Pará 22 / 29
  23. 23. Introdução Grupo FalaBrasil Conclusão voiceconet • Adaptação do modelo acústico do FalaBrasil a voz do usuário • Funcionamento • Usuário acessa a página www.laps.ufpa.br/falabrasil/voiceconet.html • Grava pelo menos 3 minutos de áudio • Adapta o modelo a sua voz • O modelo adaptado é disponibilizado para download pronto para funcionar com o decodificador Julius 23 / 29
  24. 24. Introdução Grupo FalaBrasil Conclusão mlf2textgrid • Alinha áudio e texto e converte para TextGrid do Praat 24 / 29
  25. 25. Introdução Grupo FalaBrasil Conclusão Aplicações Desenvolvidas por Terceiros Utilizando Recursos do FalaBrasil • Automação residencial (agente doméstico) • Leitura de RSS controlada por voz, para utilizar ao dirigir • Web service para reconhecimento de voz • Controle de avatar por voz • Indexação de vídeos e audios • Transcrição de entrevistas • Controle de robôs • Assistente de direção • Contabilização de jogos de basquete • Contabilização de corrida de Kart • Controle de Thunderbird e Outlook 25 / 29
  26. 26. Introdução Grupo FalaBrasil Conclusão Sumário Introdução Definição Motivação Aspectos do Reconhecimento automático de voz Ferramentas Grupo FalaBrasil Recursos Disponibilizados Aplicações Desenvolvidos pelo Grupo FalaBrasil Aplicações Desenvolvidas por Terceiros Utilizando Recursos do FalaBrasil Conclusão Interação com a comunidade Conclusão 26 / 29
  27. 27. Introdução Grupo FalaBrasil Conclusão Grupo de discussão • Mais de 250 membros • Mensagens acumuladas 27 / 29
  28. 28. Introdução Grupo FalaBrasil Conclusão Conclusão • Disponibilização de recursos tanto para PB como para outras línguas • Todos recursos e produtos disponibilizados gratuitamente na página do Grupo FalaBrasil http://www.laps.ufpa.br/falabrasil • Sentimento: observar uso comercial do que se repassou gratuitamente • Qual será o impacto do software livre em NLP? • Pesquisa em modelos de linguagem discriminativos 28 / 29
  29. 29. Introdução Grupo FalaBrasil Conclusão Obrigado! Contato: a.klautau@ieee.org 29 / 29

×