BrowserVox: Uma Extensão de Interface de Voz para um Navegador Open-Source
1. BROWSERVOX
UMA EXTENSÃO DE INTERFACE DE VOZ
PARA UM NAVEGADOR OPEN-SOURCE
Elizabete Munzlinger; Fabricio da S. Soares; Carlos H. Q. Forster
elizabete@elizabete.com.br; fabricio@fabricio.net.br; forster@ita.br
BrowserVox é uma extensão multimodal
para o navegador Mozilla Firefox
Instituto Tecnológico de Aeronáutica
Divisão de Ciência da Computação
Navegue através de comandos de
voz para o texto dos links no idioma Ingredientes
Português-Brasileiro.
- Linguagem de Programação Java.
Use as etiquetas numéricas para - Dynamic HTML (HTML +JavaScript +
navegar por links com imagens, DOM + CSS).
textos com símbolos, siglas, - Sistema IBM Via Voice PT-BR (ASR
abreviaturas e termos estrangeiros, e TTS).
e claro, em sites de outros idiomas. - API IBM Java Speech Technology
(JSAPI).
- Gramáticas auxiliares (JSGF e JSML).
“Chega aí!” Preparo
Pode ser utilizado
Interface de etiquetas numéricas
por qualquer
programada em DHTML. O programa
usuário sem a varre o arquivo hipertexto em busca
necessidade de de links. Para cada link é acrescentada
treinamento prévio uma etiqueta numérica pela
para que o sistema manipulação do DOM.
reconheça seus Interface de fala desenvolvida em Java.
comandos de voz. Interface multiusuário
O programa acessa o engine de ASR e TTS
do Via Voice via componente JSAPI
“Como se falasse com consultando as gramáticas JSGF e JSML,
que são geradas dinamicamente, para cada
um dos seus...” página visitada.
AMIGOS: “Mostra o link 10 aí mano!”
FAMILIARES: “Você pode ir para o link esporte?”
Extension [JavaScript]
AMORES: “Querido BrowserVox, pode por favor me
mostrar a notícia Saulo briga com Estela”
SUPERIORES: “Por obséquio me apresente o
conteúdo economia e negócios!”
COLEGAS APRESSADOS: “29!”
Variação nos comandos: Arquitetura do projeto de interface multimodal
Característica única
O sistema é acionado por meio de um botão na barra de ferramentas do
conseguida pelo projeto
navegador. As etiquetas surgem deslizantes na página e a interface de
de gramáticas fala é ativada alocando os recursos de som da máquina.
auxiliares. O usuário pode ditar os comandos ou utilizar
mouse e teclado da forma convencional.
WebMedia 2010 TODO MUNDO QUER FALAR !