BROWSERVOX
            UMA EXTENSÃO DE INTERFACE DE VOZ
             PARA UM NAVEGADOR OPEN-SOURCE
            Elizabete Munzlinger; Fabricio da S. Soares; Carlos H. Q. Forster
                          elizabete@elizabete.com.br; fabricio@fabricio.net.br; forster@ita.br

 BrowserVox é uma extensão multimodal
 para o navegador      Mozilla Firefox
                                                                                                                Instituto Tecnológico de Aeronáutica
                                                                                                                    Divisão de Ciência da Computação



                Navegue através de comandos de
                voz para o texto dos links no idioma                                                            Ingredientes
                Português-Brasileiro.
                                                                                                     - Linguagem de Programação Java.
                Use as etiquetas numéricas para                                                 - Dynamic HTML (HTML +JavaScript +
                navegar por links com imagens,                                                                            DOM + CSS).
                textos    com     símbolos,      siglas,                                         - Sistema IBM Via Voice PT-BR (ASR
                abreviaturas e termos estrangeiros,                                                                            e TTS).
                e claro, em sites de outros idiomas.                                            - API IBM Java Speech Technology
                                                                                                                              (JSAPI).
                                                                                               - Gramáticas auxiliares (JSGF e JSML).

 “Chega aí!”                                                                                                               Preparo
  Pode ser utilizado
                                                                                                Interface de etiquetas numéricas
  por qualquer
                                                                                          programada em DHTML. O programa
  usuário sem a                                                                             varre o arquivo hipertexto em busca
  necessidade de                                                                        de links. Para cada link é acrescentada
  treinamento prévio                                                                                  uma etiqueta numérica pela
  para que o sistema                                                                                       manipulação do DOM.
  reconheça seus                                                                        Interface de fala desenvolvida em Java.
  comandos de voz.                       Interface multiusuário
                                                                                    O programa acessa o engine de ASR e TTS
                                                                                           do Via Voice via componente JSAPI
  “Como se falasse com                                                               consultando as gramáticas JSGF e JSML,
                                                                                    que são geradas dinamicamente, para cada
                          um dos seus...”                                                                         página visitada.
  AMIGOS: “Mostra o link 10 aí mano!”
  FAMILIARES: “Você pode ir para o link esporte?”
                                                                                       Extension [JavaScript]

  AMORES: “Querido BrowserVox, pode por favor me

  mostrar a notícia Saulo briga com Estela”
  SUPERIORES: “Por obséquio me apresente o

  conteúdo economia e negócios!”
  COLEGAS APRESSADOS: “29!”


  Variação nos comandos:                                                                                Arquitetura do projeto de interface multimodal
  Característica única
                                                                  O sistema é acionado por meio de um botão na barra de ferramentas do
  conseguida pelo projeto
                                                                   navegador. As etiquetas surgem deslizantes na página e a interface de
  de gramáticas                                                                  fala é ativada alocando os recursos de som da máquina.
  auxiliares.                                                                                O usuário pode ditar os comandos ou utilizar
                                                                                                  mouse e teclado da forma convencional.




WebMedia 2010                                                                                            TODO MUNDO QUER FALAR !

BrowserVox: Uma Extensão de Interface de Voz para um Navegador Open-Source

  • 1.
    BROWSERVOX UMA EXTENSÃO DE INTERFACE DE VOZ PARA UM NAVEGADOR OPEN-SOURCE Elizabete Munzlinger; Fabricio da S. Soares; Carlos H. Q. Forster elizabete@elizabete.com.br; fabricio@fabricio.net.br; forster@ita.br BrowserVox é uma extensão multimodal para o navegador Mozilla Firefox Instituto Tecnológico de Aeronáutica Divisão de Ciência da Computação Navegue através de comandos de voz para o texto dos links no idioma Ingredientes Português-Brasileiro. - Linguagem de Programação Java. Use as etiquetas numéricas para - Dynamic HTML (HTML +JavaScript + navegar por links com imagens, DOM + CSS). textos com símbolos, siglas, - Sistema IBM Via Voice PT-BR (ASR abreviaturas e termos estrangeiros, e TTS). e claro, em sites de outros idiomas. - API IBM Java Speech Technology (JSAPI). - Gramáticas auxiliares (JSGF e JSML). “Chega aí!” Preparo Pode ser utilizado Interface de etiquetas numéricas por qualquer programada em DHTML. O programa usuário sem a varre o arquivo hipertexto em busca necessidade de de links. Para cada link é acrescentada treinamento prévio uma etiqueta numérica pela para que o sistema manipulação do DOM. reconheça seus Interface de fala desenvolvida em Java. comandos de voz. Interface multiusuário O programa acessa o engine de ASR e TTS do Via Voice via componente JSAPI “Como se falasse com consultando as gramáticas JSGF e JSML, que são geradas dinamicamente, para cada um dos seus...” página visitada. AMIGOS: “Mostra o link 10 aí mano!” FAMILIARES: “Você pode ir para o link esporte?” Extension [JavaScript] AMORES: “Querido BrowserVox, pode por favor me mostrar a notícia Saulo briga com Estela” SUPERIORES: “Por obséquio me apresente o conteúdo economia e negócios!” COLEGAS APRESSADOS: “29!” Variação nos comandos: Arquitetura do projeto de interface multimodal Característica única O sistema é acionado por meio de um botão na barra de ferramentas do conseguida pelo projeto navegador. As etiquetas surgem deslizantes na página e a interface de de gramáticas fala é ativada alocando os recursos de som da máquina. auxiliares. O usuário pode ditar os comandos ou utilizar mouse e teclado da forma convencional. WebMedia 2010 TODO MUNDO QUER FALAR !