Este documento discute a implementação de serviços de voz em ambientes virtuais usando Java 3D e Java Speech. Ele apresenta os conceitos de reconhecimento e síntese de voz e descreve como foi implementado um ambiente virtual que usa movimento de avatares e reconhecimento de voz para comandos.
Modalidades Síncronas de Comunicação e Elementos de Percepção em Ambientes de...TelEduc
1. O documento descreve o redesenho de duas ferramentas do ambiente TelEduc para apoiar a comunicação síncrona: o Bate-papo e uma nova ferramenta chamada Direto Online.
2. Novos modelos para o Bate-papo foram desenvolvidos usando agentes, como Seminário, Assembléia e Painel, inspirados em formatos de discussão presencial.
3. A ferramenta Direto Online, além de permitir conversas síncronas, fornece elementos de percepção para que os usuários sa
Este documento fornece um resumo de uma aula de noções de informática ministrada em 24 de novembro de 2012 pelo professor Lucio Flávio. A aula cobriu tópicos como sistemas operacionais Windows, softwares Microsoft Office, conceitos de hardware e software, segurança da informação e backup. O documento também inclui uma série de questões sobre esses tópicos.
Conhecendo o ubuntu enterprise cloud - UECFabiano Weimar
Este documento fornece uma introdução ao Ubuntu Enterprise Cloud (UEC), explicando seus principais conceitos e componentes, além de instruções básicas para instalação. O UEC permite criar nuvens privadas e públicas baseadas no Eucalyptus, com API similar ao Amazon EC2. Sua arquitetura inclui controladores para cloud, armazenamento, clusters e nós, onde as máquinas virtuais rodam.
Dicas e truques de otimização de websites pythonFabiano Weimar
This document discusses optimizations that can be made to Python websites to improve performance. It begins by showing benchmark tests of the default Zope and Plone installations, which are slow. Installing Squid as a caching proxy improves performance slightly. Further optimizations like adding the CacheFu caching application and configuring caching rules reduces response times dramatically under load testing. The document concludes with tips like profiling HTTP headers, using browser caching, and developer tools to optimize Python websites.
El documento presenta los beneficios de implementar una estrategia de soporte de múltiples niveles para los clientes, lo que puede limitar el aumento de los costos de servicio en un 60% asociados al personal, aumentar el número de contactos y conservar la lealtad del cliente. También introduce el asistente virtual e-Helper y sus servicios de asistencia virtual, marketing en redes sociales, identidad corporativa digital y sitios web para pymes.
The document contains information about Walt Disney, Disney characters, Mickey Mouse, and animals in Disney films. It includes facts like Walt Disney's birthdate, the names of his wife and some of his characters. It asks questions about characters' names, birthdays, and traits. There are also short quotes from Disney films.
Modalidades Síncronas de Comunicação e Elementos de Percepção em Ambientes de...TelEduc
1. O documento descreve o redesenho de duas ferramentas do ambiente TelEduc para apoiar a comunicação síncrona: o Bate-papo e uma nova ferramenta chamada Direto Online.
2. Novos modelos para o Bate-papo foram desenvolvidos usando agentes, como Seminário, Assembléia e Painel, inspirados em formatos de discussão presencial.
3. A ferramenta Direto Online, além de permitir conversas síncronas, fornece elementos de percepção para que os usuários sa
Este documento fornece um resumo de uma aula de noções de informática ministrada em 24 de novembro de 2012 pelo professor Lucio Flávio. A aula cobriu tópicos como sistemas operacionais Windows, softwares Microsoft Office, conceitos de hardware e software, segurança da informação e backup. O documento também inclui uma série de questões sobre esses tópicos.
Conhecendo o ubuntu enterprise cloud - UECFabiano Weimar
Este documento fornece uma introdução ao Ubuntu Enterprise Cloud (UEC), explicando seus principais conceitos e componentes, além de instruções básicas para instalação. O UEC permite criar nuvens privadas e públicas baseadas no Eucalyptus, com API similar ao Amazon EC2. Sua arquitetura inclui controladores para cloud, armazenamento, clusters e nós, onde as máquinas virtuais rodam.
Dicas e truques de otimização de websites pythonFabiano Weimar
This document discusses optimizations that can be made to Python websites to improve performance. It begins by showing benchmark tests of the default Zope and Plone installations, which are slow. Installing Squid as a caching proxy improves performance slightly. Further optimizations like adding the CacheFu caching application and configuring caching rules reduces response times dramatically under load testing. The document concludes with tips like profiling HTTP headers, using browser caching, and developer tools to optimize Python websites.
El documento presenta los beneficios de implementar una estrategia de soporte de múltiples niveles para los clientes, lo que puede limitar el aumento de los costos de servicio en un 60% asociados al personal, aumentar el número de contactos y conservar la lealtad del cliente. También introduce el asistente virtual e-Helper y sus servicios de asistencia virtual, marketing en redes sociales, identidad corporativa digital y sitios web para pymes.
The document contains information about Walt Disney, Disney characters, Mickey Mouse, and animals in Disney films. It includes facts like Walt Disney's birthdate, the names of his wife and some of his characters. It asks questions about characters' names, birthdays, and traits. There are also short quotes from Disney films.
Uso de agentes de interface para adequação de bate-papos ao contexto de educa...TelEduc
In: Anais do V WORKSHOP DE INTERFACE HUMANO-COMPUTADOR, 7 a 10 de outubro de 2001, Fortaleza - CE. Em português , 13 páginas.
Autores: Heloisa Vieira da Rocha, Janne Yukiko Yoshikawa Oeiras, José Claudio Vahl Júnior
Este documento descreve um estudo sobre ferramentas de conversão de áudio para texto e sua aplicação na documentação de requisitos durante o desenvolvimento de software. O documento discute processos de desenvolvimento de software, reconhecimento de voz, softwares de conversão e os resultados dos testes com duas ferramentas: o WavetoText teve taxa de conversão correta de 35% das palavras, enquanto o IBM ViaVoice teve taxa de 131 palavras corretas de 150.
O documento discute os principais conceitos da programação orientada a objetos, incluindo classes, objetos, herança, polimorfismo e encapsulamento. Também aborda tópicos como desenvolvimento de software, linguagens de programação e aplicações da programação orientada a objetos.
O documento apresenta o projeto de conclusão de curso de quatro alunos da Escola Técnica Dr. Geraldo José Rodrigues Alckmin para desenvolver um sistema computacional para informatizar a Escola Municipal de Ciências Aeronáuticas (EMCA) de Taubaté, que não possui nenhum sistema informatizado. O sistema foi desenvolvido utilizando Delphi 7 e VB.NET com banco de dados Firebird 1.5 para automatizar o cadastro de alunos, notas, frequências e outros processos da escola.
1) O documento discute a importância da acessibilidade, usabilidade e comunicabilidade em portais e sistemas educacionais para permitir que todos os usuários, inclusive aqueles com deficiências, possam acessar as informações.
2) Apresenta tecnologias assistivas como leitores de tela e teclados adaptados que auxiliam pessoas com deficiências visuais ou motoras a usar computadores e a internet.
3) Discutem padrões web como CSS que separam estrutura e apresentação, tornando sites acessíveis conforme diretrizes do W
1) O documento discute a importância da acessibilidade, usabilidade e comunicabilidade em portais e sistemas educacionais para permitir que todos os usuários, inclusive aqueles com deficiências, possam acessar as informações.
2) Apresenta tecnologias assistivas como leitores de tela e teclados adaptados que auxiliam pessoas com deficiências visuais ou motoras a utilizarem computadores e a internet.
3) Discutem padrões web como CSS que separam estrutura e apresentação, tornando sites acessíveis conforme diretrizes
1) O documento descreve o projeto PaeLife, um assistente pessoal para idosos desenvolvido por uma parceria européia.
2) O assistente, chamado AALFred, está sendo desenvolvido para permitir uma interação fácil e natural entre idosos e tecnologia.
3) Vários testes com usuários idosos estão sendo realizados para melhorar a usabilidade e funcionalidade do AALFred.
Apresentacao portfolio-luqs-2012-quixada.pptxUNIFOR E UECE
O documento resume projetos realizados no Laboratório de Estudos sobre Usuários e da Qualidade de Uso de um Software (LUQS) focados em Interface Humano-Computador. Os principais projetos incluem o desenvolvimento de aplicações para TV digital com foco em usabilidade, um projeto comunitário de conteúdo interativo para TV digital e um projeto analisando a influência de apresentadores de TV na interação dos usuários com aplicações de TV digital. As técnicas aplicadas incluem testes de usabilidade, personas, cenários e teatro para validar requisitos
Este documento descreve um projeto de interface computacional alternativa chamado OpenFaceMote. O projeto visa melhorar a acessibilidade para pessoas com deficiência nos membros superiores através do reconhecimento facial e de voz. O sistema possui diferentes modos de controle do mouse e teclado usando detecção facial, de voz e gestos. O documento descreve o estado da arte, bibliotecas, métodos, implementação e limitações do projeto.
O documento discute editores de texto, como eram escritos textos antigamente e as facilidades trazidas pelos editores de texto modernos. Também aborda suítes de aplicativos, funções tradicionais como processamento de texto e planilhas, melhorias como praticidade e conforto, além de apresentar exemplos de editores de texto online e ferramentas de edição colaborativa.
O documento discute editores de texto, como eram escritos textos antigamente e as facilidades trazidas pelos editores de texto. Também aborda suítes de aplicativos, funções tradicionais como processamento de texto e planilhas, melhorias, editores de texto online, edição colaborativa e possibilidades futuras como editores com reconhecimento de fala e pensamento.
Desenvolvimento e Avaliação de um Sistema Multimodal e Multiusuário de Navega...Elizabete Munzlinger
Este documento descreve o desenvolvimento e avaliação de um sistema multimodal e multiusuário de navegação na web chamado BrowserVox. O sistema possui interfaces de voz e gráfica que permitem a interação por meio da fala ou do mouse de forma independente para cada usuário. O documento apresenta as tecnologias de reconhecimento e síntese de voz utilizadas e descreve a gramática projetada para o sistema. Por fim, é realizada uma avaliação da usabilidade da interface com base em testes de desempenho e satisfação dos usuários.
O documento descreve a evolução histórica das linguagens de programação, desde as primeiras linguagens em código de máquina até as linguagens orientadas a objetos modernas. Resume três pontos principais: 1) As primeiras linguagens de alto nível como FORTRAN deram um passo importante, mas não introduziram mudanças significativas no estilo de programação; 2) Linguagens estruturadas como C e Pascal permitiram escrever programas moderadamente complexos de maneira mais fácil, mas apresentavam limitações à medida que os projetos cresciam; 3
Linguagens Dinamicas vs Tradicionais / Potencialidades e riscos de EAI/ESB, S...Stanley Araújo
O documento discute as potencialidades e riscos de plataformas como EAI/ESB, SOA e BPMS para o desenvolvimento de aplicações corporativas complexas, e também analisa como a Open Platform pode beneficiar sistemas médicos e a saúde por meio da Internet das Coisas, plataformas móveis e computação em nuvem.
Ambientes Colaborativos de Realidade Virtual e Aumentada 2007elliando dias
O documento discute ambientes colaborativos de realidade virtual (RV) e aumentada (RA) sob a ótica da colaboração. Apresenta como essas tecnologias agregam valor aos ambientes colaborativos e como eles apoiam a comunicação, coordenação e cooperação segundo o modelo 3C da colaboração. Também discute tendências futuras como a realidade aumentada ubíqua e aplicações sensíveis à localização.
As ferramentas, os percursos e as estratégias de tradução no universo digital...Diogoncosta
O documento discute o uso de ferramentas digitais no processo de tradução. Apresenta pesquisas anteriores sobre como tradutores usam computadores e a internet durante a tradução. No entanto, poucas pesquisas analisaram especificamente como os tradutores usam a web para resolver problemas de tradução. O documento também descreve o método da pesquisa proposta, que utilizará questionários e gravações para analisar como tradutores iniciantes, estagiários e profissionais usam ferramentas online para resolver problemas linguísticos, discursivos
Este documento descreve o desenvolvimento de um sistema colaborativo chamado AC-Med para segunda opinião médica remota utilizando imagens. O sistema foi desenvolvido em Java e permite que médicos em diferentes locais visualizem imagens médicas simultaneamente, conversem via chat e vídeo, e anotem digitalmente sobre as imagens. O documento discute a arquitetura do sistema, módulos implementados e artigos publicados sobre o trabalho.
O documento descreve as atividades de pesquisa do Laboratório de Estudos sobre Usuários e da Qualidade de Uso de um Software (LUQS) relacionadas à interatividade na TV digital. O LUQS realizou projetos desde 2005 focados em usabilidade, incluindo o desenvolvimento de aplicações, testes com usuários e capacitação. Os projetos receberam financiamento de diversas agências e contribuíram para a formação de recursos humanos na área por meio de publicações, cursos e eventos.
O documento apresenta uma dissertação de mestrado sobre sistemas interativos de tempo real para processamento audiovisual integrado. A dissertação inclui um estudo analítico das tecnologias existentes, identificando desafios de arquitetura e interface humano-máquina. O trabalho também apresenta o sistema ViMus, que introduz o conceito de "interface gráfica de caixa aberta" para amenizar o compromisso entre usabilidade e expressividade nos sistemas de processamento audiovisual.
Uso de agentes de interface para adequação de bate-papos ao contexto de educa...TelEduc
In: Anais do V WORKSHOP DE INTERFACE HUMANO-COMPUTADOR, 7 a 10 de outubro de 2001, Fortaleza - CE. Em português , 13 páginas.
Autores: Heloisa Vieira da Rocha, Janne Yukiko Yoshikawa Oeiras, José Claudio Vahl Júnior
Este documento descreve um estudo sobre ferramentas de conversão de áudio para texto e sua aplicação na documentação de requisitos durante o desenvolvimento de software. O documento discute processos de desenvolvimento de software, reconhecimento de voz, softwares de conversão e os resultados dos testes com duas ferramentas: o WavetoText teve taxa de conversão correta de 35% das palavras, enquanto o IBM ViaVoice teve taxa de 131 palavras corretas de 150.
O documento discute os principais conceitos da programação orientada a objetos, incluindo classes, objetos, herança, polimorfismo e encapsulamento. Também aborda tópicos como desenvolvimento de software, linguagens de programação e aplicações da programação orientada a objetos.
O documento apresenta o projeto de conclusão de curso de quatro alunos da Escola Técnica Dr. Geraldo José Rodrigues Alckmin para desenvolver um sistema computacional para informatizar a Escola Municipal de Ciências Aeronáuticas (EMCA) de Taubaté, que não possui nenhum sistema informatizado. O sistema foi desenvolvido utilizando Delphi 7 e VB.NET com banco de dados Firebird 1.5 para automatizar o cadastro de alunos, notas, frequências e outros processos da escola.
1) O documento discute a importância da acessibilidade, usabilidade e comunicabilidade em portais e sistemas educacionais para permitir que todos os usuários, inclusive aqueles com deficiências, possam acessar as informações.
2) Apresenta tecnologias assistivas como leitores de tela e teclados adaptados que auxiliam pessoas com deficiências visuais ou motoras a usar computadores e a internet.
3) Discutem padrões web como CSS que separam estrutura e apresentação, tornando sites acessíveis conforme diretrizes do W
1) O documento discute a importância da acessibilidade, usabilidade e comunicabilidade em portais e sistemas educacionais para permitir que todos os usuários, inclusive aqueles com deficiências, possam acessar as informações.
2) Apresenta tecnologias assistivas como leitores de tela e teclados adaptados que auxiliam pessoas com deficiências visuais ou motoras a utilizarem computadores e a internet.
3) Discutem padrões web como CSS que separam estrutura e apresentação, tornando sites acessíveis conforme diretrizes
1) O documento descreve o projeto PaeLife, um assistente pessoal para idosos desenvolvido por uma parceria européia.
2) O assistente, chamado AALFred, está sendo desenvolvido para permitir uma interação fácil e natural entre idosos e tecnologia.
3) Vários testes com usuários idosos estão sendo realizados para melhorar a usabilidade e funcionalidade do AALFred.
Apresentacao portfolio-luqs-2012-quixada.pptxUNIFOR E UECE
O documento resume projetos realizados no Laboratório de Estudos sobre Usuários e da Qualidade de Uso de um Software (LUQS) focados em Interface Humano-Computador. Os principais projetos incluem o desenvolvimento de aplicações para TV digital com foco em usabilidade, um projeto comunitário de conteúdo interativo para TV digital e um projeto analisando a influência de apresentadores de TV na interação dos usuários com aplicações de TV digital. As técnicas aplicadas incluem testes de usabilidade, personas, cenários e teatro para validar requisitos
Este documento descreve um projeto de interface computacional alternativa chamado OpenFaceMote. O projeto visa melhorar a acessibilidade para pessoas com deficiência nos membros superiores através do reconhecimento facial e de voz. O sistema possui diferentes modos de controle do mouse e teclado usando detecção facial, de voz e gestos. O documento descreve o estado da arte, bibliotecas, métodos, implementação e limitações do projeto.
O documento discute editores de texto, como eram escritos textos antigamente e as facilidades trazidas pelos editores de texto modernos. Também aborda suítes de aplicativos, funções tradicionais como processamento de texto e planilhas, melhorias como praticidade e conforto, além de apresentar exemplos de editores de texto online e ferramentas de edição colaborativa.
O documento discute editores de texto, como eram escritos textos antigamente e as facilidades trazidas pelos editores de texto. Também aborda suítes de aplicativos, funções tradicionais como processamento de texto e planilhas, melhorias, editores de texto online, edição colaborativa e possibilidades futuras como editores com reconhecimento de fala e pensamento.
Desenvolvimento e Avaliação de um Sistema Multimodal e Multiusuário de Navega...Elizabete Munzlinger
Este documento descreve o desenvolvimento e avaliação de um sistema multimodal e multiusuário de navegação na web chamado BrowserVox. O sistema possui interfaces de voz e gráfica que permitem a interação por meio da fala ou do mouse de forma independente para cada usuário. O documento apresenta as tecnologias de reconhecimento e síntese de voz utilizadas e descreve a gramática projetada para o sistema. Por fim, é realizada uma avaliação da usabilidade da interface com base em testes de desempenho e satisfação dos usuários.
O documento descreve a evolução histórica das linguagens de programação, desde as primeiras linguagens em código de máquina até as linguagens orientadas a objetos modernas. Resume três pontos principais: 1) As primeiras linguagens de alto nível como FORTRAN deram um passo importante, mas não introduziram mudanças significativas no estilo de programação; 2) Linguagens estruturadas como C e Pascal permitiram escrever programas moderadamente complexos de maneira mais fácil, mas apresentavam limitações à medida que os projetos cresciam; 3
Linguagens Dinamicas vs Tradicionais / Potencialidades e riscos de EAI/ESB, S...Stanley Araújo
O documento discute as potencialidades e riscos de plataformas como EAI/ESB, SOA e BPMS para o desenvolvimento de aplicações corporativas complexas, e também analisa como a Open Platform pode beneficiar sistemas médicos e a saúde por meio da Internet das Coisas, plataformas móveis e computação em nuvem.
Ambientes Colaborativos de Realidade Virtual e Aumentada 2007elliando dias
O documento discute ambientes colaborativos de realidade virtual (RV) e aumentada (RA) sob a ótica da colaboração. Apresenta como essas tecnologias agregam valor aos ambientes colaborativos e como eles apoiam a comunicação, coordenação e cooperação segundo o modelo 3C da colaboração. Também discute tendências futuras como a realidade aumentada ubíqua e aplicações sensíveis à localização.
As ferramentas, os percursos e as estratégias de tradução no universo digital...Diogoncosta
O documento discute o uso de ferramentas digitais no processo de tradução. Apresenta pesquisas anteriores sobre como tradutores usam computadores e a internet durante a tradução. No entanto, poucas pesquisas analisaram especificamente como os tradutores usam a web para resolver problemas de tradução. O documento também descreve o método da pesquisa proposta, que utilizará questionários e gravações para analisar como tradutores iniciantes, estagiários e profissionais usam ferramentas online para resolver problemas linguísticos, discursivos
Este documento descreve o desenvolvimento de um sistema colaborativo chamado AC-Med para segunda opinião médica remota utilizando imagens. O sistema foi desenvolvido em Java e permite que médicos em diferentes locais visualizem imagens médicas simultaneamente, conversem via chat e vídeo, e anotem digitalmente sobre as imagens. O documento discute a arquitetura do sistema, módulos implementados e artigos publicados sobre o trabalho.
O documento descreve as atividades de pesquisa do Laboratório de Estudos sobre Usuários e da Qualidade de Uso de um Software (LUQS) relacionadas à interatividade na TV digital. O LUQS realizou projetos desde 2005 focados em usabilidade, incluindo o desenvolvimento de aplicações, testes com usuários e capacitação. Os projetos receberam financiamento de diversas agências e contribuíram para a formação de recursos humanos na área por meio de publicações, cursos e eventos.
O documento apresenta uma dissertação de mestrado sobre sistemas interativos de tempo real para processamento audiovisual integrado. A dissertação inclui um estudo analítico das tecnologias existentes, identificando desafios de arquitetura e interface humano-máquina. O trabalho também apresenta o sistema ViMus, que introduz o conceito de "interface gráfica de caixa aberta" para amenizar o compromisso entre usabilidade e expressividade nos sistemas de processamento audiovisual.
Semelhante a Implementação de Serviços de Voz em Ambientes Virtuais (20)
Slides Lição 11, Central Gospel, Os Mortos Em CRISTO, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, Central Gospel, Os Mortos Em Cristo, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
Slides Lição 11, CPAD, A Realidade Bíblica do Inferno, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, CPAD, A Realidade Bíblica do Inferno, 2Tr24, Pr Henrique, EBD NA TV, Lições Bíblicas, 2º Trimestre de 2024, adultos, Tema, A CARREIRA QUE NOS ESTÁ PROPOSTA, O CAMINHO DA SALVAÇÃO, SANTIDADE E PERSEVERANÇA PARA CHEGAR AO CÉU, Coment Osiel Gomes, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, de Almeida Silva, tel-What, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique, https://ebdnatv.blogspot.com/
Educação trabalho HQ em sala de aula uma excelente ideia
Implementação de Serviços de Voz em Ambientes Virtuais
1. Implementação de Serviços de Voz em Ambientes Virtuais
Eduardo Filgueiras Damasceno 1,2, José Remo Ferreira Brega2, Antônio Carlos
Sementille 2, Ildeberto Aparecido Rodello2, Fátima de Lourdes dos Santos Nunes2
1
UNIDERP – Universidade para o Desenvolvimento do Estado e Região do Pantanal –Av.
Pres. Vargas, n.°1775, Vila. Progresso - Dourados - MS – Brasil – www.uniderp.br
2
Programa de Pós-Graduação em Ciência da Computação - PPG-CC- Centro Universitário
Eurípides de Marília - UNIVEM - Av. Hygino Muzzi Filho, 529 Caixa Postal 2.041 - CEP
17.525-901 - Marília - SP – Brasil – www.ppgcc.fundanet.br
edamasceno@mail.uniderp.br,{remo,semente, rodello, fatima}@fundanet.br
Abstract. This paper tries to demonstrate to the use one technique of
implementation of a virtual environment using voice service in java with the
libraries of Java programming 3D and Java Speech.
Resumo. Este artigo tenta demonstrar a utilização uma técnica de
implementação de um ambiente virtual utilizando serviços de voz com as
bibliotecas de programação Java 3D e Java Speech.
Keywords: Realidade Virtual, Reconhecimento de Voz, JAVA3D, Java Speech.
1. Introdução
Uma das maiores vantagens da tecnologia de Realidade Virtual (RV) é a visualização de
informações complexas de forma simples para facilitar a compreensão para o usuário.
Entretanto mesmo com acesso facilitado ao conjunto de informações o usuário, mesmo o mais
experiente, pode sentir uma ansiedade ou frustração no uso das interfaces que se utilizam
recursos de imagens tridimensionais como destaca Pressmam (2002).
Segundo Apaydin (2002) a nova geração de interfaces homem-computador será interfaces de
fácil aprendizado e de alta acessibilidade destacando o uso das interfaces de voz, das quais
seriam o equivalente a um terço de todas as interfaces criadas para os ambientes
computacionais de alta complexidade. Isto por dois motivos principais: a facilidade no
aprendizado do ambiente através do uso de voz conforme Zelter & Johnson (1994) e também
pela liberdade que o usuário pode ter, conforme Tatham (2002) que descreve que a geração
e a utilização de mensagens ou comandos falados e interpretados pelo computador, ou seja,
(síntese e reconhecimento da voz humana) permite que os olhos ou mãos estejam livres para a
realização de outras tarefas.
Mesmo esta tecnologia emergente favorecer a utilização do sistema, seus recursos
devem ser empregados de maneira que interatividade e o senso de ilusão não se percam, pois
quando um sistema de RV engaja um serviço de voz, este serviço ocupa boa parte do
processamento e desfaz a ilusão criada pela interface.
2. 2. Definição do Problema
O ser humano percebe o mundo através de seu sistema sensorial que une as informações
audiovisuais, táteis e olfativas, mas o sentido predominante é o visual, tátil e o auditivo, cujos
sentidos a tecnologia de RV já empregou diversos equipamentos, mas a combinação de dois
sentidos como o visual e o auditivo criam uma imersabilidade ao sistema virtual.
Olhos e cérebro trabalham juntos para perceber e interpretar estas informações
fazendo com que o usuário sinta-se entretido com o ambiente, ou seja, sinta-se imerso. Mas
quando uma delas tem um atraso ou se adianta uma da outra, cérebro percebe a disfunção e
acorda o usuário tirando-o da imersabilidade e o faz atentar para o problema de sincronismo
entre o visual e o audível.
Estudar e classificar dois tipos de linguagens (Java e C++) para o uso do serviço de
voz é a proposta deste trabalho, e que reflete neste artigo, mas apenas a primeira fase onde se
destaca a criação do ambiente Java com as bibliotecas Java 3D e Java Speech, ambas em
decorrentes implementações e atualizações de seus criadores, e a utilização de um mecanismo
de reconhecimento da IBM, denominado de ViaVoice.
3. Trabalhos anteriores
Trabalhos anteriores destacam-se pela aplicação do reconhecimento de voz e síntese
utilizando sua forma básica sem se preocupar com a interatividade e imersão dentro do
ambiente, como é o caso das aplicações descritas por Hunt & Walker (2000) e por Pizzolato
& Rezende (2003). Notavelmente a pesquisa de Oliveira et ali (2000) decifra alguns
problemas dentro do ambiente virtual associado a um sistema de reconhecimento e síntese de
voz.
Outros trabalhos descrevem apenas os erros de rejeição ou de incompreensão dos
comandos de voz como é o caso dos trabalhos de Meiguins et ali (2003) e de Rodrigues
(2001).
4. Noções gerais sobre os Serviços de Voz
Brega et ali (2002), elucida alguns termos que são necessários para a compreensão de como
o serviço de voz funciona, tais como: a) Fonema: sendo a menor unidade de som que as
palavras são compostas; b) Modelo acústico: que é um modelo de como os sons das
palavras deveriam se representar; c) Expressão: qualquer seqüência de voz entre dois
períodos de silêncio; d) Pronúncia: que é a forma de se falar as palavras (incluindo o sotaque
e o regionalismo das mesmas); e) Gramática: são as regras de reconhecimento, ou seja, o
conjunto de palavras e conjunções válidas para a ativação de uma ação no sistema; f)
Treinamento: é o processo pelo qual o mecanismo de reconhecimento passa para identificar
o sotaque e a pronuncia dos vocábulos do usuário; g) Precisão: É um variável que estabelece
se o que foi pronunciado pode ser representado em sua equivalência pela gramática, ou seja,
é a variável que representa se acurácia do sistema.
Segundo Furness & Barfield (1995), freqüentemente a expressão “reconhecimento
de voz” é utilizada com vários sentidos, que na verdade, referem-se a tecnologias distintas e
conforme afirma Jurafsky e Martin (2000) o processamento da voz pode ser aplicado em
3. quatro áreas principais: a) comando e controle por voz; b) reconhecimento de fala
natural; c) síntese de fala; e d) autenticação de voz;
Segundo Tatham (1995), um aspecto importante dentro do reconhecimento de voz é
escolha do procedimento de reconhecimento de fala por meio de modelos e para isso há uma
especificação dos tipos de fala como os modelos de fala contínua e os de fala de palavras
isoladas.
Neste trabalho optou-se em utilizar um mecanismo de reconhecimento de voz que
facilitasse a implementação do serviço no ambiente virtual, e de acordo com os critérios
descritos por Pizzolato & Rezende (2003), a opção de escolha do IBM ViaVoice foi a que
mais se provou aplicável, por ser um sistema estável e possuir um conjunto de bibliotecas de
programação para Java e C++.
Existem limitações em todas as bibliotecas de mecanismos de reconhecimentos e
síntese de voz, na descrição de Sun (1998) podem ser classificas as limitações em dois
grandes grupos: as limitações causadas por erros de pronuncia; as limitações causadas por
erros de áudio. A limitação da biblioteca foi observada pelas duas linguagens, sendo que
prevalece o treinamento do usuário como fator preponderante da utilização correta do
ambiente.
O sistema proposto é base para a avaliação nas duas linguagens (Java e C++) e,
portanto deve representar a possibilidade da congruência das duas linguagens, ou seja, a
implementação do serviço de voz deve ser com os mesmos comandos e a mesma gramática
em língua portuguesa como está descrita na Figura 1.
Figura 1 - Gramática proposta para o sistema uniVoice
A aplicação apresentada baseia-se nos trabalhos de Brega et ali. (2001), onde foram
propostas bibliotecas de movimentação de agentes e avatares humanóides, para aplicações de
Realidade Virtual. A incorporação da biblioteca de movimentos veio favorecer o
desenvolvimento da aplicação para a comparação dos recursos de voz e ao processamento
da plataforma gráfica desenvolvida em Java 3D conforme pode ser observado na Figura 2.
Falar
UniVoice
1
Avatar
1
Escutar
1
1
Figura 2 - Modelagem do sistema uniVoice
4. 5. A utilização da biblioteca de movimentos
De acordo com os trabalhos de BREGA et al. (2001), onde foram propostas bibliotecas de
movimentação de agentes e avatares humanóides, foram definidas as seguintes
movimentações: andar, parar, pular, sentar, levantar, e voltadas para as noções básicas de
direcionamento como direita, esquerda, acima e abaixo.
Nesta fase atual do trabalho está sendo utilizado o Java 3D que é uma API
(Application Programming Interface), desenvolvida pela Sun Microsystems para renderizar
gráficos 3D interativos usando Java. Pretende-se até o final deste trabalho uma comparação
com a mesma biblioteca de movimentos utilizando openGL acessado pela linguagem C++.
Por obter-se maior realismo para o movimento do avatar foi utilizado o conceito de
graus de liberdade ( egree Of Freedom -DOF), e representando cada parte do corpo
D
sendo integrada uma a uma para se compor os movimentos humanóides.
Figura 3 - Ambiente uniVoice
6. O mecanismo de reconhecimento
Neste trabalho optou-se em primeiro momento a utilização da linguagem Java com suas
extensões para Java 3DTM e a Java Speech.
Para o procedimento de reconhecimento de voz foi escolhido o processo de fala de
palavras isoladas aplicadas a uma pequena gramática de teste como mostra a Figura 1.
Segundo RODRIGUES (2001), a API Java Speech é uma interface de software
capaz de manipular diversos mecanismos de reconhecimento e também de síntese de voz de
fabricantes diferentes, isto por sua característica independente de plataforma que é herdada
da linguagem Java.
O processo de reconhecimento de voz é diferente da compreensão da fala, segundo
PIZZOLATO E REZENDE (2003), a compreensão da fala está além do reconhecimento de
5. voz no qual existe a tradução do sinal de fala para um texto, enquanto na compreensão da fala
é gerada uma ação para o que foi reconhecido.
7. Detalhes da Implementação
Neste trabalho pretende-se observar o comportamento da biblioteca de reconhecimento e
síntese de voz Java Speech junto com a biblioteca de geração de ambientes tridimensionais
Java 3D para detectar e sanar o fator de gargalo de processamento, ou seja, observar seu
comportamento em comparação com outras bibliotecas de desenvolvimento de ambientes
tridimensionais e de reconhecimento de voz.
De acordo com Shriver & Rosenfeld (2003), uma interface de voz pode ser de
implementado utilizando três técnicas diferentes: a) utilizando uma linguagem natural
controlada; b) diálogo direto, ou seja, por perguntas e respostas e; c) por comando e
controle.
Ao observar as duas últimas técnicas de implementação de serviços de voz obteve-se
as seguintes análises:
1) Quanto a Acurácia (em percentagem) [de acordo com o comando o usuário deseja uma
ação]
95
98
Regras de
Gramática
80
Comando e Controle
15
Diálogo
Contínuo
25
20
Diálogo Direto
Ling. Controlada
80
Palavra Isolada
50
0
20
40
60
80
95
100
120
Figura 4 - Gráfico de Acurácia
2) Tempo de Resposta (em milissegundos) ao ambiente virtual (implementação em Java com
Java 3D)
Obs: Tempo médio das respostas calculado em função do clock da máquina virtual.
Regras de
Gramática
7000
7800
Comando e Controle
6800
Diálogo Contínuo
7850
7950
7850
Palavra Isolada
6000
Diálogo Direto
6500
7000
7500
8000
8500
Figura 5 - Gráfico do tempo médio de resposta
6. Na Figura 6 destaca-se o desenvolvimento do AV por meio da união do acionamento
do processo de criação do objeto virtual e da a alocação do recurso de voz.
Para este processo é estabelecido o seguinte critério: 1) Verificação do estado do
mecanismo de reconhecimento de voz; 2) Verificação da gramática após o acionamento do
reconhecedor; 3) Acionar o comando do Java 3D e modificar o estado do reconhecedor para
liberar mais memória; 4) Verificação do nó através do Locale e do BranchGroup, usando a
parametrização da gramática; 5) A inserção do objeto virtual e o acionamento do sintetizador
de voz para dar a resposta audível ao usuário e 6) Desligamento do sintetizador.
Figura 6 - Visão da programação do ambiente
Através destes passos é possível criar o AV mais adequado sem considerável perda
de performance causada pelo processamento das instruções e da geração do ambiente virtual.
Outra técnica para atenuar a perda de performance do Java 3D é a utilização das
bibliotecas (pacotes ou packages) não mais na sua forma convencional, visto na Figura 7 , mas
na forma identificada completa, visto na Figura 8 . Esta forma de programação além de atenuar
a perda de performance deixa o programa mais legível segundo Sebesta (1996), assegurando
o entendimento para futuras manutenções.
Nas figuras 7 e 8 estão sendo identificado o mesmo código de programa da classe
<Avatar.Java> usado no trabalho de Brega et Ali (2002).
Figura 7 - Forma convencional de programação Java 3d
Figura 8 - forma de programação identificada
completa
O ganho de performance observado foi de em média 20 % como mostra a Figura 9.
7. 5000
4580
3785
4000
3000
Concencional
Identificada
2000
1000
0
Performance
Figura 9 - gráfico de performance sobre tipo de programação
Além da utilização do recurso de programação de inclusão de pacotes identificados
foi detectado que o uso do pacote de desenvolvimento swing é redundante para o Java 3D,
mesmo contrariando os ensinamentos de Deitel e Deitel (2003), pois ambas (a classe
canvas3D e o canvas do AWT) são especificações da classe Graphics, que acompanha o
pacote AWT.
Segundo de Deitel e Deitel (2003) o pacote AWT (abstract window toolkit) estão
associados com os recursos da interface gráfica com o usuário na plataforma local, e quando
um programa que usa deste recurso é executado em outra plataforma sua aparência é
diferente da original.
java.lang.Object
java.awt.Component
java.awt.Container
javax.swing.JComponent
Figura 10 - Superclasses comuns dos componentes GUI - java
Os componentes do pacote Swing não são sobrecarregados pelos recursos GUI
complexos da plataforma em que são utilizados, mas dependem da vinculação da AWT, do
qual o Java3D se baseia para desenhar objetos na tela. Mesmo que cada componente AWT
possua uma interação separada para o acesso a plataforma, o fato de que quando são
utilizados componentes swing junto ao Java 3D existe o que pode-se denominar de perda por
sobrecarga, ou seja, o pacote swing por ser uma classe derivado do awt, este é processado
primeiro e depois reprocessado para dar vazão ao pacote swing.
8. Trabalhos futuros
Na utilização de sistemas multi-modais a interface de voz cria uma sensação de imersão e
envolvimento, entretanto, quando são utilizados os recursos o sistema virtual tende
transparecer uma queda de performance gráfica.
A premissa do projeto é que um sistema de RV ao utilizar os recursos de voz torna-se
mais atrativo (imersivo e envolvente) ao usuário, mas o tempo de resposta (feedback) diminui
as expectativas do usuário afastando-o da ilusão criada.
Na próxima fase do trabalho será desenvolvido o mesmo ambiente virtual utilizando
outra tecnologia, o C++ (com o Microsoft Visual C++) e o WorldToolKit (Sense8), com o
acesso ao mesmo mecanismo de reconhecimento (IBM Via Voice), para poder determinar
qual seria o mais indicado para uma aplicação multimodal em um ambiente virtual.
8. 9. Referências
Apaydin, O. “Networked Humanoid Animation Driven By Human Voice Using
Extensible 3D (X3D), H-ANIN and Java Speech Open Standards”. Naval
Postgraduate School, Monterey, California; 2002.
Brega, J. R. F., Sementille, A. Rodello, I. A., Melo, W. C. C. 2002 Uma Interface de
Reconhecimento de Voz para Movimentação de Agentes e Avatares Humanóides
em Ambientes Virtuais, 6o.SBC Symposium on Virtual Reality.
Brega, J. R. F.; Sementille, A. C.; Kirner, C.; Devidé, A. H.; Santos, F.; Beldi, L. H. P.
(2001) "
Uma Biblioteca para Movimentação de Agentes e Avatares Humanóides
em Aplicações de Realidade Virtual", 4o.SBC Symposium on Virtual Reality,
Florianópolis – SC, Outubro.
Deitel, H. M. ; Deitel, P. Java Como Programar. 4a.edição. Porto Alegre-RS: Bookman,
2003.
Furness, T. A. & Barfield, W Speech Recognition - Past, Present and Future . NTT
Review, 1995.
Hunt A. & Walker W. A Fine Grained Component Architecture for Speech Application
Development, SUN Research, Project: SMLI TR-2000-86, June 2000.
Jurafsky, D., Martin, J. “
Speech and Language Processing”. New Jersey, Prentice-Hall,
2000.
Meiguins, B.S Et. Ali. Interação em Ambiente Tridimensionais Utilizando Comandos de
Voz, in Proceedings of Symposium on Virtual Reality, Ribeirão Preto, SP 2003.
Oliveira J.C. Et Ali VIRTUAL THEATER for Industrial Training: A Collaborative
Virtual
Environment,
Canadá,
2000,
disponível
em
www.mcrlab.uottawa.ca/papers/cscc2000-Joliveira.pdf
Pizzolato,E. B. e Rezende M.N. “Issues to Consider when Adopting Commercial Speech
Interface in Virtual Worlds”, in Proceedings of Symposium on Virtual Reality, Ribeirão
Preto, SP 2003.
Pressman, R.S. Software Engineering: A Practitioner´s Approach, 5ª ed. McGraw-Hill,
New York, 2002.
Rodrigues, J.F. Estudo e Desenvolvimento de Aplicações Java com Reconhecimento e
Síntese de Voz. Relatórios Técnicos do ICMC. São Carlos, 2001
Sebesta R. W. “Conceitos de Linguagem de Programação”. 4ª ed. Editora Bookman,
Rio de Janeiro. 1996.
Shriver S. & Rosenfeld R. Keyword Selection, And The Universal Speech Interface
Project, disponivel em <http://www.cs.cmu/~usi,> Acesso em 20 jul. 2003.
Tatham, Mark. Speech Recognition. 1995. Disponível em: <http://www.essex.ac.uk/
speech/teaching/erasmus/recognit.html > Acesso em 15 Jul. 2003.
9. Zelter D. & Johnson M. B. Interacting with Virtual Environments, E John Wiley &
d.
Sons, New York, 1994