Reconhecimento de Gestos em Imagens de Profundidade com
Utilização do Sensor Kinect
Rafael Miranda Guimarães*, João Victor...
Figure 1: O Microsoft Kinect.
Fonte: <http://goo.gl/J4XSxm>

Câmera RGB: obtém imagens coloridas numa
resolução de 640 por...
Figure 5: Imagem da câmera RGB do Kinect.
Fonte: autor do trabalho (2013)

confiável em diferentes ambientes.
Existem no m...
Próximos SlideShares
Carregando em…5
×

Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect

827 visualizações

Publicada em

Este artigo faz uso de tecnologias no sentido de incorporar o reconhecimento de gestos como ferramenta de manipulação na interação homem-máquina.
O objetivo é desenvolver uma interface de comunicação entre uma pessoa e um computador, utilizando como dispositivo de entrada o Kinect.

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
827
No SlideShare
0
A partir de incorporações
0
Número de incorporações
12
Ações
Compartilhamentos
0
Downloads
23
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect

  1. 1. Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect Rafael Miranda Guimarães*, João Victor Boechat Gomide╘ * Universidade FUMEC Belo Horizonte - MG – Brazil E-mail: garfanha@gmail.com ╘ Universidade FUMEC Belo Horizonte - MG – Brazil E-mail: jvictor@fumec.br Resumo - Desenvolvido pela Microsoft, o sensor Kinect (inicialmente chamado de “Projeto Natal”) é um dispositivo de reconhecimento de gestos e captura de movimentos que permite o uso de interações gestuais livres como forma de comunicação e entretenimento. Interações gestuais livres auxiliam no desenvolvimento de interfaces cada vez mais imersivas e intuitivas, proporcionando uma nova experiência ao usuário. Máquina (IHM) na qual, faz parte o estudo do planejamento, avaliação e implementação de sistemas computacionais interativos para uso humano compreendendo todos os fenômenos a ele relacionados [2], [3]. A alta demanda por tecnologia e a rápida necessidade de absorção do mercado consumidor, proporcionaram estímulos para o desenvolvimento de novas tecnologias. Tais estímulos são responsáveis pelo elevado número de aparatos tecnológicos disponíveis hoje para consumo. Palavras-chave – reconhecimento de Gestos, interface, kinect. a. Descrição: I. Introdução Interatividade tem sido a palavra chave na história de toda a evolução tecnológica. A cada dia surgem no mercado novos modelos de interação baseados no conceito de interface natural. A interface natural de usuário ou natural user interface (NUI) como é conhecida, trabalha o uso da linguagem natural como ferramenta de interação homem-máquina (IHM) [1]. Sua aplicação consiste na utilização de um novo modelo de interação entre o homem e o computador com base na utilização de gestos, posições e comandos de voz. É válido destacarmos a importância deste conceito hoje para o mercado, pois, muito se ouviu dizer a respeito da necessidade de desenvolvimento de novas tecnologias de comunicação homem-máquina na qual, fosse possível estabelecer um canal de comunicação estável entre o usuário e a aplicação viabilizando um novo modelo de interação. Diante deste cenário, temos uma nova área de pesquisa intitulada de Interação Homem- O Kinect é dotado de uma câmera RGB, um sensor de profundidade composto por um projetor e uma câmera que usa infravermelho capaz de mapear o ambiente em 3 dimensões, microfones, um motor para alterar seu ângulo de visão, e uma interface USB 2.0 para conexão com o videogame (Xbox) ou mesmo com um PC comum (Windows ou Linux) [6]. A figura abaixo demonstra as principais componentes do dispositivo Kinect (figura 1):
  2. 2. Figure 1: O Microsoft Kinect. Fonte: <http://goo.gl/J4XSxm> Câmera RGB: obtém imagens coloridas numa resolução de 640 por 480, com uma taxa de atualização de 30 quadros por segundo. Cada pixel é representado por 32 bits, sendo que apenas 24 deles são usados, com cada 8 determinando o valor de uma componente [24]. Sensor de Profundidade: um emissor de luz infravermelho espalha um padrão pseudoaleatório sobre o ambiente juntamente de um sensor CMOS monocromático que compara a luz refletida com um padrão gravado no firmware. Dessa maneira, é calculado um mapa de profundidade com resolução de 640 por 480, a uma velocidade de 30 quadros por segundo [24]. Seu campo de visão consiste da forma de uma pirâmide o que incorpora algumas limitações. Possibilita o reconhecimento de objetos ou utilizadores de forma mais precisa entre os 40cm e os 4m, como pode ser observado nas figuras 3 e 4, tendo um ângulo de visão de 57º graus na horizontal e 43º graus na vertical [25]. Figura 3 – Padrão do campo de visão vertical do Kinect. Fonte: MICROSOFT, 2011 [35] Microfones multi-vetorial: são quatro microfones autodirecionáveis para o usuário, capazes de isolar o som ambiente da fala do jogador. Também captam comandos por voz [24]. A figura abaixo ilustra o hardware do dispositivo Kinect (figura 2). Figure 4: Campo de Visão do Kinect Fonte: < http://goo.gl/NFcTY> b. Funcionamento: Figure 2: Imagem do hardware do Kinect. Fonte: <http://goo.gl/wjpqux> Sua arquitetura é composta de um acelerômetro com 3 eixos, configurado para uma variação 2G, em que G representa a aceleração devido à gravidade, possibilitando assim determinar a cada instante a orientação do sensor [25]. O Kinect é um dispositivo RGB-D, na qual, permite a captura de imagens representando as cores (RGB) e a profundidade de uma cena (D – Depth). Portanto, uma cena capturada pelo Kinect é usualmente representada por um par de imagens de resolução 640x480, com uma imagem em formato colorido RGB (24 bits/pixel) e a outra imagem representando a profundidade de cada pixel (Depth). A profundidade representa a distância dos pixels em relação ao sensor, formando uma mapa LxCxP (Linha x Coluna x Profundidade).
  3. 3. Figure 5: Imagem da câmera RGB do Kinect. Fonte: autor do trabalho (2013) confiável em diferentes ambientes. Existem no mercado diversos métodos para o reconhecimento de gestos, que vão desde a utilização de algoritmos de sequencia de tempo como o Dynamic Time Warping - DTW (Reyes et ai., 2011) [27] até os chamados modelos ocultos de Markov ou modelos Markovianos (Hidden Markov Models - HMM) (Oliveira e Morita, 2008) [28] na qual, trata-se de um modelo estatístico com parâmetros desconhecidos (D. Gehrig e Schultz, 2009) [29]. Em 1999 Segen e Kumar [30] utilizaram uma câmera e uma fonte de luz calibrada para calcular a profundidade. Em 2004 Ferris et al. [32] utilizaram, uma série de fontes de luz externas para iluminar o cenário aplicando geometria de vários ângulos de visão para construir uma imagem de profundidade. Em uma Referências [1] OLIVEIRA, I. Interface de Usuário: a Interação Homem-Computador Através dos Tempos. Disponível em: < https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&s ource=web&cd=1&cad=rja&ved=0CC4QFjAA&url=http %3A%2F%2Fwww.olharcientifico.kinghost.net%2Findex. php%2Folhar%2Farticle%2Fview%2F28%2F29&ei=Y1B MUplnjPDwBIGOgYAC&usg=AFQjCNG4B2GrSLr5FQ w3XKXEsGHNz-BQHA&bvm=bv.53371865,d.eWU > Acesso em Set. 2013 Figure 6: Imagem da câmera de Profundidade do Kinect. Fonte: autor do trabalho (2013) c. Reconhecimento de gestos e captura de movimentos Seria conveniente que computadores pudessem compreender instruções de comando fornecido pelos usuários de forma simples ao invés de procedimentos manuais de comando baseados em digitação ou sucessivos cliques do mouse para acesso as opções de menus [26]. O reconhecimento de gestos tem assumido um papel cada vez mais importante na área de pesquisa ativa (Liang e Ouhyoung, 1998; D. Gehrig e Schultz, 2009; Reyes et al, 2011;. Wilson e Bobick, 1999) [46], [47], [48], [49], na qual, envolve o uso de técnicas de aprendizagem de máquina e capacidade de atuação de forma [2] Hewett. Curricula for Human-Computer Interaction. The Association for Computing Machinery, Special Interest Group on Computer Human Interaction. [Online] 2009. Disponível em: < http://old.sigchi.org/cdg/cdg2.html#2_1 > Acesso em Set. 2013. [3] PRATES, R.; BARBOSA, S. Capítulo 6. Avaliação de Interfaces de Usuário – Conceitos e Métodos. Disponível em: < http://homepages.dcc.ufmg.br/~rprates/ge_vis/cap6_vfinal. pdf> Acesso em Set. 2013. [4] TALARICO, S. Reconhecimento de gestos: tecnologia em evolução. Business Review Brasil. 15 de Abril de 2013. Disponível em: < http://goo.gl/K3pOBU> Acesso em: 12 set. 2013. [Portal de notícias] [5] Biblioteca de Funções para Utilização do Kinect em Jogos Eletrônicos e Aplicações NUI

×