Reconhecimento de Expressões Faciais
utilizando Abordagem Geométrica
Instituição: Universidade Federal da Bahia
Curso: Mestrado em Mecatrônica
Aluna: Caroline Silva
Orientador: Leizer Schnitman
Coorientador: Luciano Oliveira
2
 Objetivos
 Introdução
 Revisão da Literatura
 Sistema de Reconhecimento de Expressões Faciais
 Resultados Experimentais
 Avaliação dos Resultados e Considerações Finais
 Trabalhos Futuros
--------------------------------------------------------------------------------------------------------------------
Sumário
UFBA 2012, Salvador, Brasil
3
 Neste trabalho foi desenvolvido um sistema
reconhecimento automático de expressões faciais que
tem como objetivo é classificar sete diferentes estados
emocionais: neutralidade, felicidade, tristeza, surpresa,
raiva, desgosto e medo utilizando as abordagens
baseadas em modelos e em redes neurais artificiais.
--------------------------------------------------------------------------------------------------------------------
Objetivos
UFBA 2012, Salvador, Brasil
4
 Desenvolver novos ou melhorar os atuais sistemas de
reconhecimento automáticos de expressões faciais.
 Avanços na área de visão computacional, aprendizagem
de máquina e processamento de imagens.
 Similaridade entre os sistemas existentes.
 O diferencial: tipo de característica extraída e no procedimento
de classificação utilizado.
--------------------------------------------------------------------------------------------------------------------
Introdução
UFBA 2012, Salvador, Brasil
5
 Extração de Características Faciais
Baseadas em Geometria
Baseadas em Aparência
Características Híbridas
 Classificação de Expressões Faciais
Baseados em Imagens Estáticas
Baseados em Sequências de Imagens
--------------------------------------------------------------------------------------------------------------------
Revisão da Literatura
UFBA 2012, Salvador, Brasil
Tian et. al (2005) e Zhan et. al (2006)
6
Características Baseadas em Geometria
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
Landmarks Faciais: descreve
um determinado objeto.
(e.g., Chang et al. 2006, Valstar
et al. 2012, Huang e Huang ,
1997, Sebe et al. 2007)
(e.g., Khandait et al. 2012, Tian
et al. 2003, Sako e Smith,
1996)
Formas das Regiões da Face
Relações Geométricas (distâncias,
ângulos, etc) entre landmarks.
7
Características Baseadas em Aparência
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
Aviso:! Geralmente precisam de redução de dimensionalidade e / ou seleção de características.
(e.g., Littlewort et al. 2002, Kanade
et al., 2000)
(e.g., Whitehill e Omlin , 2006)
(e.g., Ford, 2002, Samad e Sawada, 2011,
Bartlett et al. 2001, Guo e Dyer, 2005)
(e.g., Shan et al. 2009 , Shan
e Gritti,2008)
Gabor Intensidades dos pixels
Haar LBP
Mudanças textura da pele
8
Características Híbridas
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
(e.g., Zhang et al., 1998, Lucey et al.
2010, Hupont et al. 2008b, Martin et
al. 2008)
9
Mudanças nas Expressões
Expressões básicas universais - Ekman e Friesen (1971)
Seis expressões universais não mudam para povos de diferentes nações e culturas.
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
(e.g., Black e Yacoob , 1997, Huang e Huang ,
1997, Michel e Kaliouby, 2003, Littlewort et al. 2003, Chuang e Shih
, 2006, Zeng et al. 2006).
(e.g., Cohn et al. 1999b, Donato et al. 1999, Pantic e Rothkrantz ,
2000, Tian et al. 2002, Bartlett et al. 2006, Ryan et al. 2009, Jiang
et al. 2011).
Unidades de ação do FACS - Ekman e Friesen (1978)
Seis expressões faciais: raiva, felicidade, medo, tristeza, desgosto e supresa.
Tabela 1. Alguns exemplos de unidades de ação
Raiva Felicidade Medo
Tristeza Desgosto Surpresa
10
Métodos de classificação
Imagem Estáticas
Redes Neurais Artificiais (e.g.,Padgett et al. 1996, Saket et al. 2009, Kobayashi e Hara , 1997)
Support Vector Machines (e.g., Tian et al. 2002, Chuang e Shih , 2006, Nagpal e Garg , 2011)
Métodos Baseados em Regras (e.g., Khanam et al. 2008, Pantic e Rothkrantz , 2004)
Sequências de Imagens
Hidden Markov Model (e.g., Yeasin et al. 2004, Bartlett et al. 2001)
Métodos Baseados em Modelos (e.g., Essa e Pentland , 1997, Cohn et al. 1998)
Redes Bayesianas Dinâmicas (e.g., Zhang e Ji, 2005, Cohen et al. 2003)
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
11
Variações do Ambiente
Resolução da Face
--------------------------------------------------------------------------------------------------------------------
Questões e Desafios
UFBA 2012, Salvador, Brasil
Posição da Cabeça
Diferenças Individuais
12
--------------------------------------------------------------------------------------------------------------------
Reconhecimento de Expressões Faciais
UFBA 2012, Salvador, Brasil
13
Arquitetura do Sistema
--------------------------------------------------------------------------------------------------------------------
Reconhecimento de Expressões Faciais
UFBA 2012, Salvador, Brasil
O sistema foi treinado e testado em imagens que apresentaram
iluminação uniforme, planos de fundo não uniforme e neutro e
variações na aparência, tais como óculos, bigode e barba. As
imagens utilizadas pelo sistema, estão restritas a ambientes
fechados.
14
--------------------------------------------------------------------------------------------------------------------
Detecção da Face e Regiões Faciais
UFBA 2012, Salvador, Brasil
Detector baseado em Haar-like-features como extrator de características e AdaBoost como classificador (VIOLA e
JONES, 2001).
Resoluções das imagens da face de 896x896 pixels e 640x480 pixels.
Retângulo apresentando resolução em pixels de 17x5 para cada uma das sobrancelhas.
Viola e Jones (2001)
15
 Características Baseada em geometria 20 landmarks faciais
Consomem normalmente menos custo computacional
que os métodos que utilizam características baseados em
aparência (SHAN; BRASPENNING, 2010).
Métodos baseados em geometria, geralmente ultrapassam
o desempenho dos métodos baseados em aparência
(PANTIC e PATRAS; VALSTAR e PANTIC 2006).
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
Antes da extração de características foram aplicadas diferentes técnicas de
pré-processamento e segmentação.
16
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
 Pré-processamento da região do olho
ROI A. de contraste Limiarização A. de interesse Dilatação P. de lacunas
T= 0.53
17
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
 Pré-processamento da região da sobrancelha
ROI Escala de cinza E. de histograma Limiarização Dilatação
T=0.46 E. estruturante: reta
Tamanho: 10
P. lacunas
18
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
 Pré-processamento da região da boca
ROI Filtro Gaussiano 2D Imagem HSV Lim. e Abertura Área de interesse
Componente: H
E. estrut.: disco
Tamanho: 5
T = 0.5
19
-------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
 Detecção de 20 landmarks
20
 Análise de Procrustes Generalizada (AGP) desenvolvido por Gower (1975),
e modificado por Berge (1977).
--------------------------------------------------------------------------------------------------------------------
Extração de Características Faciais
UFBA 2012, Salvador, Brasil
Configuração Inicial Translação Rotação Escala
21
 Mudanças nas expressões
Expressões básicas universais.
 Classificação Baseada em Imagens Estáticas
A informação de uma única imagem usualmente é suficiente para
reconhecer a expressão.
Métodos de classificação
Baseado em modelos.
 Redes neurais artificiais.
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
22
 Classificação Baseada em Modelos
Modelo médio de sete expressões faciais
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
Neutro Felicidade Tristeza
Surpresa Raiva Desgosto Medo
Estimação de modelos médios!!!
23
 Classificação Baseada em Modelo
Análise de Procrustes Generalizada (AGP)
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
Conjunto de dados de brutos Alinhamento por AGP
Exemplo de dados brutos
extraídos de uma sequência de
imagem de uma única expressão.
A forma média após a aplicação.
24
 Classificação Baseada em Modelo
Correspondência entre Modelos
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
QUAL A SIMILARIDADE?
Modelo médio Modelo de entrada
Varia entre 0 e 1
Dado um modelo extraído
da imagem de entrada como
compará-los com os
modelos médios estimados?
25
 Classificação Baseada em Redes Neurais Artificiais MLP
(Multi-Layer Perceptrons) do tipo feed forward
A Configuração da rede consiste em:
40 neurônios camada entrada correspondendo: 4 (landmarks) x
2 (coordenada) x 5 (regiões faciais) .
Camada oculta foram avaliados entre 10 a 16 neurônios.
7 neurônios na camada de saída, um para cada classe de expressão
(neutra, felicidade, surpresa, tristeza, raiva, desgosto e medo) .
O algoritmo de treinamento utilizado : CGP (Conjugate gradient
backpropagation with Polak-Ribiére updates) proposto por Polak e
Ribiere (1969).
Função de ativação: sigmóide
--------------------------------------------------------------------------------------------------------------------
Classificação de Expressões Faciais
UFBA 2012, Salvador, Brasil
26
--------------------------------------------------------------------------------------------------------------------
Resultados Experimentais
UFBA 2012, Salvador, Brasil
Base de Dados
Taxa de Detecção da Face e das Regiões Faciais
Precisão dos Landmarks
Taxa de acerto da classificação Baseada em Redes Neurais Artificiais
Taxa de acerto da classificação Baseada em Modelos
27
--------------------------------------------------------------------------------------------------------------------
Base de Dados
UFBA 2012, Salvador, Brasil
 MUG Facial Expression (Aifanti et al, 2010)
86 indivíduos, 35 são mulheres e 51 homens, entre 20 e 35 anos de idade.
28
--------------------------------------------------------------------------------------------------------------------
Base de Dados
UFBA 2012, Salvador, Brasil
 Face and Gesture Recognition Research Network (FG-NET)
(WALLHOFF, 2006)
18 diferentes indivíduos (9 do sexo feminino e 9 do sexo masculino) com
idades entre 23 e 38 anos.
Expressões universais
rotuladas.
A MUG possui anotações
de landmarks.
Importante!!!
29
--------------------------------------------------------------------------------------------------------------------
Resultados da Detecção da Face e das
Regiões Faciais
UFBA 2012, Salvador, Brasil
 Base de dados MUG Facial Expression
Subconjunto de 401 imagens de 26 indivíduos.
100% das faces apresentadas.
Taxa de detecção das regiões faciais.
30
--------------------------------------------------------------------------------------------------------------------
Avaliação dos Landmarks
UFBA 2012, Salvador, Brasil
Forma detectada
método Proposto
QUAL A SIMILARIDADE?
Forma da anotação
 Metodologia
Varia entre 0 e 1.
31
--------------------------------------------------------------------------------------------------------------------
Avaliação dos Landmarks
UFBA 2012, Salvador, Brasil
 Base de dados: MUG Facial Expression
Subconjunto de 401 imagens de 26 indivíduos.
Imagens Distância de
Procrustes
1 0.01
2 0.07
... .....
401 0.04
Média 0.05
Porcentagem média da distância de Procrustes : TP = 1 - DP
Tp = 1 – 0.05 = 95%
Grau de similaridade entre as formas detectadas para
cada uma das regiões faciais.
Ilustração dos graus de similaridade de
uma determinada região facial
32
--------------------------------------------------------------------------------------------------------------------
Classificação das Expressões
UFBA 2012, Salvador, Brasil
MUG
30 imagens
para cada expressão.
Total: 210
FG-NET
Total: 54 imagens
para cada expressão.
Total: 370
Abordagens baseadas em redes neurais artificiais e em modelos.
Validação Cruzada
Metodologia utilizada para as duas abordagens
Dados
33
--------------------------------------------------------------------------------------------------------------------
Avaliação
Rede Neural Artificial utilizando de base de
dados MUG
UFBA 2012, Salvador, Brasil
34

--------------------------------------------------------------------------------------------------------------------
Classificação por Redes Neurais Artificiais
UFBA 2012, Salvador, Brasil
Qual a melhor configuração em relação à quantidade de neurônios na camada
oculta?
35
 Os resultados foram apresentados através da matriz de confusão
--------------------------------------------------------------------------------------------------------------------
Classificação por Redes Neurais Artificiais
UFBA 2012, Salvador, Brasil
100%
100%
93%
93%
100%
97%
100%
36
--------------------------------------------------------------------------------------------------------------------
Avaliação
Rede Neural Artificial utilizando de base de
dados FG-NET
UFBA 2012, Salvador, Brasil
37

--------------------------------------------------------------------------------------------------------------------
Classificação por Redes Neurais Artificiais
UFBA 2012, Salvador, Brasil
Qual a melhor configuração em relação à quantidade de neurônios na camada
oculta para a base FG-NET ?
38
 Os resultados foram apresentados através da matriz de confusão.
--------------------------------------------------------------------------------------------------------------------
Classificação por Redes Neurais Artificiais
UFBA 2012, Salvador, Brasil
96%
68%
94%
94%
94%
87%
70%
39
--------------------------------------------------------------------------------------------------------------------
Avaliação
Abordagem Baseada em Modelos
UFBA 2012, Salvador, Brasil
40
--------------------------------------------------------------------------------------------------------------------
Classificação baseada em Modelos
UFBA 2012, Salvador, Brasil
Foram realizados testes em relação à taxa média de acerto entre 3 a 7 expressões
Aviso !Este método foi avaliado utilizando a base de dados
FG-NET.
41
--------------------------------------------------------------------------------------------------------------------
Avaliação dos Resultados
e Considerações Finais
UFBA 2012, Salvador, Brasil
42
 Para o módulo de detecção da face, o sistema
detectou 100% das faces. No módulo de detecção
das regiões faciais (olhos, sobrancelhas e boca),
o sistema atingiu uma taxa média de detecção de 98%
 As características extraídas (landmarks) apresentaram uma taxa de
precisão acima de 90% .
 Para a classificação baseada em redes neurais artificiais
Taxa de reconhecimento de 97,62% para a base de
dados MUG.
Taxa de reconhecimento de 86,50% para a base de
dados FG-NET.
------------------------------------------------------------------------------------------------------------------
Análise dos Resultados
UFBA 012, Salvador, Brasil
Resultados Favoráveis!!
Por que essa
diferença?
43
 Base de dados FG- NET
------------------------------------------------------------------------------------------------------------------
Análise dos Resultados
UFBA 2012, Salvador, Brasil
Surpresa Tristeza
44
 Classificação baseada em modelos:
3 expressões (felicidade, neutralidade e surpresa) : 97,78% .
4 expressões (felicidade, neutralidade, surpresa e tristeza) : 73,33%
5 expressões (felicidade, neutralidade, surpresa e tristeza e raiva): 69,33%
6 expressões (felicidade, neutralidade, surpresa e tristeza, raiva e desgosto): 66,67% .
Aviso!! A taxa de acerto deste método diminuiu à medida que aumentou-se
a quantidade de expressões!!!
------------------------------------------------------------------------------------------------------------------
Análise dos Resultados
UFBA 2012, Salvador, Brasil
45
 Diferenças entre os resultados
Redes Neurais Artificiais X Abordagem baseada em Modelos
Redes neurais artificiais apresentar robustez a ruídos nos dados
de treinamento.
Abordagem baseada em modelos, todos os landmarks são utilizados
no cálculo do grau de similaridade entre as expressões e seus respectivos
modelos médios. Além da suavização de alguns detalhes faciais.
------------------------------------------------------------------------------------------------------------------
Análise dos Resultados
UFBA 2012, Salvador, Brasil
46
 Comparação
Alguns sistemas que utilizam a base de dados FG-NET e reconhecem sete
classes de expressões.
------------------------------------------------------------------------------------------------------------------
Análise dos Resultados
UFBA 2012, Salvador, Brasil
47

------------------------------------------------------------------------------------------------------------------
Conclusão
UFBA 2012, Salvador, Brasil
Os resultados experimentais demonstram que as
melhores taxas de reconhecimento apresentada pelo
sistema foi obtida com a utilização da rede neural
artificial, alcançando uma taxa de reconhecimento de
97,62% para a base dados MUG Facial Expression, e
86,50% para a base FG-NET.
48
 Adicionar ao sistema desenvolvido um novo módulo de correção de
formas semelhante à estratégia utilizada por Beumer et al. (2006) em que
as posições dos landmarks detectados incorretamente são corrigidos.
 Outros tipos de características podem ser utilizados para aprimorar a
classificação de expressões. Um exemplo, poderia ser aplicação do
filtro de Gabor nos landmarks extraídos similar ao realizado no
trabalho de Guo e Dyer (2005). Estas características extraídas juntamente com os
landmarks podem ser utilizadas para aprimorar a classificação das expressões.
 Novas técnicas podem ser aplicadas para que o sistema possa manter o
bom desempenho ao lidar com imagens que apresentem variações de iluminação
ou posições da cabeça.
------------------------------------------------------------------------------------------------------------------
Trabalhos Futuros
UFBA 2012, Salvador, Brasil
49
 Realizar experimentos com outros métodos de classificação, tais como:
Support Vector Machine, K-Nearest Neighbor, Redes Bayesianas e
Hidden Markov Model.
S-----------------------------------------------------------------------
Trabalhos Futuros
UFBA 2012, Salvador, Brasil
50
 Detecção de Landmarks em Imagens Faciais Baseada em Informações Locais.
XIX Congresso Brasileiro de Automática - CBA 20123 de setembro de 2012
Autores: Caroline Pacheco do E. Silva, Leizer Schnitman, Luciano Oliveira
S-----------------------------------------------------------------------
Publicação
UFBA 2012, Salvador, Brasil
51
--------------------------------------------------------------------------------------------------------------------
UFBA 2012, Salvador, Brasil
Obrigada!
52
--------------------------------------------------------------------------------------------------------------------
Bibliografia
UFBA 2012, Salvador, Brasil
1. Beumer, M.G.; Tao, Q.; Bazen, M.A.; Veldhuis, J.N.R. A Landmark Paper
in Face Recognition. Automatic Face and Gesture Recognition, pp. 73-
78, 2006.
2. Lathem. Disponível em: <http://www.www.lathem.com >. Acesso em
31 de agosto 2012.
3. Saragih, Jason; Lucey, Simon e Cohn, Jeffrey. Real-time avatar
animation from a single image. Automatic Face & Gesture Recognition
and Workshops (FG 2011).

Apresentacao