1. Detecção de Landmarks em Imagens
Faciais baseada em Informações Locais
Instituição: Universidade Federal da Bahia
Curso: Mestrado em Mecatrônica
Autores: Caroline Silva
Leizer Schnitman
Luciano Oliveira
2. 2
Introdução
Detecção da Face e Regiões Faciais
Detecção de Landmarks
Resultados Experimentais
Aplicações
Conclusão e Melhorias Futuras
--------------------------------------------------------------------------------------------------------------------
Sumário
CBA 2012, Campina Grande, Brasil
O trabalho está dividido nas seguintes partes:
Bem. Inicialmente vou falrealizar uma introdução do trabalho a ser apresentado, em seguida como eu detectei a face e as regiões faciais, detecção dos landmarks, os resultados expereimentais, a conclusão e melhorias futuras e por fim, possíveis aplicações.
1. O objetivo deste trabalho é detectar landmarks em uma determinada face.
2. A maioria dos métodos existentes no estado da arte ou pertencem a categoria que utiliza informações globais ou informações locais.
3. Nos métodos globais são utilizadas informações de textura e contorno de toda a face para que os landmarks sejam extraídos enquanto que nos métodos locais a face é dividida em regiões para que em seguida os landmarks sejam extraídas.
4. O método a ser apresentado se enquadra a categoria local e a vantagem dos métodos desta categoria é o desempenho, ou seja, detecta os landmarks como mais rapidez que os métodos globais.
>>Por que não utilizai Viola e Jones nas sobracelhas ? Ver com Andrews
A partir de agora vou falar o passo a passo de como os landmarks foram localizados.
Dada uma imagem a face é localizada, conforme podemos observar nesse retângulo amarelo. Para localizar a face foi utilizado um detector de objetos desenvolvido por Viola e Jones em 2002, que tem sido bastante utilizado ultimamente devido a sua precisão e velocidade de detecção.
Depois que a face é localizada as regiões de face, tais como sobrancelhas, olhos e boca. Para localizar a região dos olhos e da boca também foi utilizado o método desenvolvido por Viola e Jones enquanto que a região da sobrancelha foram estimadas, a partir da região dos olhos.
Depois que as regiões foram localizadas foram aplicadas diferentes técnicas de processamento de imagens em cada uma das região separadamente como objetivo de extrair as sobrancelhas, olhos e boca.
1 – A primeira região que vou falar é da região da imagem.
2- Dado o ROI da região do olho para melhorar a qualidade da imagem e tornar o contorno do olho foi realizado um ajuste de contraste. O resultado deste ajuste foi um clareamento na imagem, como podemos ver nessa figura.
3- Minha objeto de interesse nesta imagem é olho, porém esta imagem é composta também pela região da pele. Para elimina-lá foi utilizado o método de limiarização global este método consiste no particionamento do hostograma da imagem em um limiar
único, sendo assim os valores abaixo do limiar são considerados branco e acima preto. O limiar utilizado neste trabalho foi T= 0.53
4- Depois da limiarização, podemos perceber que se encontrar na imagem alguns objetos que não pertencem ao olho para eliminar esses objetos foi buscado na imagem algumas propriedades como: a quantidade de pixels de cada objeto. Em seguida, o objeto de maior região foi considerado olho enquanto que o restante foram eliminados.
5 – Em seguida duas operações morfologicas foram aplicadas: a 1ª delas foi a dilatação que uma operação que aumenta o objeto de uma imagem. A dilatação também preenche algumas lacunas na imagem, porém podemos perceber que após a dilatação alguns lacunas ainda se encontram na imagem para isto foi utilizado um algoritmo baseado em dilatação, complemento e interseção de conjuntos para preencher estas lacunas. Assim foi extraída o olho.
1 – Dado o ROI da sobrancelha inicialmente foi convertida para escala de cinza. (mostrar imagem)
2- Em seguida o seu histograma foi equalizado. A equalização do histograma modifica o histograma da imagem original de tal maneira, que a imagem transformada tenha um histograma uniforme, ou seja, todos os níveis de cinza da imagem devem aparecer na mesma frequência.
3- Depois a imagem foi limiarizada como intuito de obter o objeto de interesse. O valor do limiar global utilizado nesta região foi T= 0.46.
4- Em seguida a imagem foi dilatada e lacunas foram preenchidas. Na dilatação o elemento estruturante utilizado foi uma linha de dimensão 10 x 10.
>>procurar imagem boca aberta para mostrar operação de abertura
>> Por que componente HSV pq utilizou componente H? Será que é necessário colocar imagem HSV?
1 – Para extrair a boca foi preciso levar em conta um dos fatores que torna a extração da boca uma tarefa bastante complexa é à variabilidade que a boca pode apresentar.
2 – Para lidar como este problema inicialmente foi aplicado um filtro Gaussiano 2D que foi utilizado para suavizar a imagem com objetivo de eliminar eventuais ruídos;
3- O espaço de cor escolhido nesta região foi o HSV em que a cor é dividida em três componentes: no caso H (matiz), S (saturação) e V (valor).
4- Em seguida a imagem foi limiarizada onde o valor do llimiar é T=0.5 e em seguida a operação de abetura (erosão seguida de dilatação) utilizando o elemento estruturante em forma de disco e com dimensão 5x5 é aplicado na componente H da imagem.
5- Podemos perceber a imagem apresenta região que não pertence a boca para elimina-la a região de maior área é considerada boca
enquanto que as demais foram eliminadas.
Depois que as sobrancelhas, os olhos, e a boca foram extraídos.
Foi utilizado o detector Canny para detectar as bordas de cada um destes.
Após aplicação do Canny as bordas resultantes são divididas em partes iguais (isto eu fiz para restringir a minha região de busca). No caso dos olhos e da boca em 4 partes e no caso da sobrancelha em 2 partes. Após as bordas serem divididas inicialmente são procurados na borda os landmarks mais provavel de se encontrar nas extremidades esquerda e direita. Para localizar os landmarks superior e inferior foi preciso calcular a distaância euclidiana entre os landmarks esquerdo e direito. O landmark central foi encontrado através do cálculo da distância euclidiana entre os landmarks superior e inferior.
Bem esta imagem ilustra uma visão geral do sistema, ou seja, dada imagem a face é localizada em seguida os landarks foram extraídos e as regiões faciais são encontradas.
Depois são utilizadas diferentes técnicas de processamento de imagens em cada uma da região para extrair sobrancelhas, olhos e boca e em seguida os landmarks são encontrados.
A partir destes landmarks detectados , a largura e a abertura dos olhos, sobrancelhas e da boca, assim como as coordenadas de cada landmarks e estas informações são fundamentais em aplicações que utilizam análise de expressões, por exemplo.
1- A partir de agora vou falar dos resultados experimentais.
1. Bem para avaliar os resultados do método proposto foi utilizado a base de dados chamado MUG. Esta base é composta de indivíduos que executam diferentes expressões faciais em imagens colorida e em posição frontal.
2. Ao todo a base é composta por 82 indivíduos porém como ainda não estão disponíveis anotações para todos os indivíduos foram um utilizados neste trabalho um subconjunto de 401 imagens de 26 indivíduos para avaliar o método proposto.
Neste trabalho o método apresentado é comparado com a técnica ASM para que fosse possível comparar a robustez quanto à precisão em relação ao método global. Já que os métodos pertencentes a categoria global (como é o caso do ASM )são considerados mais precisos. O ASM é método estatístico do shape dos objetos que se deformam de forma iterativa para se adequar a um exemplo de um novo objeto em uma nova imagem.
-------------------------------------
Para avaliar a precisão do landmarrks, o método proposto que pertence a categoria local foi comprado com o método envcontrado na literatura chamado ASM. Que pertence a categoria global que sãoiconsiderados métodos mais precisos que os métoddos locais.
---------------------------------------------------
Afim de comparar a precisão do metodo apresentado foi escolhido um método chamado ASM dentre os outros existentes. Por ser considerado um método
Preciso e bastante utilizado ultimamente.
1. Vamos ver agora a metodologia utilizada para avaliar o método apresenta
2. Os landmarks de cada região facial foram analisados separadamente.
3. Por exemplo, aqui temos os landmarks extraídos da região da boca de uma pessoa (mostrar os landmarks)
4. Um conjunto de landmarks é chamado de shape (Mostra a segunda boca)
5. Então eu comparei o shape obtido pelo método proposto pelo mesmo shape da anotação do dataset. Por exemplo mostrar figura e explicar.
6. Meu objetivo é calcular o grau de similaridade entre estas dois shapes. Para isto eu utilizei (mostrar imagem) o método de procruste. Que é um método estatístico para analisar distribuição de conjunto de shapes.
1. Na tabela 1, é possível visualizar os resultados de similaridades entre os shapes detectados pelo método proposto e pela técnica ASM a partir do dataset MUG.
1. Os resultados também foram analisados graficamente. Utilizando distribuição acumulativa de similaridade do shape
Aqui temos a <<Distribuição acumulativa de similaridade do shape da boca.>> que apresenta o percentual de similaridade entre todos os shapes da boca.
O método ASM obteve uma melhor precisão <<porque?>>
Porque 100% das imagens processadas pelo método ASM, obtiveram um grau de similaridade (distancia de procrustes) inferior à 0.2
Enquanto o método proposto, 100% das imagens processadas obtiveram um grau de similaridade (distancia de procrustes) de no máximo 0.3
Os landmarks são características bastante poderosas e podem ser utilizadas em diversas aplicações
Melhorias Futuras
1.2 Os autores utilizam shapes de referência para corrigir os landmarks localizados incorretamente.