Visão Computacional em 30 minutos

João Victor Dias, 31/01/2018 JoaoVictor_AC
17 anos de
Visão Computacional em
30 minutos
NERDZÃO #23 INTELIGÊNCIA ARTIFICIAL

João Victor
Estatístico
Atualmente Cientista de Dados na everis
Análise de
Redes Sociais
Estatística
Pública
Inteligência
Artificial
jvictordias@gmail.com

VISÃO COMPUTACIONAL
Conjunto de ferramentas que auxiliam na percepção,
visualização e construção de um mundo visual complexo
Vision Foundations
CS 131
CNN for Visual Recognition
CS 231

Reconhecimento
de objetos1
GLOSSÁRIO
Detecção
de objetos2
Segmentaçã
o
de objetos
3
Segmentaçã
o
de imagem
4
Segmentaçã
o
semântica
5

RECONHECIMENTO DE OBJETOS
Localizar todos os objetos em uma imagem (uma quantidade restrita
baseada no seu conjunto de dados) e traçar um caixa de seleção ao redor
destes junto a um rótulo associado.

DETECÇÃO DE OBJETOS
Similar ao Reconhecimento de
Objetos porém nesta tarefa só
existem duas classes de objetos: uma
desejada e as demais não.

SEGMENTAÇÃO DE OBJETOS
Também similar ao Reconhecimento de Objetos porém ao invés de
traçar uma caixa ao redor destes o resultado é a seleção dos pixels dos
objetos.

SEGMENTAÇÃO DE IMAGEM
Segmentação de regiões da imagem sem rotulá-las

SEGMENTAÇÃO SEMÂNTICA
Neste tipo de segmentação é necessário rotular cada pixel com uma
classe de objetos.

Linha do
TEMPO

2001
Viola-Jones
2005
HOG
CNN
(AlexNet)
2012
R-CNN
2013
Fast R-CNN
2015
Faster R-CNN
Mask R-
CNN
2017
YOLO
YOLO
9000
2016
SSD

VIOLA-JONES
1.
Classificador binário baseado em
diversos detectores fracos
2. Atributos de Haar são calculados em
janelas de diferentes tamanhos e
localizações
3. Adaboost é utilizado para
selecionar os melhores atributos
4. Classificadores em cascada são
usados para detectar as faces nas
diferentes janelas

VIOLA
JONES

HISTOGRAMA DE GRADIENTES ORIENTADOS
1.
As imagens são pré-processadas
2.
Os gradientes são calculados,
obtendo magnitude e direção.
3. Os vetores de atributos são
calculados
Descrição da distribuição das direções dos gradientes

HOG

HOG
https://medium.com/@ageitgey/machine-learning-is-fun-part-4-modern-face-recognition-with-deep-learning-

● Imagens:
● 1000 classes de objetos
(categorias)
- 1.2M para treino
- 100k para teste

ERRO DE CLASSIFICAÇÃO (ImageNet)
28,2%
2010
15,3%
2012
<2,5%
2017

REDES NEURAIS CONVOLUCIONAIS
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
AlexNet 60 milhões de parâmetros

EXTRAÇÃO DE ATRIBUTOS
ABORDAGEM
TRADICIONAL
REDES
NEURAIS
Extratores de
atributos, fixos
e manuais
Extratores de
atributos,
treináveis
Classificadores,
simples e
treináveis
Classificadores,
treináveis

Largura: 4 unidades
(Pixels)
Altura: 4 unidades
(Pixels)
3 canais de cores
Imagem como
um tensor 4x4x3

Kernels/Filtros Convolucionais
http://colah.github.io/posts/2014-07-Understanding-Convolutions/

ATRIBUTOS DE REDES NEURAIS
CONVOLUCIONAIS PROFUNDAS
São poderosas e transferíveis
São interpretáveis
https://arxiv.org/pdf/1403.6382v3.pdf
https://arxiv.org/abs/1311.290
1

Cantos e junções de bordas/cores
https://courses.cs.washington.edu/

Texturas
similares

Partes de objetos Objeto inteiro com variação de pose

http://playground.tensorflow.org/
Tensorflow
Playground

Utiliza um modelo de regressão
linear para reajustar a caixa de
seleção à imagem
R-CNN
Regiões com Redes Neurais Convolucionais
1.
Gera um conjunto de propostas de
localização para caixas de seleção
2.
Redimensiona as imagens e as envia
para uma versão alterada da AlexNet
3.
4.
Utiliza um SVM para classificar o
objeto contido na caixa de seleção

R-CNN
Regiões com atributos de uma CNN
1 - Imagem
de entrada
2 - Extração das
regiões
propostas (~2k)
3 - Cálculo dos
atributos da
CNN
4 - Classificação
das regiões
região selecionada avião? Não.
pessoa? Sim.
Tigre? Não.

Dificuldades
R-CNN
1 Necessita percorrer a CNN para cada região proposta em
cada imagem.
2
3
O armazenamento dos atributos extraídos das imagens
exige muito espaço.
Necessita o treino de 3 modelos diferentes
separadamente o que prejudica a performance.

FAST R-CNN
1.
Executa a CNN apenas uma vez
sobre a imagem
2.
Compartilha os atributos obtidos
pela CNN entre as regiões propostas
3. Mantém as etapas de classificação
e regressão linear da R-CNN

FAST
R-CNN
Extrator de atributos, classificador, regressor,
todos em um framework unificado

FASTER R-CNN
1.
Promoveu uma melhoria na geração
das regiões propostas
2.
Ocorreu a troca da Selective Search
pela Region Proposal Network
3. Introduz o conceito de caixas de
âncora

FASTER
R-CNN
Fonte: https://arxiv.org/abs/1506.01497

R-CNN x Fast R-CNN x Faster R-CNN
R-CNN Fast R-CNN Faster R-CNN
Tempo por imagem 50 segundos 2 segundos 0,2 segundos
Velocidade 1x 25x 250x
mAP (Precisão média) 66,0% 66,9% 66,9%

Comentários sobre:
R-CNN, Fast R-CNN e Faster R-CNN
mais rápido
Porém
permanece com
2 componentes:
O Faster R-CNN é: mais preciso
RPN classificador

MASK R-CNN
Segmentação a nível do pixel
1. Adiciona uma Rede Totalmente
Convolucional sobre as camadas de
atributos da Faster R-CNN
2.
Gera uma máscara binária que
relaciona o pixel ao objeto
3. Aplicam o RoIAllign para ajustar a
caixa de seleção ao objeto

MASK
R-CNN
Fonte: https://arxiv.org/abs/1703.06870

YOLO
Abordagem diferente dos demais: Analisa a imagem apenas 1 vez.
Divide a imagem em
grids de 13x13 pixels
e cada célula prediz 5
caixas de seleção.
1000 vezes mais rápido que R-CNN
100 vezes mais rápido que Fast R-
CNN

YOLO

YOLO V2 (9000)
O que mudou?
Melhoria da sensibilidade e
da localização de objetos,
mantendo a acurácia da
classificação.
- Adicionaram Batch Normalization e
removeram o Dropout;
- Utilizam caixas de âncora com K-
médias para clusters de dimensões;
- Treino com múltiplas escalas.

SINGLE SHOT DETECTOR
1.
Uma única rede unificada sem o uso
de regiões propostas
2. Utiliza caixas de seleção de
diferentes tamanhos e as ajusta
como parte da predição
3.
Mais rápido e preciso que o YOLO

SSD

YOLOv2
Frames por segundo
MédiadaPrecisãoMédia

LABORATÓRIO
S FAMOSOS

O que esperar
do futuro?

OBRIGADO
https://www.linkedin.com/in/joaovictordias/
jvictordias@gmail.com

Visão Computacional em 30 minutos

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Visão Computacional em 30 minutos