Palestra - CodeCon Visao Computacional.pptx

Visão Computacional
para Não Cientistas
Dr. Ahirton Lopes
Head of Data
Professor de MBA @ FIAP

Dr. Ahirton Lopes
Head of Data
Professor de MBA, Corporate e PSE @ FIAP
5x Most Valuable Professional – AI @Microsoft
Google Developer Expert – Machine Learning
LinkedIn Top Voice
Doutor em Engenharia Elétrica e Computação pela
Universidade Presbiteriana Mackenzie (UPM)
Pesquisador em Machine e Deep Learning

TÓPICOS
Introdução a Visão
Computacional
Como uma máquina pode
“enxergar”? Casos de uso e
problemas comuns na área.
Do Deep Learning a IA
Generativa
Estrutura e modelagem – Quais
técnicas usamos?
Demonstrações
Usos em GenAI para Visão
Computacional.
Progresso em Modelos
Generativos
Atenção e Transformers
para Não Cientistas.
- Soluções, do OpenCV ao Gemini, e funcionamento base;
- Casos de uso – O que são Atenção e Visual Transformers;
- Desafios e soluções comuns (em atualização!)

1N73L163NC14 3 4
H481L1D4D3 D3 53
4D4P74R 4
MUD4NÇ4

5
Programa
Entrada
Saída
Desenvolvedor
Programação

6
Machine
Learning
Entrada
Saída
Esperada
Cientista
de Dados
Programa
Aprendizagem de Máquina (ML)

7
Entrada
Saída
Programa
Execução

Visão Computacional – Como uma
máquina “enxerga”?

Deep Learning
- Uma rede neural profunda consiste em uma hierarquia de camadas, em que cada
camada transforma os dados de entrada em representações mais abstratas (por
exemplo, borda -> nariz -> face).
- A camada de saída combina esses recursos para fazer previsões.

Deep Learning
- Cada camada é representada como uma série de neurônios e, progressivamente, extrai recursos de maior
e maior nível da entrada até que a camada final faça essencialmente uma decisão sobre o que a entrada
mostra;
- Quanto mais camadas a rede tiver, maiores serão as características que ela aprenderá.

Deep Learning
- Ou seja, a rede acaba gerando um sinal de erro que mede a diferença entre as previsões da rede e os
valores desejados e, em seguida, usa-se este sinal de erro para alterar os pesos (ou parâmetros) para que as
previsões fiquem cada vez mais precisas.

Labrador ou frango frito?
PROBLEMAS COMPLEXOS

Visão Computacional
Processamento de Linguagem Natural Robótica
TTS – STT – Fala Computacional
Qual o desafio?
O entendimento de entradas não estruturadas e complexos

Generative Adversarial Networks

Richard Feynman: “O que eu não consigo criar, eu não entendo”
Modelagem Generativa: “O que eu entendo, eu consigo criar!”

Como gerar imagens mais naturais com um computador?
Nossos modelos terão estruturas similares (generativo + inferência)
Geração Inferência
Modelagem Generativa:
Computação Gráfica
Cubo(cor=azul, posição=(x,y,z), tamanho=…)
Cilindro(cor=vermelho, posição=(x’,y’,z’), tamanho=..)
Descrição de
alto nível
Saídas
sensoriais
brutas

Modelos generativos estatísticos são construídos a partir de dados
Conhecimento anterior é necessário, mas há um espectro
Prior Knowledge
(e.g., physics, materials, ..)
+
Data
(e.g., images of bedrooms)
Modelos Generativos Estatísticos
…

Um modelo estatístico generativo é uma distribuição de probabilidade p(x)
• Dados: amostras (por exemplo, imagens de quartos) ;
• Conhecimento prévio: forma paramétrica (por exemplo, gaussiana?), função de perda
(por exemplo, máxima verossimilhança - likelihood), algoritmo de otimização, etc.
É generativo porque a amostragem de p(x) gera novas imagens
Modelos Generativos Estatísticos
probabilidade p(x)
Uma distribuição
de probabilidade
p(x)
Imagem x
…

Discriminativos vs. Generativos
A imagem X é dada.
Objetivo: limite de decisão, via distribuição condicional sobre o
rótulo Y
Ex: regressão logística, rede convolucional etc.
Borda Decisória
Discriminativo: classificar quarto vs. sala de jantar Generativo: gerar X
A entrada X não é dada. Requer
um modelo da distribuição
conjunta sobre X e Y
… …
Y=B , X=
Y=B , X=
Y=D , X=
Y=D , X=
Y=B , X= Y=D , X=

PROGRESSO EM MODELOS GENERATIVOS

Progresso em Modelos Generativos

Progresso em Problemas Inversos
Menon et al, 2020 Liu al, 2018
P(high resolution | low resolution) P(full image| mask)
P(color image| greyscale)
Antic, 2020

Progresso em Problemas Inversos

Imagens e Texto
P(image | caption)

Visual RAG (Retrieval Augmented Generation)

VISUAL TRANSFORMERS
• Os ViTs representam imagens
como uma sequência de
patches. Um patch é uma
pequena região retangular de
uma imagem. O tamanho do
patch é normalmente 16x16
pixels.
• Depois que a imagem for dividida
em patches, cada patch é
representado como um vetor. O
vetor representa os recursos do
patch. Os recursos são
normalmente extraídos usando
uma rede neural convolucional
(CNN).
• A CNN aprende a extrair
características importantes para a
classificação de imagens.
• Os vetores de cada patch são
então alimentados em um
codificador Transformer.
• O codificador Transformer é uma
pilha de camadas de autoatenção.
A autoatenção é um mecanismo
que permite ao modelo aprender
dependências de longo alcance
entre os patches.
• Isto é importante para a
classificação de imagens, pois
permite ao modelo aprender
como as diferentes partes de uma
imagem contribuem para o seu
rótulo geral.

VISUAL TRANSFORMERS
• A saída do codificador Transformer é uma sequência de
vetores. Esses vetores representam as características da
imagem. Os recursos são então usados para classificar a
imagem.

VISUAL TRANSFORMERS
• ViTs podem aprender
características globais de
imagens. Isso porque
eles são capazes de
atender qualquer parte
da imagem,
independente de sua
localização.
• Particularmente útil para
tarefas como
classificação de imagens,
detecção de objetos e
compreensão de cenas.

VISUAL TRANSFORMERS
• Os ViTs não são tão sensíveis ao aumento de dados
quanto os CNNs. Isso significa que eles podem ser
treinados em conjuntos de dados menores;
• ViTs são computacionalmente caros para treinar.
Isso ocorre porque eles possuem um grande
número de parâmetros;
• Os ViTs não são tão eficientes quanto os CNNs no
processamento de imagens. Isso porque eles
precisam atender a cada parte da imagem, mesmo
que não seja importante para a tarefa em questão;
• Os ViTs não são tão interpretáveis quanto os CNNs.
Isso significa que é difícil entender como eles fazem
previsões.

VISUAL TRANSFORMERS
• O ViT usa um conjunto fixo de
recursos de entrada e um atraso
de tempo variável;
• O ViT foi projetado para
processar os dados de entrada
em uma janela de tempo fixa;
• O ViT é bastante útil para o
propósito de processar dados
sequenciais.

• O que queremos para o futuro em nossos sistemas de
Visão Computacional?
• Inteligibilidade;
• Conscientização sobre Dados (Data Awareness);
• Acontabilidade;
• Proteção aos Direitos Humanos;
• Segurança.

OBRIGADO
ahirtonlopes@gmail.com

Palestra - CodeCon Visao Computacional.pptx

Mais conteúdo relacionado

Semelhante a Palestra - CodeCon Visao Computacional.pptx

Mais de Ahirton Lopes

Palestra - CodeCon Visao Computacional.pptx

Notas do Editor