O reconhecimento de contexto a partir de imagens de faces por algoritmos de aprendizado de máquina (AM) é uma tarefa desafiadora e complexa que requer não só dados e poder computacional, mas também estudos sociais e estatísticos das distribuições dos dados. Atualmente as redes neurais profundas (Deep Learning - DL) têm se destacado como soluções para que a tarefa de reconhecimento de informações de contexto seja cada vez mais uma realidade, conseguindo inferir diversos tipos de informações, entre elas a idade, gênero e raça de uma pessoa. Nesta palestra, será apresentada uma abordagem de deep learning, utilizando Python e TensorFlow, que infere através da imagem de uma face humana, informações demográficas (ex. idade, gênero e raça). Além disso, iremos falar sobre vieses raciais e análise dos dados para construção de um modelo robusto e abrangente e sobre a aplicação dessa abordagem no mercado.
4. Introdução
Objetivo da palestra
Entender como realizar detecção / previsão automática de algumas informações demográficas de pessoas através de
imagens de face usando OpenCV, Deep Learning e Python.
Nos últimos anos, houve um aumento no número de mídia digitais e avanços nas
tecnologias de IA para classificação e detecção;
O reconhecimento de contexto a partir de imagens de faces por IA é uma tarefa
desafiadora e complexa;
Requer:
⬡ Dados e poder computacional;
⬡ Modelos robusto de aprendizagem;
⬡ Estudos sociais e estatísticos.
4
- Visão Computacional [VC]
- Deep Learning [DL]
- Redes convolucionais
Idade
Sexo
Raça
5. Visão Computacional
“Utilização de computadores para
emular a visão humana, incluindo
o aprendizado e a capacidade de
fazer inferências, agindo com base
em informações visuais.”
5
Visão Artificial, Visão de Máquina, Visão Robótica,
Visão de Computador, etc....
6. Visão Computacional
Áreas que fornecem subsídios:
⬡ Processamento de Imagens
⬡ Reconhecimento de Padrões
⬡ Computação Gráfica
⬡ Inteligência Artificial
⬡ Visão Biológica
⬡ Psicologia (Percepção)
6
7. Visão Computacional
O processo de Visão em geral, abrange:
1. Visão em baixo-nível:
⬡ Pré-processamento da imagem – filtros, realce, restauração, etc;
2. Visão em nível intermediário:
⬡ Extração de Características – segmentação e descrição;
3. Visão em alto-nível:
⬡ Uso de conhecimento para fazer inferências - Análise de imagens,
inteligência artificial, etc.
7
8. Deep
Learning
ou Aprendizado Profundo, é uma sub-área de IA. Mais
especificamente, trata de Redes Neurais Artificiais, uma
área que busca simular computacionalmente o cérebro
enquanto máquina de aprendizado juntamente com
abordagens de pré-processamento de dados.
8
9. Deep Learning
⬡ Permitir que sistemas e máquinas sejam capazes de observar
padrões e correlações em uma grande quantidade de
informações;
⬡ Tais algoritmos conseguem repetidamente executar análises
desses dados, o que gera uma capacidade maior e mais
profunda de aprendizado.
9
10. Como as redes aprendem?
GoogleTeach: https://teachablemachine.withgoogle.com/
2 | 255 | 254 | 235 | 0 | 0 | ...
Entrada
perceptron multicamadas (MLP)
1 canal de cor
3 canais de cores
12. Como as redes aprendem?
Raça
Idade
Sexo
...
Filtros conv: https://setosa.io/ev/image-kernels/
Como funcionam as redes convolucionais: https://poloclub.github.io/cnn-explainer/
16. Precisamos falar de vieses
“Viés ou tendência é um peso desproporcional a favor ou contra uma coisa,
pessoa ou grupo comparado a outro, geralmente de uma maneira considerada
injusta.”
Como lidar com vieses na inteligência artificial (e nos seres humanos)
Jake Silberg e James Manyika, 2019. **
** https://www.mckinsey.com/featured-insights/artificial-intelligence/tackling-bias-in-artificial-intelligence-and-in-humans/pt-br
Artigo da base de dados: https://arxiv.org/abs/1908.04913
18. Abordagem para treinamento
18
1 3 5
6
4
2
Detecção e recorte de
todas as faces do dataset
Implementação de
Rede Neural
Profunda Lite* Treinamento
Tratamento das
imagens geradas
Preparação de modelo
para múltiplas saídas
Avaliação do
Modelo
*https://arxiv.org/abs/1704.04861
Mobile
Net v2
19. Abordagem utilizada inferência
19
Imagem de entrada
1
Detecção e extração
da região do rosto
2
Utiliza a rede de
reconhecimento
de informações
em faces
3
Projeta
Informações
[20 -30 anos]
Asiático
Masculino