Colaboradores: André Amaral e Ronaldo Maciel.
Facilitador: Éldman Nunes.
Fundamentos de
Ciência de Dados
e Inteligência
Artificial
Fundamentos de Ciência de Dados e Inteligência Artificial
Colaboradores: André Amaral e Ronaldo Maciel
Facilitador: Éldman Nunes
Introdução Fundamentos
Evolução no
tempo
Aplicações
Práticas
Seminário:VisãoComputacional
Considerações
Finais
2024
Visão Humana:
A capacidade visual humana é uma habilidade sensorial
que permite aos seres humanos interpretar o ambiente
visual que os cerca. Essa habilidade é mediada pelo
sistema visual humano, um sistema altamente complexo e
integrado.
Visão das Máquinas ou Computacional:
Geralmente baseada em técnicas de Processamento de
Imagem e aprendizado de máquina, como Redes Neurais
Convolucionais (CNNs). Essas técnicas permitem algumas
semelhanças com a visão humana, em que os
computadores realizam tarefas como detecção de
objetos, reconhecimento facial, rastreamento de
movimento e reconhecimento de fala.
Introdução
O que é:
A Visão Computacional é o processo de modelagem e
replicação da visão humana usando software e hardware.
É uma área interdisciplinar que envolve varias expertise de
pesquisa como a matemática, estatística, aprendizado de
máquina, deep learning, Processamento de Imagem,
geometria computacional, visão tridimensional (3D),
processamento de sinais, visão robótica, física ...
Ramo que se encontra na convergência da ciência da
computação e inteligência artificial. Seu propósito é
analisar, interpretar e extrair informações relevantes de
imagens e vídeos, visando facilitar a tomada de decisões
ou gerar dados úteis para futuras aplicações.
Simular a inteligência humana
Inteligência Artificial
Machine Learning
Não-Supervisionado
Supervisionado
por Reforço
Semi-Supervisionado
ANN, CNN, RNN, LSTM e GRU
Deep Learning
Detecção e Correspondência
Visão Computacional
Processamento de Imagem
Segmentação
Reconstrução,
Fundamentos: Visão Computacional
Nessecontexto,
a Visão Computacional busca replicar/imitar a capacidade visual
humana.
Assim a Visão Computacional busca aproximar seus parâmetros e
objetivos aos da Visão Humana, fazendo uso de algoritmos complexos
de técnicas de Processamento de Imagem, aplicações de filtros e
detecção de altas frequências em sinais para identificar bordas, formas e
contornos nos ambientes com maior facilidade.
Fundamentos: Visão Computacional
Mas, que é uma imagem?
Uma imagem é uma representação visual de um objeto,
cena ou conceito, capturada por dispositivos como
câmeras, scanners ou sensores.
As imagens podem ser 2D
ou 3D, colorida ou em
preto e branco, utilizadas
em diversas áreas como
medicina, astronomia e
computação gráfica.
Fundamentos: Visão Computacional
Mas, que é uma imagem?
Tecnicamente, uma imagem é uma matriz de valores de pixels,
onde cada pixel contém informações sobre cor ou intensidade de
luz.
Fundamentos: Visão Computacional
O que é um pixel?
Os pixels constituem os elementos fundamentais de uma imagem,
representando sua estrutura primária. Cada imagem é composta por um
conjunto de pixels, sendo impossível uma granularidade mais fina do que o
próprio pixel.
Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em
um local específico na imagem.
Se concebermos uma imagem como
uma grade, cada quadrado nessa grade
abriga um único pixel. A maioria dos
pixels é categorizada em duas
representações: escala de cinza e cor.
Branco - RGB (255,255,255)
Azul - RGB (0,0,255)
Vermelho - RGB (255,0,0)
Verde - RGB (0,255,0)
Amarelo - RGB (255,255,0)
Magenta - RGB (255,0,255)
Ciano - RGB (0,255,255)
Preto - RGB (0,0,0)
Fundamentos: Visão Computacional
O que é um pixel?
Os pixels constituem os elementos fundamentais de uma imagem,
representando sua estrutura primária. Cada imagem é composta por um
conjunto de pixels, sendo impossível uma granularidade mais fina do que o
próprio pixel.
Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em
um local específico na imagem.
Se concebermos uma imagem como
uma grade, cada quadrado nessa grade
abriga um único pixel. A maioria dos
pixels é categorizada em duas
representações: escala de cinza e cor.
Branco - RGB (255,255,255)
Azul - RGB (0,0,255)
Vermelho - RGB (255,0,0)
Verde - RGB (0,255,0)
Amarelo - RGB (255,255,0)
Magenta - RGB (255,0,255)
Ciano - RGB (0,255,255)
Preto - RGB (0,0,0)
Fundamentos: Visão Computacional
O que é um pixel?
Os pixels constituem os elementos fundamentais de uma imagem,
representando sua estrutura primária. Cada imagem é composta por um
conjunto de pixels, sendo impossível uma granularidade mais fina do que o
próprio pixel.
Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em
um local específico na imagem.
Se concebermos uma imagem como
uma grade, cada quadrado nessa grade
abriga um único pixel. A maioria dos
pixels é categorizada em duas
representações: escala de cinza e cor.
Branco - RGB (255,255,255)
Azul - RGB (0,0,255)
Vermelho - RGB (255,0,0)
Verde - RGB (0,255,0)
Amarelo - RGB (255,255,0)
Magenta - RGB (255,0,255)
Ciano - RGB (0,255,255)
Preto - RGB (0,0,0)
Fundamentos: Visão Computacional
O que é Processamento de Imagem?
É um ramo da Visão Computacional dedicado à manipulação e análise de
imagens digitais. Envolve a aplicação de técnicas matemáticas, estatísticas e
computacionais para transformar e analisar imagens digitais, visando extrair
informações relevantes ou aprimorar sua qualidade.
Fundamentos: Visão Computacional
O que é Processamento de Imagem?
Fundamentos: Visão Computacional
O Processamento de Imagem geralmente possui as seguintes fases:
Pós-
processamento:
ao fim do ciclo
de
Processamento
de Imagem, a
imagem
resultante é pós
processada para
melhorar
aparência,
remover artefatos
ou aplicar efeitos
especiais.
6
Classificação:
essa etapa
classifica as
regiões ou
objetos em
categorias pré-
determinadas
com base em
suas
características
extraídas.
5
Extração de
Características:
aqui são
extraídas as
informações mais
relevantes de
cada região ou
objeto
segmentado tais
como: forma,
tamanho, cor,
textura entre
outros.
4
Segmentação:
essa etapa tem a
função de dividir
a imagem em
regiões ou
objetos de
interesse com
base em
propriedade de
intensidade, cor
ou textura.
3
Pré-
processamento:
a imagem é
normalizada,
filtrada e
corrigida para
remover ruídos e
imperfeições ou
distorções.
2
Aquisição: nesta
etapa a imagem
é obtida por
meios de
dispositivos de
aquisição como
uma câmera,
scanner ou
sensor.
1
Fases
O que é Processamento de Imagem?
Fundamentos: Visão Computacional
O Processamento de Imagem geralmente possui as seguintes fases:
Pós-
processamento:
ao fim do ciclo
de
Processamento
de Imagem, a
imagem
resultante é pós
processada para
melhorar
aparência,
remover artefatos
ou aplicar efeitos
especiais.
6
Classificação:
essa etapa
classifica as
regiões ou
objetos em
categorias pré-
determinadas
com base em
suas
características
extraídas.
5
Extração de
Características:
aqui são
extraídas as
informações mais
relevantes de
cada região ou
objeto
segmentado tais
como: forma,
tamanho, cor,
textura entre
outros.
4
Segmentação:
essa etapa tem a
função de dividir
a imagem em
regiões ou
objetos de
interesse com
base em
propriedade de
intensidade, cor
ou textura.
3
Pré-
processamento:
a imagem é
normalizada,
filtrada e
corrigida para
remover ruídos e
imperfeições ou
distorções.
2
Aquisição: nesta
etapa a imagem
é obtida por
meios de
dispositivos de
aquisição como
uma câmera,
scanner ou
sensor.
1
Fases
Todas essas fases são executadas
por meio de algoritmos de
Processamento de Imagem que
podem ser implementados em
linguagem de programação
especifica ou em software
dedicados. Possuindo atuação em
várias áreas como medicina,
engenharia, segurança, dentre
outros.
O que é Processamento de Imagem?
Fundamentos: Visão Computacional
O Processamento de Imagem geralmente possui as seguintes fases:
Pós-
processamento:
ao fim do ciclo
de
Processamento
de Imagem, a
imagem
resultante é pós
processada para
melhorar
aparência,
remover artefatos
ou aplicar efeitos
especiais.
6
Classificação:
essa etapa
classifica as
regiões ou
objetos em
categorias pré-
determinadas
com base em
suas
características
extraídas.
5
Extração de
Características:
aqui são
extraídas as
informações mais
relevantes de
cada região ou
objeto
segmentado tais
como: forma,
tamanho, cor,
textura entre
outros.
4
Segmentação:
essa etapa tem a
função de dividir
a imagem em
regiões ou
objetos de
interesse com
base em
propriedade de
intensidade, cor
ou textura.
3
Pré-
processamento:
a imagem é
normalizada,
filtrada e
corrigida para
remover ruídos e
imperfeições ou
distorções.
2
Aquisição: nesta
etapa a imagem
é obtida por
meios de
dispositivos de
aquisição como
uma câmera,
scanner ou
sensor.
1
Fases
Todas essas fases são executadas
por meio de algoritmos de
Processamento de Imagem que
podem ser implementados em
linguagem de programação
especifica ou em software
dedicados. Possuindo atuação em
várias áreas como medicina,
engenharia, segurança, dentre
outros.
A História:
“Embora a Visão Computacional (CV) tenha explodido
apenas recentemente, certamente não é um campo
científico novo – (o momento inovador aconteceu em 2012,
quando AlexNet ganhou o ImageNet).” Rostyslav Demush
(Hacker Noon), 2016.
AlexNet nome dado arquitetura de
rede neural convolucional (CNN),
projetada por Alex Krizhevsky.
Evolução no tempo
A História da Visão Computacional:
Década de 1950:
1959: os neurofisiologistas David Hubel e Torsten Wiesel descreveram, em publicação
com o título “Campos receptivos de neurônios únicos no córtex estriado do gato”
começaram a colaborar na observação de respostas cerebrais a imagens em gatos,
destacando o processamento inicial de formas simples como bordas.
Década de 1960:
1959-1963: Russell Kirsch desenvolveu dispositivo que permitia transformar imagens em
grades de números - então surge a linguagem binária que as máquinas podiam
entender. E por causa do trabalho dele que na atualidade é possível processar imagens
digitais de variadas formas. Desenvolvimento da primeira tecnologia de digitalização de
imagens.
1963: Computadores transformam imagens bidimensionais em formas
tridimensionais e o surgimento da Inteligência Artificial (IA) como campo
acadêmico. O doutorando, Lawrence Roberts em sua publicação “Percepção
mecânica de sólidos tridimensionais” discute amplamente sobre o tema e é
considerado um dos precursores da Visão Computacional moderna.
A História:
Evolução no tempo
A História da Visão Computacional:
Década de 1950:
1959: os neurofisiologistas David Hubel e Torsten Wiesel descreveram, em publicação
com o título “Campos receptivos de neurônios únicos no córtex estriado do gato”
começaram a colaborar na observação de respostas cerebrais a imagens em gatos,
destacando o processamento inicial de formas simples como bordas.
Década de 1960:
1959-1963: Russell Kirsch desenvolveu dispositivo que permitia transformar imagens em
grades de números - então surge a linguagem binária que as máquinas podiam
entender. E por causa do trabalho dele que na atualidade é possível processar imagens
digitais de variadas formas. Desenvolvimento da primeira tecnologia de digitalização de
imagens.
1963: Computadores transformam imagens bidimensionais em formas
tridimensionais e o surgimento da Inteligência Artificial (IA) como campo
acadêmico. O doutorando, Lawrence Roberts em sua publicação “Percepção
mecânica de sólidos tridimensionais” discute amplamente sobre o tema e é
considerado um dos precursores da Visão Computacional moderna.
A História:
Evolução no tempo
A História da Visão Computacional:
Década de 1980:
1982: Neurocientista David Marr ao publicar o artigo com o título “Visão: Uma
investigação computacional sobre a representação humana e processamento
de informação visual”, com base nas ideias de Hubel e Wiesel, estabelece que a
visão é hierárquica, introduzindo algoritmos para detectar bordas, cantos,
curvas e formas básicas. Introduziu uma estrutura para visão onde algoritmos de baixo
nível que detectam bordas, curvas, cantos, etc., usados como trampolins para uma
compreensão de alto nível dos dados visuais.
Década de 1970:
1974: Introdução da tecnologia de Reconhecimento Ótico de Caracteres (OCR),
permitindo o reconhecimento de textos impressos em qualquer fonte.
Desenvolvimento do Reconhecimento Inteligente de Caracteres (ICR) para decifrar
textos escritos à mão usando Redes Neurais.
No mesmo período o japonês Kunihiko Fukushima desenvolve a Neocognitron, uma
Rede Neural com camadas convolutivas. O Neocognitron é indiscutivelmente a
primeira Rede Neural com reais característica que define ser profundo.
Evolução no tempo
A História da Visão Computacional:
Década de 1980:
1982: Neurocientista David Marr ao publicar o artigo com o título “Visão: Uma
investigação computacional sobre a representação humana e processamento
de informação visual”, com base nas ideias de Hubel e Wiesel, estabelece que a
visão é hierárquica, introduzindo algoritmos para detectar bordas, cantos,
curvas e formas básicas. Introduziu uma estrutura para visão onde algoritmos de baixo
nível que detectam bordas, curvas, cantos, etc., usados como trampolins para uma
compreensão de alto nível dos dados visuais.
Década de 1970:
1974: Introdução da tecnologia de Reconhecimento Ótico de Caracteres (OCR),
permitindo o reconhecimento de textos impressos em qualquer fonte.
Desenvolvimento do Reconhecimento Inteligente de Caracteres (ICR) para decifrar
textos escritos à mão usando Redes Neurais.
No mesmo período o japonês Kunihiko Fukushima desenvolve a Neocognitron, uma
Rede Neural com camadas convolutivas. O Neocognitron é indiscutivelmente a
primeira Rede Neural com reais característica que define ser profundo.
Evolução no tempo
A História da Visão Computacional:
Década de 1990:
Crescimento da internet e disponibilização de grandes volumes de imagens online.
Tem-se a exploração inicial de programas de reconhecimento facial.
1989-1990: Yann LeCun, cientista francês, aplica algoritmo de aprendizagem em
estilo backprop à arquitetura de Fukushima, lançando o LeNet-5, primeiro ConvNet
moderno, quando introduzido componentes ainda usados nas CNNs atuais. Seu
trabalho resultou na criação do dataset MNIST de dígitos manuscritos.
1997: O professor de Berkley Jitendra Malik e seu aluno Jianbo Shi exploram o
agrupamento perceptual usando algoritmo de teoria dos grafos. O trabalho consiste
em fazer com que as máquinas seccionem a imagem em partes sensíveis - com
uso de um algoritmo de teoria dos grafos.
Evolução no tempo
A História da Visão Computacional:
Década de 2000:
2001: Introdução da estrutura de detecção facial em tempo real por Paul Viola e
Michael Jones. Surge as primeiras aplicações de reconhecimento facial em
tempo real. Padronização de marcação e anotação de conjuntos de dados visuais.
2009: Desenvolvimento do Deformable Part Model (DPM) por Pedro Felzenszwalb. Ele
empregou a abordagem de detectar cada "parte" individual do objeto,
resultando em uma maior precisão.
2006: Lançamento do projeto Pascal VOC (Visual Object Classes), fornecendo
conjunto de dados padronizado e métricas para treinamento e teste de
reconhecimento de classes de objetos. Além de métricas de avaliação consistentes
para comparar o desempenho de diferentes métodos.
Evolução no tempo
A História da Visão Computacional:
Década de 2010:
2010: Início da Competição de Reconhecimento Visual em Grande Escala
ImageNet (ILSVRC), com isso, a disponibilidade do conjunto de dados ImageNet,
base para Redes Neurais Convolucionais (CNNs) e modelos de Deep Learning.
2012: Equipe da Universidade de Toronto inscreve a CNN AlexNet no ILSVRC, marcando
um ponto de virada na popularidade das Redes Neurais
Convolucionais (reduzindo significativamente as taxas de erro). AlexNet nome dado arquitetura de
rede neural convolucional (CNN),
projetada por Alex Krizhevsky.
Década de 2020:
Os avanços em Redes Neurais Convolucionais (CNNs) e técnicas de Deep Learning
permite o aumento da precisão em identificação e classificação de objetos,
superando a capacidade humana em certas tarefas de reação a estímulos
visuais e o continuo desenvolvimento de novos conjuntos de dados e aplicações práticas
em diversas áreas.
Evolução no tempo
A História da Visão Computacional:
Essa linha do tempo destaca os marcos chave na evolução da
Visão Computacional (CV), desde os primeiros
experimentos nos anos 1950 até os avanços significativos
na última década (2020).
Evolução no tempo
Aplicações da Visão Computacional:
Transformando setores com aplicações
inovadoras, como diagnósticos médicos
mais eficientes, alertas antecipados em
veículos autônomos, revolucionando a
segurança pública, explora a
importância da detecção de pedestres
nos sistemas de transporte inteligente e
aprimoramento da indústria, como o
controle de qualidade em linhas de
produção, são alguns dos setores que
estão sendo impulsionados por algoritmos
de Visão Computacional.
Com mercado projetado para atingir US$
17,25 bi em 2024 e US$ 39 bi para 2029.
Essa tecnologia redefine a interação com
a digitalização, destacando sua
versatilidade e impacto significativo.
Aplicações Práticas
Aplicações da Visão Computacional:
Transformando setores com aplicações
inovadoras, como diagnósticos médicos
mais eficientes, alertas antecipados em
veículos autônomos, revolucionando a
segurança pública, explora a
importância da detecção de pedestres
nos sistemas de transporte inteligente e
aprimoramento da indústria, como o
controle de qualidade em linhas de
produção, são alguns dos setores que
estão sendo impulsionados por algoritmos
de Visão Computacional.
Com mercado projetado para atingir US$
17,25 bi em 2024 e US$ 39 bi para 2029.
Essa tecnologia redefine a interação com
a digitalização, destacando sua
versatilidade e impacto significativo.
Aplicações Práticas
Aplicações Práticas
Visão Computacional na Prática:
Aplicações Práticas
Visão Computacional na Prática:
Alimentício Automobilístico Farmacêutico Bens de Consumo
SmartM: Automatização do
Controle de Qualidade na
Produção de Baterias
Visão Computacional na Prática:
Alimentício
INSPEÇÃO EMBALAGEM DE CONE DE SORVETE
Equipado com seis câmeras de alta resolução e
iluminação própria, o sistema verifica
simultaneamente seis embalagens. Analisando as
imagens, identifica defeitos, verifica informações
ausentes ou trocadas, e assegura a presença correta
dos cones na linha. A iluminação é fundamental
para a qualidade e resolução das imagens,
assegurando uma inspeção precisa.
Aplicações Práticas
Aplicações Práticas
Visão Computacional na Prática:
Automobilístico
INSPEÇÃO AUTOMÁTICA PEÇAS USINADAS
Com uma estação de inspeção, gera relatórios e
estatísticas, identificando tipos de defeitos. O operador
posiciona a peça, aciona a análise, e o sistema indica o
resultado. A inspeção inclui verificação de
posição do anel elástico, orientação correta do
rolamento magnético para freios ABS, presença e
dimensões de roscas e chanfros de entrada, além do
controle do acabamento do furo cônico,
identificando ranhuras.
Visão Computacional na Prática:
Farmacêutico
INSPEÇÃO NO TECIDO DE GAZE
A inspeção do tecido de gaze ocorre por meio de
uma câmera que analisa diretamente a trama. O
sistema, integrado à máquina de corte, utiliza
iluminação backlight para aprender a configuração
correta da trama. Usando um algoritmo alemão Halcon,
é capaz de identificar falhas na trama como
ausência de alguma linha na trama. aceitando
pequenas variações nas distâncias dos furos. Em caso
de detecção de defeitos, a posição é
memorizada, e a máquina realiza o rejeito sem
interrupção.
Aplicações Práticas
Visão Computacional na Prática:
Bens de Consumo
INSPEÇÃO PARA ALINHAMENTO DO CORTE NAS
EMBALAGENS
Realizando inspeção no alinhamento do corte das
embalagens, tanto vertical quanto
horizontalmente, e verificando a presença e
posicionamento correto do incerto. Em caso de defeitos
detectados, o sistema automaticamente rejeita o
produto defeituoso. O sistema de visão, equipado
com 3 câmeras, opera a 240 produtos por
minuto, sendo possível chegar a capacidade de
800 produtos por segundo, garantindo eficiência na
inspeção.
Aplicações Práticas
SmartM: Automatização do Controle de
Qualidade na Produção de Baterias
• Introdução
• Justificativa
• Materiais e Métodos
• Resultados e Discussão
• Desafios
• Conclusão
• Referências
SmartM: Introdução
Aplicações Práticas
SmartM: Introdução
O que é o projeto SmartM - Pad Printer;
Processo Atual: Inspeção visual na produção de baterias, uso
de gabaritos OHP e medições amostrais;
Problemas Identificados: Erros humanos e ineficiências na
inspeção visual;
Transição para a Necessidade de Automatização: Introdução
da visão computacional como uma solução potencial.
Inspeção visual, operador usando gabarito para análise de dimensões.
Aplicações Práticas
SmartM:
Objetivos do Projeto: Desenvolver um sistema de visão
computacional integrado para automatizar a inspeção de qualidade.
Bancada proposta
Impacto Tecnológico e Industrial: Avanços na automatização
do controle de qualidade.
Benefícios Esperados: Aumento da eficiência e precisão, redução
de retrabalho e descarte, melhoria na rastreabilidade do produto.
Justificativa
Aplicações Práticas
SmartM:
Fase Informacional: descrição do levantamento de requisitos técnicos e
especificações das baterias.
Fase Básica/Preliminar: implementação inicial, calibração da câmera,
treinamento de redes neurais.
Fase Conceitual: pesquisa de algoritmos e técnicas de Deep Learning
aplicáveis à visão computacional.
Exemplo de célula que falhou no teste
Caractere parcialmente apagado
Bateira com a estampagem e TAB CUT
Fase de Execução/Validação: testes em ambientes reais, ajuste fino das
implementações, garantia de precisão.
Levantadas opções de tecnologias e realizados estudos de
viabilidade e eficácia:
Materiais e Métodos
Aplicações Práticas
SmartM: Materiais e Métodos
Bancada Mecânica de Inspeção
Câmera serial de alta resolução
Bandeja para inspeção
Integração da comunicação
Light Tower integrada na bancada de inspeção
Aplicações Práticas
SmartM: Materiais e Métodos
Equipamentos Valor unitário
Bancada Mecânica de Inspeção R$ 24.120,00
Câmera Industrial de alta resolução R$ 9.838,69
Placa embarcada com microcontrolador STM R$ 1.176,00
LightTower R$ 600,00
Gabinete WorkStation DELL R$ 13.000,00
Gabinete WorkStation DELL R$ 13.000,00
Monitor da Bancada R$ 1.452,29
Teclado R$ 100,00
TOTAL R$ 63.286,98
Tabela dos materiais e de seus valores unitários.
Aplicações Práticas
SmartM: Materiais e Métodos
Software:
A concepção da solução para inspeção de baterias (TAB CUT e Estampa) envolve a criação de uma aplicação, o uso
de recursos mecânicos e eletrônicos onde a parte que compete a software é composta por uma aplicação desktop
para configuração, execução e monitoramento da operação de inspeção de bateria. A parte do protótipo que
consiste na aplicação desktop foi dividido em 3 módulos:
Battery Model Configuration
Analytics
Inspection
Aplicações Práticas
SmartM: Materiais e Métodos
Bibliotecas e Redes Neurais:
Juntamente com a aplicação desktop, outros recursos se fazem necessários para a inspeção, algumas bibliotecas de
software e redes neurais estão sendo usadas de forma integrada com intuito de realizar a identificação individual
de cada bateria no pack, segmentação da imagem, medição do tab cut e avaliação da qualidade de
impressão.
Aplicações Práticas
SmartM: Materiais e Métodos
Mask R-CNN, DeepLabV3+ e Retina Net:
Mask R-CNN e DeepLabV3: Segmentações RetinaNet: Detecção de piscinas
Aplicações Práticas
SmartM: Materiais e Métodos
Aplicação das técnicas no projeto.
A concepção da solução para inspeção de baterias (TAB CUT e Estampa) envolve a criação de uma aplicação, o uso
de recursos mecânicos e eletrônicos onde a parte que compete a software é composta por uma aplicação desktop
para configuração, execução e monitoramento da operação de inspeção de bateria. A parte do protótipo que
consiste na aplicação desktop foi dividido em 3 módulos:
Processo de anotação de imagens Output da rede Mask R-CNN Output da rede RetinaNet, libs e redes
Aplicações Práticas
SmartM:
Eletrônica Embarcada: elaboração de um o sistema eletrônico para o funcionamento do Tower
Light, de modo que este dispositivo deve gerar os alertas visuais para a engenharia agir de forma
rápida e assertiva nos problemas que a máquina deve apresentar durante o processo de uso.
Software: com o desenvolvimento do sistema de visão, aprendizado da rede, correta iluminação
e calibração da câmera se espera uma assertividade de aproximadamente 95% na identificação das
baterias boas e ruins, assim como testado e validado em ambiente laboratorial.
Mecânica: a mecânica contempla uma série de preocupações em relação às normas de segurança
do trabalho devido à ergonomia, qualidade, meio ambiente e aterramento adequado da estrutura.
Resultados e Discussão
Aplicações Práticas
SmartM:
1. Aumento da eficiência ao reduzir a necessidade de retrabalho;
Output da tela de inspeção
Sistema Pick-By-Light
Bancada Final
2. Redução ou até eliminação de descarte relacionado a essa etapa específica do processo;
3. Possibilidade de rastreabilidade do produto;
6. Relatórios analíticos de peças fora e dentro do padrão de qualidade.
4. Inspeção de todas as baterias em ambos os critérios, impressão e TAB CUT;
5. Diminuição da margem de erros causados pela capacidade de operação humana;
Resultados e Discussão
Aplicações Práticas
SmartM:
· Necessidade de realizar teste em campo.
· Desafio relacionado ao tempo de ciclo de operação do sistema (objetivo de 15 segundos).
· Progresso na redução do tempo de ciclo, mas ainda não atingindo o tempo esperado.
· Evidência de desafios tecnológicos reais e geração de elementos inovadores.
· Implementação de algoritmos do estado da arte em um protótipo funcional.
· Uso de marca d'água verde ou vermelha para facilitar a interpretação do status da bateria pelo operador.
· Problemas com o alto tempo do ciclo total de inspeção e travamento durante treinamento da rede.
· Desligamento do equipamento devido a problemas na fonte de alimentação.
· Necessidade de atualização do TensorFlow e do driver da placa de vídeo para resolver problemas de baixa performance.
· Objetivo de alcançar aproximadamente 95% de assertividade na identificação das baterias.
· Importância da aprendizagem da rede, iluminação adequada, e calibração da câmera.
· Necessidade de redes neurais para segmentação correta do TAB CUT para alta precisão da medição.
Implementação de
Melhorias no Sistema de
Visão Computacional:
Aplicação Prática e Visão
Computacional:
Desafios na Migração de
Plataforma de
Desenvolvimento de Linux
para Windows:
Assertividade do Sistema
de Visão:
Medição do TAB CUT e
Identificação de Falha de
Estampa:
Desafios
Aplicações Práticas
SmartM:
Visando trazer, uma melhoria continua no processo de produção da planta da SMART
Modular (SMARTM) e um aprimoramento no fluxo atual, o resultado do uso das tecnologias,
pôde ser verificado na apresentação visual da inspeção realizada pelos algoritmos onde as
estampas das baterias são mostradas com uma marca d’agua verde ou vermelha, a
depender da análise realizada, facilitando assim a interpretação pelo operador do status da
bateria.
Enfatizando que esse conceito de aprendizado de rede e a criação de algoritmos à suportar
questões do sistema de visão são elementos totalmente novos e que vem sendo explorados
em diversas iniciativas, no entanto, não é diferente desse projeto que visa como
resultado final uma máquina extremamente moderna capaz de inovar o processo
de manufatura, aumentando o nível qualidade e eficiência da inspeção além uma
operação com menor custo beneficiando o aumento da competitividade da SMARTM no
mercado.
Conclusão
Aplicações Práticas
Crescimento e Impacto no Mercado: a visão computacional está experimentando um
crescimento exponencial, com aplicações se expandindo para diversos setores, como
automotivo, saúde, segurança e manufatura. Esta tendência é impulsionada por
avanços contínuos em IA e machine learning, tornando as soluções de Visão
Computacional mais eficientes e acessíveis.
Inovação e Desenvolvimento Tecnológico: os
desenvolvimentos em hardware, como GPUs
avançadas, e em software, através de algoritmos
sofisticados, estão abrindo novas possibilidades
para aplicações de Visão Computacional.
Estes avanços estão não apenas melhorando a
eficiência e precisão mas também possibilitando
novas funcionalidades e aplicações.
Desafios Futuros e Oportunidades: enquanto o campo avança, surgem desafios
relacionados à privacidade de dados, ética e precisão. Contudo, esses desafios
também representam oportunidades significativas para inovação e pesquisa.
Considerações Finais
Referências:
BARONE, Dante; BOESING, Ivan. Inteligência Artificial: Diálogos entre Mentes e Máquinas. 1ª. ed. [S. l.]: Age, 2015.
309p.
AFTD, Equipe. Cientista revolucionário da computação Russell Kirsch morre após jornada com FTD. AFTD, 2020.
Disponível em: https://www.theaftd.org/pt/posts/front-page/revolutionary-computer-scientist-russell-kirsch-dies-
after-journey-with-ftd/. Acesso em: 28 de dezembro de 2023.
CAPITAL, Equipe Faster. Visão computacional permitindo que a AAI perceba e compreenda imagens.
FasterCapital, 2023. Disponível em: https://fastercapital.com/pt/contente/Visao-computacional--permitindo-
que-a-AAI-perceba-e-compreenda-imagens.html. Acesso em: 03 de janeiro de 2024.
DIAS, Fabricio A. O que é reconhecimento óptico de caracteres? Benefícios e onde usar. Lecom, 2023.
Disponível em: https://www.lecom.com.br/blog/o-que-reconhecimento-optico-caracteres/. Acesso em: 01 de
janeiro de 2024.
ECONOMIST, Equipe The. Do não trabalho à rede neural. The Economist, 2016. Disponível em:
https://www.economist.com/special-report/2016/06/23/from-not-working-to-neural-networking. Acesso em: 28 de
dezembro de 2023.
COSTA, André Luiz Amaral Teixeira; MALISANO, Giovanni. SMARTM - PAD PRINTER. In: V Seminário de Avaliação
de Pesquisa Científica e Tecnológica (SAPCT) e IV Workshop de Integração e Capacitação em Processamento
de Alto Desempenho (ICPAD) - Centro Universitário SENAI CIMATEC, 2020. Disponível em:
https://www.doity.com.br/anais/sapct-icpad-2020/trabalho/140972. Acesso em: 07/01/2024 às 17:40.
Referências:
GLANDCHUK, Veronika. A história do aprendizado de máquina: como tudo começou?. Label Your Data, 2020.
Disponível em: https://labelyourdata.com/articles/history-of-machine-learning-how-did-it-all-start. Acesso em: 30
de dezembro de 2023.
INTELLIGENCE, Equipe Mordor. Tamanho do mercado de visão computacional e análise de ações – Tendências
e previsões de crescimento (2023 – 2028). Mordor Intelligence, 2023. Disponível em:
https://www.mordorintelligence.com/pt/industry-reports/computer-vision-market. Acesso em: 04 de janeiro de
2024.
ID, Equipe Crypto. Visão computacional: O que é? Como funciona? Crypto ID, 2020. Disponível em:
https://cryptoid.com.br/identidade-digital-destaques/visao-computacional-o-que-e-como-funciona/. Acesso
em: 26 de dezembro de 2023.
JOHNSON, Jack. Modbus TCP/RTU (C#): Modbus Programming in C#. 1°. ed. [S. l.]: Amazon, 2016. 50 p.
JANNAH, Erliyan. Detecção robusta de objetos em tempo real. SlideShare, 2013. Disponível em:
https://pt.slideshare.net/erliyahnj/robust-real-time-object-detection . Acesso em: 02 de janeiro de 2024.
LUGER, George F. Inteligência Artificial. 6°. ed. [S. l.]: Pearson, 2015. 632 p.
LAMB, Frank. Automação Industrial na Prática. McGraw-Hill Companies, Inc.. ed. [S. l.]: AMGH, 2015. 376 p. v. 1.
ID, Equipe Crypto. Visão computacional: O que é? Como funciona? Crypto ID, 2020. Disponível em:
https://cryptoid.com.br/identidade-digital-destaques/visao-computacional-o-que-e-como-funciona/. Acesso
em: 26 de dezembro de 2023.
Referências:
PEYRÉ, Gabriel. Oldies but goldies: Jianbo Shi and Jitendra Malik… . X, 2020. Disponível em:
https://twitter.com/gabrielpeyre/status/1263333700248338432 . Acesso em: 02 de janeiro de 2024.
MARQUES, Rogério. OpenCV: Uma breve introdução à visão computacional com python. CEDRO, 2018.
Disponível em: https://www.cedrotech.com/blog/opencv-uma-breve-introducao-visao-computacional-com-
python/. Acesso em: 02 de janeiro de 2024.
MELO, Carlos. O que é Visão Computacional? Sigmoidal, 2023. Disponível em: https://sigmoidal.ai/o-que-e-visao-
computacional/. Acesso em: 04 de janeiro de 2024.
MACHINES, Equipe International Business. O que é Computer Vision? International Business Machines (IBM), 2024.
Disponível em: https://www.ibm.com/br-pt/topics/computer-vision. Acesso em: 26 de dezembro de 2023.
NVIDIA, Equipe. Visão Computacional. NVidia, 2024. Disponível em: https://www.nvidia.com/pt-br/glossary/data-
science/computer-vision/. Acesso em: 26 de dezembro de 2023.
PIORMONTEZ. YOLO Versões 1 e 2 (Arquitetura). Visão Computacional (VC), 2024. Disponível em:
https://visaocomputacional.com.br/yolo-versoes-1-e-2-arquitetura/. Acesso em: 28 de dezembro de 2023.
NOVAK, Matt. Russell Kirsch, inventor do pixel e criador da primeira foto digital, morre aos 91 anos. giz_br, 2020.
Disponível em: https://gizmodo.uol.com.br/russell-kirsch-inventor-do-pixel-e-criador-da-primeira-foto-digital-
morre-aos-91-anos/. Acesso em: 30 de dezembro de 2023.
Referências:
SALLES, EML Álvaro. O que é Visão Computacional e para que serve? Santo Digital Cloud Consulting Services,
2024. Disponível em: https://santodigital.com.br/o-que-e-visao-computacional-e-para-que-serve/ . Acesso em: 26 de
dezembro de 2023.
SANGETTHA, Pedigi R. Visão computacional em tecnologia de ciência espacial: avanços e aplicações?
Medium, 2023. Disponível em: https://medium.com/@prsangeetha/computer-vision-in-space-science-
technology-advancements-and-applications-fcfcaf3aea8d. Acesso em: 26 de dezembro de 2023.
SHEN, Chunhua. Segmentação Semântica Fracamente Supervisionada Baseada em Co-segmentação.
ReserchGate, 2017. Disponível em: https://www.researchgate.net/figure/Qualitative-segmentation-results-on-
PASCAL-VOC-2012-validation-set_fig1_317164080. Acesso em: 03 de janeiro de 2024.
SERVICE, Equipe Amazon Web. O que é Computer Vision? Amazon Web Services (AWS), 2024. Disponível em:
https://aws.amazon.com/pt/what-is/computer-vision/. Acesso em: 26 de dezembro de 2023.
SERVICE, Equipe Amazon W. Rastreamento de objetos de nuvem de pontos 3D. Amazon Web Service (AWS),
2024. Disponível em: https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sms-point-cloud-object-
tracking.html . Acesso em: 05 de janeiro de 2024.
RIBEIRO, Gabriel F. Considerado um dos pais da internet, Larry Roberts morre aos 81 anos. Tilt UOL, 2018.
Disponível em: https://www.uol.com.br/tilt/noticias/redacao/2018/12/31/considerado-um-dos-pais-da-internet-
larry-roberts-morre-aos-81-anos.htm?cmpid=copiaecola. Acesso em: 30 de dezembro de 2023.
Referências:
SYSTEM, Equipe Statistical Analysis. Visão Computacional: O que é e qual sua importância? Statistical Analysis
System (SAS), 2024.
Disponível em: https://www.sas.com/pt_br/insights/analytics/computer-
vision.html#:~:text=Hist%C3%B3ria%20da%20vis%C3%A3o%20computacional,categorias%20como%20c%C3%ADrc
ulos%20e%20quadrados. Acesso em: 26 de dezembro de 2023.
VAMOSS. Visão Computacional: Ameaças À Privacidade e Possibilidades Criativas. Encontros Digitais, 2019.
Disponível em: https://www.encontrosdigitais.com.br/articles/vamoss-Visao-computacional-privacidade-x-
criatividade/ . Acesso em: 05 de janeiro de 2024.
UNIVERSITY, Equipe Brown. Notícias de Brown: Pedro Felipe Felzenszwalb. A história de como ele mudou a IA.
Brown University, 2024.. Disponível em: https://news.brown.edu/new-faculty/physical-sciences/pedro-
felzenszwalb. Acesso em: 02 de janeiro de 2024.
VIANA, Suzana. Um guia sobre Visão Computacional: Como os computadores enxergam? Medium, 2018.
Disponível em: https://suzana-svm.medium.com/guia-visao-computacional-ae2a2ace0973. Acesso em: 26 de
dezembro de 2023.
STEVENS, Kent A. A visão de David Marr. ReserchGate, 2012. Disponível em:
https://www.researchgate.net/figure/fig1_235626691. Acesso em: 31 de dezembro de 2023.
WIKIPEDIA, Equipe. Yann LeCun. Wikipedia, 2024. Disponível em: https://en.wikipedia.org/wiki/Yann_LeCun .
Acesso em: 02 de janeiro de 2024.
Referências:
ZILLIG, Julia. De mãos dadas, máquina e o ser humano. FEBRABAN TACH, 2016. Disponível em:
https://febrabantech.febraban.org.br/temas/inteligencia-artificial/de-maos-dadas-maquina-e-o-ser-humano. Acesso
em: 28 de dezembro de 2023.
YAP, João Â. Quem é Alex Krizhevsky? A história de como ele mudou a IA. Golden Peguin, 2023. Disponível em:
https://goldpenguin.org/blog/who-is-alex-krizhevsky/. Acesso em: 28 de dezembro de 2023.
GRATIDÃO.
André Amaral e Ronaldo Maciel
“E disse o Senhor: Eles são um só povo e falam uma só
língua, e começaram a construir isso. Em breve nada
poderá impedir o que planejam fazer. Venham, desçamos
e confundamos a língua que falam, para que não
entendam mais uns aos outros.” Gn 11: 6-7

Visão Computacional 2024 - SENAI/CIMATEC

  • 1.
    Colaboradores: André Amarale Ronaldo Maciel. Facilitador: Éldman Nunes. Fundamentos de Ciência de Dados e Inteligência Artificial
  • 2.
    Fundamentos de Ciênciade Dados e Inteligência Artificial Colaboradores: André Amaral e Ronaldo Maciel Facilitador: Éldman Nunes Introdução Fundamentos Evolução no tempo Aplicações Práticas Seminário:VisãoComputacional Considerações Finais 2024
  • 3.
    Visão Humana: A capacidadevisual humana é uma habilidade sensorial que permite aos seres humanos interpretar o ambiente visual que os cerca. Essa habilidade é mediada pelo sistema visual humano, um sistema altamente complexo e integrado. Visão das Máquinas ou Computacional: Geralmente baseada em técnicas de Processamento de Imagem e aprendizado de máquina, como Redes Neurais Convolucionais (CNNs). Essas técnicas permitem algumas semelhanças com a visão humana, em que os computadores realizam tarefas como detecção de objetos, reconhecimento facial, rastreamento de movimento e reconhecimento de fala. Introdução
  • 4.
    O que é: AVisão Computacional é o processo de modelagem e replicação da visão humana usando software e hardware. É uma área interdisciplinar que envolve varias expertise de pesquisa como a matemática, estatística, aprendizado de máquina, deep learning, Processamento de Imagem, geometria computacional, visão tridimensional (3D), processamento de sinais, visão robótica, física ... Ramo que se encontra na convergência da ciência da computação e inteligência artificial. Seu propósito é analisar, interpretar e extrair informações relevantes de imagens e vídeos, visando facilitar a tomada de decisões ou gerar dados úteis para futuras aplicações. Simular a inteligência humana Inteligência Artificial Machine Learning Não-Supervisionado Supervisionado por Reforço Semi-Supervisionado ANN, CNN, RNN, LSTM e GRU Deep Learning Detecção e Correspondência Visão Computacional Processamento de Imagem Segmentação Reconstrução, Fundamentos: Visão Computacional
  • 5.
    Nessecontexto, a Visão Computacionalbusca replicar/imitar a capacidade visual humana. Assim a Visão Computacional busca aproximar seus parâmetros e objetivos aos da Visão Humana, fazendo uso de algoritmos complexos de técnicas de Processamento de Imagem, aplicações de filtros e detecção de altas frequências em sinais para identificar bordas, formas e contornos nos ambientes com maior facilidade. Fundamentos: Visão Computacional
  • 6.
    Mas, que éuma imagem? Uma imagem é uma representação visual de um objeto, cena ou conceito, capturada por dispositivos como câmeras, scanners ou sensores. As imagens podem ser 2D ou 3D, colorida ou em preto e branco, utilizadas em diversas áreas como medicina, astronomia e computação gráfica. Fundamentos: Visão Computacional
  • 7.
    Mas, que éuma imagem? Tecnicamente, uma imagem é uma matriz de valores de pixels, onde cada pixel contém informações sobre cor ou intensidade de luz. Fundamentos: Visão Computacional
  • 8.
    O que éum pixel? Os pixels constituem os elementos fundamentais de uma imagem, representando sua estrutura primária. Cada imagem é composta por um conjunto de pixels, sendo impossível uma granularidade mais fina do que o próprio pixel. Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em um local específico na imagem. Se concebermos uma imagem como uma grade, cada quadrado nessa grade abriga um único pixel. A maioria dos pixels é categorizada em duas representações: escala de cinza e cor. Branco - RGB (255,255,255) Azul - RGB (0,0,255) Vermelho - RGB (255,0,0) Verde - RGB (0,255,0) Amarelo - RGB (255,255,0) Magenta - RGB (255,0,255) Ciano - RGB (0,255,255) Preto - RGB (0,0,0) Fundamentos: Visão Computacional
  • 9.
    O que éum pixel? Os pixels constituem os elementos fundamentais de uma imagem, representando sua estrutura primária. Cada imagem é composta por um conjunto de pixels, sendo impossível uma granularidade mais fina do que o próprio pixel. Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em um local específico na imagem. Se concebermos uma imagem como uma grade, cada quadrado nessa grade abriga um único pixel. A maioria dos pixels é categorizada em duas representações: escala de cinza e cor. Branco - RGB (255,255,255) Azul - RGB (0,0,255) Vermelho - RGB (255,0,0) Verde - RGB (0,255,0) Amarelo - RGB (255,255,0) Magenta - RGB (255,0,255) Ciano - RGB (0,255,255) Preto - RGB (0,0,0) Fundamentos: Visão Computacional
  • 10.
    O que éum pixel? Os pixels constituem os elementos fundamentais de uma imagem, representando sua estrutura primária. Cada imagem é composta por um conjunto de pixels, sendo impossível uma granularidade mais fina do que o próprio pixel. Tipicamente, um pixel é atribuído a "cor" ou a "intensidade" da luz em um local específico na imagem. Se concebermos uma imagem como uma grade, cada quadrado nessa grade abriga um único pixel. A maioria dos pixels é categorizada em duas representações: escala de cinza e cor. Branco - RGB (255,255,255) Azul - RGB (0,0,255) Vermelho - RGB (255,0,0) Verde - RGB (0,255,0) Amarelo - RGB (255,255,0) Magenta - RGB (255,0,255) Ciano - RGB (0,255,255) Preto - RGB (0,0,0) Fundamentos: Visão Computacional
  • 11.
    O que éProcessamento de Imagem? É um ramo da Visão Computacional dedicado à manipulação e análise de imagens digitais. Envolve a aplicação de técnicas matemáticas, estatísticas e computacionais para transformar e analisar imagens digitais, visando extrair informações relevantes ou aprimorar sua qualidade. Fundamentos: Visão Computacional
  • 12.
    O que éProcessamento de Imagem? Fundamentos: Visão Computacional O Processamento de Imagem geralmente possui as seguintes fases: Pós- processamento: ao fim do ciclo de Processamento de Imagem, a imagem resultante é pós processada para melhorar aparência, remover artefatos ou aplicar efeitos especiais. 6 Classificação: essa etapa classifica as regiões ou objetos em categorias pré- determinadas com base em suas características extraídas. 5 Extração de Características: aqui são extraídas as informações mais relevantes de cada região ou objeto segmentado tais como: forma, tamanho, cor, textura entre outros. 4 Segmentação: essa etapa tem a função de dividir a imagem em regiões ou objetos de interesse com base em propriedade de intensidade, cor ou textura. 3 Pré- processamento: a imagem é normalizada, filtrada e corrigida para remover ruídos e imperfeições ou distorções. 2 Aquisição: nesta etapa a imagem é obtida por meios de dispositivos de aquisição como uma câmera, scanner ou sensor. 1 Fases
  • 13.
    O que éProcessamento de Imagem? Fundamentos: Visão Computacional O Processamento de Imagem geralmente possui as seguintes fases: Pós- processamento: ao fim do ciclo de Processamento de Imagem, a imagem resultante é pós processada para melhorar aparência, remover artefatos ou aplicar efeitos especiais. 6 Classificação: essa etapa classifica as regiões ou objetos em categorias pré- determinadas com base em suas características extraídas. 5 Extração de Características: aqui são extraídas as informações mais relevantes de cada região ou objeto segmentado tais como: forma, tamanho, cor, textura entre outros. 4 Segmentação: essa etapa tem a função de dividir a imagem em regiões ou objetos de interesse com base em propriedade de intensidade, cor ou textura. 3 Pré- processamento: a imagem é normalizada, filtrada e corrigida para remover ruídos e imperfeições ou distorções. 2 Aquisição: nesta etapa a imagem é obtida por meios de dispositivos de aquisição como uma câmera, scanner ou sensor. 1 Fases Todas essas fases são executadas por meio de algoritmos de Processamento de Imagem que podem ser implementados em linguagem de programação especifica ou em software dedicados. Possuindo atuação em várias áreas como medicina, engenharia, segurança, dentre outros.
  • 14.
    O que éProcessamento de Imagem? Fundamentos: Visão Computacional O Processamento de Imagem geralmente possui as seguintes fases: Pós- processamento: ao fim do ciclo de Processamento de Imagem, a imagem resultante é pós processada para melhorar aparência, remover artefatos ou aplicar efeitos especiais. 6 Classificação: essa etapa classifica as regiões ou objetos em categorias pré- determinadas com base em suas características extraídas. 5 Extração de Características: aqui são extraídas as informações mais relevantes de cada região ou objeto segmentado tais como: forma, tamanho, cor, textura entre outros. 4 Segmentação: essa etapa tem a função de dividir a imagem em regiões ou objetos de interesse com base em propriedade de intensidade, cor ou textura. 3 Pré- processamento: a imagem é normalizada, filtrada e corrigida para remover ruídos e imperfeições ou distorções. 2 Aquisição: nesta etapa a imagem é obtida por meios de dispositivos de aquisição como uma câmera, scanner ou sensor. 1 Fases Todas essas fases são executadas por meio de algoritmos de Processamento de Imagem que podem ser implementados em linguagem de programação especifica ou em software dedicados. Possuindo atuação em várias áreas como medicina, engenharia, segurança, dentre outros.
  • 15.
    A História: “Embora aVisão Computacional (CV) tenha explodido apenas recentemente, certamente não é um campo científico novo – (o momento inovador aconteceu em 2012, quando AlexNet ganhou o ImageNet).” Rostyslav Demush (Hacker Noon), 2016. AlexNet nome dado arquitetura de rede neural convolucional (CNN), projetada por Alex Krizhevsky. Evolução no tempo
  • 16.
    A História daVisão Computacional: Década de 1950: 1959: os neurofisiologistas David Hubel e Torsten Wiesel descreveram, em publicação com o título “Campos receptivos de neurônios únicos no córtex estriado do gato” começaram a colaborar na observação de respostas cerebrais a imagens em gatos, destacando o processamento inicial de formas simples como bordas. Década de 1960: 1959-1963: Russell Kirsch desenvolveu dispositivo que permitia transformar imagens em grades de números - então surge a linguagem binária que as máquinas podiam entender. E por causa do trabalho dele que na atualidade é possível processar imagens digitais de variadas formas. Desenvolvimento da primeira tecnologia de digitalização de imagens. 1963: Computadores transformam imagens bidimensionais em formas tridimensionais e o surgimento da Inteligência Artificial (IA) como campo acadêmico. O doutorando, Lawrence Roberts em sua publicação “Percepção mecânica de sólidos tridimensionais” discute amplamente sobre o tema e é considerado um dos precursores da Visão Computacional moderna. A História: Evolução no tempo
  • 17.
    A História daVisão Computacional: Década de 1950: 1959: os neurofisiologistas David Hubel e Torsten Wiesel descreveram, em publicação com o título “Campos receptivos de neurônios únicos no córtex estriado do gato” começaram a colaborar na observação de respostas cerebrais a imagens em gatos, destacando o processamento inicial de formas simples como bordas. Década de 1960: 1959-1963: Russell Kirsch desenvolveu dispositivo que permitia transformar imagens em grades de números - então surge a linguagem binária que as máquinas podiam entender. E por causa do trabalho dele que na atualidade é possível processar imagens digitais de variadas formas. Desenvolvimento da primeira tecnologia de digitalização de imagens. 1963: Computadores transformam imagens bidimensionais em formas tridimensionais e o surgimento da Inteligência Artificial (IA) como campo acadêmico. O doutorando, Lawrence Roberts em sua publicação “Percepção mecânica de sólidos tridimensionais” discute amplamente sobre o tema e é considerado um dos precursores da Visão Computacional moderna. A História: Evolução no tempo
  • 18.
    A História daVisão Computacional: Década de 1980: 1982: Neurocientista David Marr ao publicar o artigo com o título “Visão: Uma investigação computacional sobre a representação humana e processamento de informação visual”, com base nas ideias de Hubel e Wiesel, estabelece que a visão é hierárquica, introduzindo algoritmos para detectar bordas, cantos, curvas e formas básicas. Introduziu uma estrutura para visão onde algoritmos de baixo nível que detectam bordas, curvas, cantos, etc., usados como trampolins para uma compreensão de alto nível dos dados visuais. Década de 1970: 1974: Introdução da tecnologia de Reconhecimento Ótico de Caracteres (OCR), permitindo o reconhecimento de textos impressos em qualquer fonte. Desenvolvimento do Reconhecimento Inteligente de Caracteres (ICR) para decifrar textos escritos à mão usando Redes Neurais. No mesmo período o japonês Kunihiko Fukushima desenvolve a Neocognitron, uma Rede Neural com camadas convolutivas. O Neocognitron é indiscutivelmente a primeira Rede Neural com reais característica que define ser profundo. Evolução no tempo
  • 19.
    A História daVisão Computacional: Década de 1980: 1982: Neurocientista David Marr ao publicar o artigo com o título “Visão: Uma investigação computacional sobre a representação humana e processamento de informação visual”, com base nas ideias de Hubel e Wiesel, estabelece que a visão é hierárquica, introduzindo algoritmos para detectar bordas, cantos, curvas e formas básicas. Introduziu uma estrutura para visão onde algoritmos de baixo nível que detectam bordas, curvas, cantos, etc., usados como trampolins para uma compreensão de alto nível dos dados visuais. Década de 1970: 1974: Introdução da tecnologia de Reconhecimento Ótico de Caracteres (OCR), permitindo o reconhecimento de textos impressos em qualquer fonte. Desenvolvimento do Reconhecimento Inteligente de Caracteres (ICR) para decifrar textos escritos à mão usando Redes Neurais. No mesmo período o japonês Kunihiko Fukushima desenvolve a Neocognitron, uma Rede Neural com camadas convolutivas. O Neocognitron é indiscutivelmente a primeira Rede Neural com reais característica que define ser profundo. Evolução no tempo
  • 20.
    A História daVisão Computacional: Década de 1990: Crescimento da internet e disponibilização de grandes volumes de imagens online. Tem-se a exploração inicial de programas de reconhecimento facial. 1989-1990: Yann LeCun, cientista francês, aplica algoritmo de aprendizagem em estilo backprop à arquitetura de Fukushima, lançando o LeNet-5, primeiro ConvNet moderno, quando introduzido componentes ainda usados nas CNNs atuais. Seu trabalho resultou na criação do dataset MNIST de dígitos manuscritos. 1997: O professor de Berkley Jitendra Malik e seu aluno Jianbo Shi exploram o agrupamento perceptual usando algoritmo de teoria dos grafos. O trabalho consiste em fazer com que as máquinas seccionem a imagem em partes sensíveis - com uso de um algoritmo de teoria dos grafos. Evolução no tempo
  • 21.
    A História daVisão Computacional: Década de 2000: 2001: Introdução da estrutura de detecção facial em tempo real por Paul Viola e Michael Jones. Surge as primeiras aplicações de reconhecimento facial em tempo real. Padronização de marcação e anotação de conjuntos de dados visuais. 2009: Desenvolvimento do Deformable Part Model (DPM) por Pedro Felzenszwalb. Ele empregou a abordagem de detectar cada "parte" individual do objeto, resultando em uma maior precisão. 2006: Lançamento do projeto Pascal VOC (Visual Object Classes), fornecendo conjunto de dados padronizado e métricas para treinamento e teste de reconhecimento de classes de objetos. Além de métricas de avaliação consistentes para comparar o desempenho de diferentes métodos. Evolução no tempo
  • 22.
    A História daVisão Computacional: Década de 2010: 2010: Início da Competição de Reconhecimento Visual em Grande Escala ImageNet (ILSVRC), com isso, a disponibilidade do conjunto de dados ImageNet, base para Redes Neurais Convolucionais (CNNs) e modelos de Deep Learning. 2012: Equipe da Universidade de Toronto inscreve a CNN AlexNet no ILSVRC, marcando um ponto de virada na popularidade das Redes Neurais Convolucionais (reduzindo significativamente as taxas de erro). AlexNet nome dado arquitetura de rede neural convolucional (CNN), projetada por Alex Krizhevsky. Década de 2020: Os avanços em Redes Neurais Convolucionais (CNNs) e técnicas de Deep Learning permite o aumento da precisão em identificação e classificação de objetos, superando a capacidade humana em certas tarefas de reação a estímulos visuais e o continuo desenvolvimento de novos conjuntos de dados e aplicações práticas em diversas áreas. Evolução no tempo
  • 23.
    A História daVisão Computacional: Essa linha do tempo destaca os marcos chave na evolução da Visão Computacional (CV), desde os primeiros experimentos nos anos 1950 até os avanços significativos na última década (2020). Evolução no tempo
  • 24.
    Aplicações da VisãoComputacional: Transformando setores com aplicações inovadoras, como diagnósticos médicos mais eficientes, alertas antecipados em veículos autônomos, revolucionando a segurança pública, explora a importância da detecção de pedestres nos sistemas de transporte inteligente e aprimoramento da indústria, como o controle de qualidade em linhas de produção, são alguns dos setores que estão sendo impulsionados por algoritmos de Visão Computacional. Com mercado projetado para atingir US$ 17,25 bi em 2024 e US$ 39 bi para 2029. Essa tecnologia redefine a interação com a digitalização, destacando sua versatilidade e impacto significativo. Aplicações Práticas
  • 25.
    Aplicações da VisãoComputacional: Transformando setores com aplicações inovadoras, como diagnósticos médicos mais eficientes, alertas antecipados em veículos autônomos, revolucionando a segurança pública, explora a importância da detecção de pedestres nos sistemas de transporte inteligente e aprimoramento da indústria, como o controle de qualidade em linhas de produção, são alguns dos setores que estão sendo impulsionados por algoritmos de Visão Computacional. Com mercado projetado para atingir US$ 17,25 bi em 2024 e US$ 39 bi para 2029. Essa tecnologia redefine a interação com a digitalização, destacando sua versatilidade e impacto significativo. Aplicações Práticas
  • 26.
  • 27.
    Aplicações Práticas Visão Computacionalna Prática: Alimentício Automobilístico Farmacêutico Bens de Consumo SmartM: Automatização do Controle de Qualidade na Produção de Baterias
  • 28.
    Visão Computacional naPrática: Alimentício INSPEÇÃO EMBALAGEM DE CONE DE SORVETE Equipado com seis câmeras de alta resolução e iluminação própria, o sistema verifica simultaneamente seis embalagens. Analisando as imagens, identifica defeitos, verifica informações ausentes ou trocadas, e assegura a presença correta dos cones na linha. A iluminação é fundamental para a qualidade e resolução das imagens, assegurando uma inspeção precisa. Aplicações Práticas
  • 29.
    Aplicações Práticas Visão Computacionalna Prática: Automobilístico INSPEÇÃO AUTOMÁTICA PEÇAS USINADAS Com uma estação de inspeção, gera relatórios e estatísticas, identificando tipos de defeitos. O operador posiciona a peça, aciona a análise, e o sistema indica o resultado. A inspeção inclui verificação de posição do anel elástico, orientação correta do rolamento magnético para freios ABS, presença e dimensões de roscas e chanfros de entrada, além do controle do acabamento do furo cônico, identificando ranhuras.
  • 30.
    Visão Computacional naPrática: Farmacêutico INSPEÇÃO NO TECIDO DE GAZE A inspeção do tecido de gaze ocorre por meio de uma câmera que analisa diretamente a trama. O sistema, integrado à máquina de corte, utiliza iluminação backlight para aprender a configuração correta da trama. Usando um algoritmo alemão Halcon, é capaz de identificar falhas na trama como ausência de alguma linha na trama. aceitando pequenas variações nas distâncias dos furos. Em caso de detecção de defeitos, a posição é memorizada, e a máquina realiza o rejeito sem interrupção. Aplicações Práticas
  • 31.
    Visão Computacional naPrática: Bens de Consumo INSPEÇÃO PARA ALINHAMENTO DO CORTE NAS EMBALAGENS Realizando inspeção no alinhamento do corte das embalagens, tanto vertical quanto horizontalmente, e verificando a presença e posicionamento correto do incerto. Em caso de defeitos detectados, o sistema automaticamente rejeita o produto defeituoso. O sistema de visão, equipado com 3 câmeras, opera a 240 produtos por minuto, sendo possível chegar a capacidade de 800 produtos por segundo, garantindo eficiência na inspeção. Aplicações Práticas
  • 32.
    SmartM: Automatização doControle de Qualidade na Produção de Baterias • Introdução • Justificativa • Materiais e Métodos • Resultados e Discussão • Desafios • Conclusão • Referências SmartM: Introdução Aplicações Práticas
  • 33.
    SmartM: Introdução O queé o projeto SmartM - Pad Printer; Processo Atual: Inspeção visual na produção de baterias, uso de gabaritos OHP e medições amostrais; Problemas Identificados: Erros humanos e ineficiências na inspeção visual; Transição para a Necessidade de Automatização: Introdução da visão computacional como uma solução potencial. Inspeção visual, operador usando gabarito para análise de dimensões. Aplicações Práticas
  • 34.
    SmartM: Objetivos do Projeto:Desenvolver um sistema de visão computacional integrado para automatizar a inspeção de qualidade. Bancada proposta Impacto Tecnológico e Industrial: Avanços na automatização do controle de qualidade. Benefícios Esperados: Aumento da eficiência e precisão, redução de retrabalho e descarte, melhoria na rastreabilidade do produto. Justificativa Aplicações Práticas
  • 35.
    SmartM: Fase Informacional: descriçãodo levantamento de requisitos técnicos e especificações das baterias. Fase Básica/Preliminar: implementação inicial, calibração da câmera, treinamento de redes neurais. Fase Conceitual: pesquisa de algoritmos e técnicas de Deep Learning aplicáveis à visão computacional. Exemplo de célula que falhou no teste Caractere parcialmente apagado Bateira com a estampagem e TAB CUT Fase de Execução/Validação: testes em ambientes reais, ajuste fino das implementações, garantia de precisão. Levantadas opções de tecnologias e realizados estudos de viabilidade e eficácia: Materiais e Métodos Aplicações Práticas
  • 36.
    SmartM: Materiais eMétodos Bancada Mecânica de Inspeção Câmera serial de alta resolução Bandeja para inspeção Integração da comunicação Light Tower integrada na bancada de inspeção Aplicações Práticas
  • 37.
    SmartM: Materiais eMétodos Equipamentos Valor unitário Bancada Mecânica de Inspeção R$ 24.120,00 Câmera Industrial de alta resolução R$ 9.838,69 Placa embarcada com microcontrolador STM R$ 1.176,00 LightTower R$ 600,00 Gabinete WorkStation DELL R$ 13.000,00 Gabinete WorkStation DELL R$ 13.000,00 Monitor da Bancada R$ 1.452,29 Teclado R$ 100,00 TOTAL R$ 63.286,98 Tabela dos materiais e de seus valores unitários. Aplicações Práticas
  • 38.
    SmartM: Materiais eMétodos Software: A concepção da solução para inspeção de baterias (TAB CUT e Estampa) envolve a criação de uma aplicação, o uso de recursos mecânicos e eletrônicos onde a parte que compete a software é composta por uma aplicação desktop para configuração, execução e monitoramento da operação de inspeção de bateria. A parte do protótipo que consiste na aplicação desktop foi dividido em 3 módulos: Battery Model Configuration Analytics Inspection Aplicações Práticas
  • 42.
    SmartM: Materiais eMétodos Bibliotecas e Redes Neurais: Juntamente com a aplicação desktop, outros recursos se fazem necessários para a inspeção, algumas bibliotecas de software e redes neurais estão sendo usadas de forma integrada com intuito de realizar a identificação individual de cada bateria no pack, segmentação da imagem, medição do tab cut e avaliação da qualidade de impressão. Aplicações Práticas
  • 43.
    SmartM: Materiais eMétodos Mask R-CNN, DeepLabV3+ e Retina Net: Mask R-CNN e DeepLabV3: Segmentações RetinaNet: Detecção de piscinas Aplicações Práticas
  • 44.
    SmartM: Materiais eMétodos Aplicação das técnicas no projeto. A concepção da solução para inspeção de baterias (TAB CUT e Estampa) envolve a criação de uma aplicação, o uso de recursos mecânicos e eletrônicos onde a parte que compete a software é composta por uma aplicação desktop para configuração, execução e monitoramento da operação de inspeção de bateria. A parte do protótipo que consiste na aplicação desktop foi dividido em 3 módulos: Processo de anotação de imagens Output da rede Mask R-CNN Output da rede RetinaNet, libs e redes Aplicações Práticas
  • 45.
    SmartM: Eletrônica Embarcada: elaboraçãode um o sistema eletrônico para o funcionamento do Tower Light, de modo que este dispositivo deve gerar os alertas visuais para a engenharia agir de forma rápida e assertiva nos problemas que a máquina deve apresentar durante o processo de uso. Software: com o desenvolvimento do sistema de visão, aprendizado da rede, correta iluminação e calibração da câmera se espera uma assertividade de aproximadamente 95% na identificação das baterias boas e ruins, assim como testado e validado em ambiente laboratorial. Mecânica: a mecânica contempla uma série de preocupações em relação às normas de segurança do trabalho devido à ergonomia, qualidade, meio ambiente e aterramento adequado da estrutura. Resultados e Discussão Aplicações Práticas
  • 46.
    SmartM: 1. Aumento daeficiência ao reduzir a necessidade de retrabalho; Output da tela de inspeção Sistema Pick-By-Light Bancada Final 2. Redução ou até eliminação de descarte relacionado a essa etapa específica do processo; 3. Possibilidade de rastreabilidade do produto; 6. Relatórios analíticos de peças fora e dentro do padrão de qualidade. 4. Inspeção de todas as baterias em ambos os critérios, impressão e TAB CUT; 5. Diminuição da margem de erros causados pela capacidade de operação humana; Resultados e Discussão Aplicações Práticas
  • 47.
    SmartM: · Necessidade derealizar teste em campo. · Desafio relacionado ao tempo de ciclo de operação do sistema (objetivo de 15 segundos). · Progresso na redução do tempo de ciclo, mas ainda não atingindo o tempo esperado. · Evidência de desafios tecnológicos reais e geração de elementos inovadores. · Implementação de algoritmos do estado da arte em um protótipo funcional. · Uso de marca d'água verde ou vermelha para facilitar a interpretação do status da bateria pelo operador. · Problemas com o alto tempo do ciclo total de inspeção e travamento durante treinamento da rede. · Desligamento do equipamento devido a problemas na fonte de alimentação. · Necessidade de atualização do TensorFlow e do driver da placa de vídeo para resolver problemas de baixa performance. · Objetivo de alcançar aproximadamente 95% de assertividade na identificação das baterias. · Importância da aprendizagem da rede, iluminação adequada, e calibração da câmera. · Necessidade de redes neurais para segmentação correta do TAB CUT para alta precisão da medição. Implementação de Melhorias no Sistema de Visão Computacional: Aplicação Prática e Visão Computacional: Desafios na Migração de Plataforma de Desenvolvimento de Linux para Windows: Assertividade do Sistema de Visão: Medição do TAB CUT e Identificação de Falha de Estampa: Desafios Aplicações Práticas
  • 48.
    SmartM: Visando trazer, umamelhoria continua no processo de produção da planta da SMART Modular (SMARTM) e um aprimoramento no fluxo atual, o resultado do uso das tecnologias, pôde ser verificado na apresentação visual da inspeção realizada pelos algoritmos onde as estampas das baterias são mostradas com uma marca d’agua verde ou vermelha, a depender da análise realizada, facilitando assim a interpretação pelo operador do status da bateria. Enfatizando que esse conceito de aprendizado de rede e a criação de algoritmos à suportar questões do sistema de visão são elementos totalmente novos e que vem sendo explorados em diversas iniciativas, no entanto, não é diferente desse projeto que visa como resultado final uma máquina extremamente moderna capaz de inovar o processo de manufatura, aumentando o nível qualidade e eficiência da inspeção além uma operação com menor custo beneficiando o aumento da competitividade da SMARTM no mercado. Conclusão Aplicações Práticas
  • 49.
    Crescimento e Impactono Mercado: a visão computacional está experimentando um crescimento exponencial, com aplicações se expandindo para diversos setores, como automotivo, saúde, segurança e manufatura. Esta tendência é impulsionada por avanços contínuos em IA e machine learning, tornando as soluções de Visão Computacional mais eficientes e acessíveis. Inovação e Desenvolvimento Tecnológico: os desenvolvimentos em hardware, como GPUs avançadas, e em software, através de algoritmos sofisticados, estão abrindo novas possibilidades para aplicações de Visão Computacional. Estes avanços estão não apenas melhorando a eficiência e precisão mas também possibilitando novas funcionalidades e aplicações. Desafios Futuros e Oportunidades: enquanto o campo avança, surgem desafios relacionados à privacidade de dados, ética e precisão. Contudo, esses desafios também representam oportunidades significativas para inovação e pesquisa. Considerações Finais
  • 50.
    Referências: BARONE, Dante; BOESING,Ivan. Inteligência Artificial: Diálogos entre Mentes e Máquinas. 1ª. ed. [S. l.]: Age, 2015. 309p. AFTD, Equipe. Cientista revolucionário da computação Russell Kirsch morre após jornada com FTD. AFTD, 2020. Disponível em: https://www.theaftd.org/pt/posts/front-page/revolutionary-computer-scientist-russell-kirsch-dies- after-journey-with-ftd/. Acesso em: 28 de dezembro de 2023. CAPITAL, Equipe Faster. Visão computacional permitindo que a AAI perceba e compreenda imagens. FasterCapital, 2023. Disponível em: https://fastercapital.com/pt/contente/Visao-computacional--permitindo- que-a-AAI-perceba-e-compreenda-imagens.html. Acesso em: 03 de janeiro de 2024. DIAS, Fabricio A. O que é reconhecimento óptico de caracteres? Benefícios e onde usar. Lecom, 2023. Disponível em: https://www.lecom.com.br/blog/o-que-reconhecimento-optico-caracteres/. Acesso em: 01 de janeiro de 2024. ECONOMIST, Equipe The. Do não trabalho à rede neural. The Economist, 2016. Disponível em: https://www.economist.com/special-report/2016/06/23/from-not-working-to-neural-networking. Acesso em: 28 de dezembro de 2023. COSTA, André Luiz Amaral Teixeira; MALISANO, Giovanni. SMARTM - PAD PRINTER. In: V Seminário de Avaliação de Pesquisa Científica e Tecnológica (SAPCT) e IV Workshop de Integração e Capacitação em Processamento de Alto Desempenho (ICPAD) - Centro Universitário SENAI CIMATEC, 2020. Disponível em: https://www.doity.com.br/anais/sapct-icpad-2020/trabalho/140972. Acesso em: 07/01/2024 às 17:40.
  • 51.
    Referências: GLANDCHUK, Veronika. Ahistória do aprendizado de máquina: como tudo começou?. Label Your Data, 2020. Disponível em: https://labelyourdata.com/articles/history-of-machine-learning-how-did-it-all-start. Acesso em: 30 de dezembro de 2023. INTELLIGENCE, Equipe Mordor. Tamanho do mercado de visão computacional e análise de ações – Tendências e previsões de crescimento (2023 – 2028). Mordor Intelligence, 2023. Disponível em: https://www.mordorintelligence.com/pt/industry-reports/computer-vision-market. Acesso em: 04 de janeiro de 2024. ID, Equipe Crypto. Visão computacional: O que é? Como funciona? Crypto ID, 2020. Disponível em: https://cryptoid.com.br/identidade-digital-destaques/visao-computacional-o-que-e-como-funciona/. Acesso em: 26 de dezembro de 2023. JOHNSON, Jack. Modbus TCP/RTU (C#): Modbus Programming in C#. 1°. ed. [S. l.]: Amazon, 2016. 50 p. JANNAH, Erliyan. Detecção robusta de objetos em tempo real. SlideShare, 2013. Disponível em: https://pt.slideshare.net/erliyahnj/robust-real-time-object-detection . Acesso em: 02 de janeiro de 2024. LUGER, George F. Inteligência Artificial. 6°. ed. [S. l.]: Pearson, 2015. 632 p. LAMB, Frank. Automação Industrial na Prática. McGraw-Hill Companies, Inc.. ed. [S. l.]: AMGH, 2015. 376 p. v. 1. ID, Equipe Crypto. Visão computacional: O que é? Como funciona? Crypto ID, 2020. Disponível em: https://cryptoid.com.br/identidade-digital-destaques/visao-computacional-o-que-e-como-funciona/. Acesso em: 26 de dezembro de 2023.
  • 52.
    Referências: PEYRÉ, Gabriel. Oldiesbut goldies: Jianbo Shi and Jitendra Malik… . X, 2020. Disponível em: https://twitter.com/gabrielpeyre/status/1263333700248338432 . Acesso em: 02 de janeiro de 2024. MARQUES, Rogério. OpenCV: Uma breve introdução à visão computacional com python. CEDRO, 2018. Disponível em: https://www.cedrotech.com/blog/opencv-uma-breve-introducao-visao-computacional-com- python/. Acesso em: 02 de janeiro de 2024. MELO, Carlos. O que é Visão Computacional? Sigmoidal, 2023. Disponível em: https://sigmoidal.ai/o-que-e-visao- computacional/. Acesso em: 04 de janeiro de 2024. MACHINES, Equipe International Business. O que é Computer Vision? International Business Machines (IBM), 2024. Disponível em: https://www.ibm.com/br-pt/topics/computer-vision. Acesso em: 26 de dezembro de 2023. NVIDIA, Equipe. Visão Computacional. NVidia, 2024. Disponível em: https://www.nvidia.com/pt-br/glossary/data- science/computer-vision/. Acesso em: 26 de dezembro de 2023. PIORMONTEZ. YOLO Versões 1 e 2 (Arquitetura). Visão Computacional (VC), 2024. Disponível em: https://visaocomputacional.com.br/yolo-versoes-1-e-2-arquitetura/. Acesso em: 28 de dezembro de 2023. NOVAK, Matt. Russell Kirsch, inventor do pixel e criador da primeira foto digital, morre aos 91 anos. giz_br, 2020. Disponível em: https://gizmodo.uol.com.br/russell-kirsch-inventor-do-pixel-e-criador-da-primeira-foto-digital- morre-aos-91-anos/. Acesso em: 30 de dezembro de 2023.
  • 53.
    Referências: SALLES, EML Álvaro.O que é Visão Computacional e para que serve? Santo Digital Cloud Consulting Services, 2024. Disponível em: https://santodigital.com.br/o-que-e-visao-computacional-e-para-que-serve/ . Acesso em: 26 de dezembro de 2023. SANGETTHA, Pedigi R. Visão computacional em tecnologia de ciência espacial: avanços e aplicações? Medium, 2023. Disponível em: https://medium.com/@prsangeetha/computer-vision-in-space-science- technology-advancements-and-applications-fcfcaf3aea8d. Acesso em: 26 de dezembro de 2023. SHEN, Chunhua. Segmentação Semântica Fracamente Supervisionada Baseada em Co-segmentação. ReserchGate, 2017. Disponível em: https://www.researchgate.net/figure/Qualitative-segmentation-results-on- PASCAL-VOC-2012-validation-set_fig1_317164080. Acesso em: 03 de janeiro de 2024. SERVICE, Equipe Amazon Web. O que é Computer Vision? Amazon Web Services (AWS), 2024. Disponível em: https://aws.amazon.com/pt/what-is/computer-vision/. Acesso em: 26 de dezembro de 2023. SERVICE, Equipe Amazon W. Rastreamento de objetos de nuvem de pontos 3D. Amazon Web Service (AWS), 2024. Disponível em: https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/sms-point-cloud-object- tracking.html . Acesso em: 05 de janeiro de 2024. RIBEIRO, Gabriel F. Considerado um dos pais da internet, Larry Roberts morre aos 81 anos. Tilt UOL, 2018. Disponível em: https://www.uol.com.br/tilt/noticias/redacao/2018/12/31/considerado-um-dos-pais-da-internet- larry-roberts-morre-aos-81-anos.htm?cmpid=copiaecola. Acesso em: 30 de dezembro de 2023.
  • 54.
    Referências: SYSTEM, Equipe StatisticalAnalysis. Visão Computacional: O que é e qual sua importância? Statistical Analysis System (SAS), 2024. Disponível em: https://www.sas.com/pt_br/insights/analytics/computer- vision.html#:~:text=Hist%C3%B3ria%20da%20vis%C3%A3o%20computacional,categorias%20como%20c%C3%ADrc ulos%20e%20quadrados. Acesso em: 26 de dezembro de 2023. VAMOSS. Visão Computacional: Ameaças À Privacidade e Possibilidades Criativas. Encontros Digitais, 2019. Disponível em: https://www.encontrosdigitais.com.br/articles/vamoss-Visao-computacional-privacidade-x- criatividade/ . Acesso em: 05 de janeiro de 2024. UNIVERSITY, Equipe Brown. Notícias de Brown: Pedro Felipe Felzenszwalb. A história de como ele mudou a IA. Brown University, 2024.. Disponível em: https://news.brown.edu/new-faculty/physical-sciences/pedro- felzenszwalb. Acesso em: 02 de janeiro de 2024. VIANA, Suzana. Um guia sobre Visão Computacional: Como os computadores enxergam? Medium, 2018. Disponível em: https://suzana-svm.medium.com/guia-visao-computacional-ae2a2ace0973. Acesso em: 26 de dezembro de 2023. STEVENS, Kent A. A visão de David Marr. ReserchGate, 2012. Disponível em: https://www.researchgate.net/figure/fig1_235626691. Acesso em: 31 de dezembro de 2023. WIKIPEDIA, Equipe. Yann LeCun. Wikipedia, 2024. Disponível em: https://en.wikipedia.org/wiki/Yann_LeCun . Acesso em: 02 de janeiro de 2024.
  • 55.
    Referências: ZILLIG, Julia. Demãos dadas, máquina e o ser humano. FEBRABAN TACH, 2016. Disponível em: https://febrabantech.febraban.org.br/temas/inteligencia-artificial/de-maos-dadas-maquina-e-o-ser-humano. Acesso em: 28 de dezembro de 2023. YAP, João Â. Quem é Alex Krizhevsky? A história de como ele mudou a IA. Golden Peguin, 2023. Disponível em: https://goldpenguin.org/blog/who-is-alex-krizhevsky/. Acesso em: 28 de dezembro de 2023.
  • 56.
    GRATIDÃO. André Amaral eRonaldo Maciel “E disse o Senhor: Eles são um só povo e falam uma só língua, e começaram a construir isso. Em breve nada poderá impedir o que planejam fazer. Venham, desçamos e confundamos a língua que falam, para que não entendam mais uns aos outros.” Gn 11: 6-7

Notas do Editor

  • #3 Tecnologia bastante discutida com crescimento na indústria e em outras áreas, no entanto, muitas pessoas ainda não entendem muito bem o que é essa visão e para que ela serve. Por isso, neste trabalho, vamos explorar o que é a visão computacional, suas aplicações e como ela está mudando o mundo em que vivemos. Um tópico bastante discutido na área de tecnologia, bem como uma das áreas com maior potencial de aplicação no mundo real
  • #4 Visão Humana: A visão humana é capaz de perceber uma grande variedade de informações, incluindo cor, forma, tamanho, textura, profundidade e movimento. Além disso, ela é capaz de fazer inferências e interpretações com base no contexto e na experiência. Visão das Máquinas: Disciplina da ciência da computação que se concentra no desenvolvimento de algoritmos e técnicas para permitir que os computadores interpretem e analisem imagens e vídeos. Arremesso da bola na nossa direção --- e o Quebra Cabeça: a imagem da esfera passa através de seu olho e golpeia sua retina, faz análise elementar e envia o resultado longitudinalmente ao cérebro, o córtex visual analisa mais profundamente a imagem. em seguida, ele envia para o resto do córtex, que compara a tudo o que já sabe, classifica os objetos e dimensões e, finalmente, decide sobre algo a fazer:   levantar a mão e pegar a bola (tendo previsto o seu caminho) Ver se cabe colocar o vídeo de 1m   Isso ocorre em uma pequena fração de segundo, com quase nenhum esforço consciente e quase nunca falha. Assim, recriar a visão humana não é apenas um problema difícil, é um conjunto deles, cada um dos quais depende do outro. Embora a visão humana e a visão computacional sejam diferentes em muitos aspectos, ambas são capazes de perceber e processar informações visuais.
  • #5 Ou seja, (fazer as maquinas enxergarem) é a tecnologia que permite que os computadores identifiquem e entendam as imagens e vídeos similarmente ao humanos através do uso de algoritmos de processamento de imagens e aprendizado de máquinas para analisar e interpretar e extrair informações úteis de imagens e vídeos. 1. Nesse contexto: uma vez que temos a habilidade de identificar objetos, estimar distâncias e compreender o ambiente ao nosso redor. 2. Processamento de Imagem: o processamento de imagem engloba um conjunto de técnicas e operações para modificar ou analisar uma imagem, visando melhorar sua qualidade ou extrair informações relevantes. 3. Apresentação do Organograma: Processamento de Imagem: o processamento de imagem engloba um conjunto de técnicas e operações para modificar ou analisar uma imagem, visando melhorar sua qualidade ou extrair informações relevantes. Objetivo: Melhorar a interpretação visual da imagem, remover ruídos, ajustar contraste, realçar características ou realizar operações específicas para atender aos requisitos da aplicação. Aplicações: Incluem correção de cores, filtragem de imagens, realce de bordas e outras transformações para melhorar a qualidade ou destacar características específicas. Reconstrução: a reconstrução em visão computacional refere-se à criação de uma representação tridimensional (3D) do mundo real a partir de imagens bidimensionais (2D) ou sequências de imagens. Objetivo: o objetivo é criar uma visualização espacial que possa ser utilizada para análise, medição e compreensão de objetos e cenas em três dimensões. Aplicações: Amplamente utilizado em áreas como reconstrução 3D de ambientes, modelagem de objetos, e em aplicações que envolvem a visualização de estruturas tridimensionais. Detecção e Correspondência: a Detecção refere-se à identificação de objetos ou padrões específicos em uma imagem, enquanto a Correspondência envolve a correspondência entre características em diferentes imagens. Objetivo: Detectar a presença de objetos de interesse e encontrar correspondências entre esses objetos em diferentes cenas ou imagens. Aplicações: Amplamente usado em reconhecimento de objetos, rastreamento de movimento, identificação de padrões e alinhamento de imagens. Segmentação: a segmentação divide uma imagem em regiões ou segmentos significativos com base em características como cor, intensidade, textura ou outros atributos visuais. Objetivo: Facilitar a análise, facilitando a identificação e o entendimento de diferentes partes ou objetos na imagem. Aplicações: Utilizada em diversas áreas, como medicina para identificar estruturas anatômicas, em vigilância para segmentar objetos de interesse e em reconhecimento de cena para isolamento de elementos específicos. 4. A Convergência: da IA com a Ciência da Computação: Por exemplo, muitas técnicas de aprendizado de máquina e algoritmos de IA são implementados usando conceitos fundamentais da ciência da computação. Da mesma forma, os desafios práticos enfrentados ao desenvolver sistemas de inteligência artificial muitas vezes levam ao desenvolvimento de novas teorias e abordagens na ciência da computação.
  • #6 Ou seja, (fazer as maquinas enxergarem) é a tecnologia que permite que os computadores identifiquem e entendam as imagens e vídeos similarmente ao humanos através do uso de algoritmos de processamento de imagens e aprendizado de máquinas para analisar e interpretar e extrair informações úteis de imagens e vídeos. 1. Nesse contexto: uma vez que temos a habilidade de identificar objetos, estimar distâncias e compreender o ambiente ao nosso redor. 2. Processamento de Imagem: o processamento de imagem engloba um conjunto de técnicas e operações para modificar ou analisar uma imagem, visando melhorar sua qualidade ou extrair informações relevantes. 3. Apresentação do Organograma: Processamento de Imagem: o processamento de imagem engloba um conjunto de técnicas e operações para modificar ou analisar uma imagem, visando melhorar sua qualidade ou extrair informações relevantes. Objetivo: Melhorar a interpretação visual da imagem, remover ruídos, ajustar contraste, realçar características ou realizar operações específicas para atender aos requisitos da aplicação. Aplicações: Incluem correção de cores, filtragem de imagens, realce de bordas e outras transformações para melhorar a qualidade ou destacar características específicas. Reconstrução: a reconstrução em visão computacional refere-se à criação de uma representação tridimensional (3D) do mundo real a partir de imagens bidimensionais (2D) ou sequências de imagens. Objetivo: o objetivo é criar uma visualização espacial que possa ser utilizada para análise, medição e compreensão de objetos e cenas em três dimensões. Aplicações: Amplamente utilizado em áreas como reconstrução 3D de ambientes, modelagem de objetos, e em aplicações que envolvem a visualização de estruturas tridimensionais. Detecção e Correspondência: a Detecção refere-se à identificação de objetos ou padrões específicos em uma imagem, enquanto a Correspondência envolve a correspondência entre características em diferentes imagens. Objetivo: Detectar a presença de objetos de interesse e encontrar correspondências entre esses objetos em diferentes cenas ou imagens. Aplicações: Amplamente usado em reconhecimento de objetos, rastreamento de movimento, identificação de padrões e alinhamento de imagens. Segmentação: a segmentação divide uma imagem em regiões ou segmentos significativos com base em características como cor, intensidade, textura ou outros atributos visuais. Objetivo: Facilitar a análise, facilitando a identificação e o entendimento de diferentes partes ou objetos na imagem. Aplicações: Utilizada em diversas áreas, como medicina para identificar estruturas anatômicas, em vigilância para segmentar objetos de interesse e em reconhecimento de cena para isolamento de elementos específicos. 4. A Convergência: da IA com a Ciência da Computação: Por exemplo, muitas técnicas de aprendizado de máquina e algoritmos de IA são implementados usando conceitos fundamentais da ciência da computação. Da mesma forma, os desafios práticos enfrentados ao desenvolver sistemas de inteligência artificial muitas vezes levam ao desenvolvimento de novas teorias e abordagens na ciência da computação.
  • #7 Tanto para humanos quanto para computadores, uma imagem é uma grade bidimensional, com cada célula preenchida por um valor de pixel. A computação visualiza a imagem como uma matriz de números, onde cada célula armazena o valor correspondente na imagem.
  • #8 Tanto para humanos quanto para computadores, uma imagem é uma grade bidimensional, com cada célula preenchida por um valor de pixel. A computação visualiza a imagem como uma matriz de números, onde cada célula armazena o valor correspondente na imagem.
  • #9 Em uma imagem em escala de cinza, cada pixel possui um valor entre 0 e 255, onde zero representa "preto" e 255 representa "branco". Os valores intermediários entre 0 e 255 representam uma variedade de tons de cinza, sendo os valores mais próximos de 0 mais escuros, enquanto os mais próximos de 255 são mais claros. Tanto para humanos quanto para computadores, uma imagem é uma grade bidimensional, com cada célula preenchida por um valor de pixel. A computação visualiza a imagem como uma matriz de números, onde cada célula armazena o valor correspondente na imagem.
  • #10 Em uma imagem em escala de cinza, cada pixel possui um valor entre 0 e 255, onde zero representa "preto" e 255 representa "branco". Os valores intermediários entre 0 e 255 representam uma variedade de tons de cinza, sendo os valores mais próximos de 0 mais escuros, enquanto os mais próximos de 255 são mais claros. Tanto para humanos quanto para computadores, uma imagem é uma grade bidimensional, com cada célula preenchida por um valor de pixel. A computação visualiza a imagem como uma matriz de números, onde cada célula armazena o valor correspondente na imagem.
  • #11 Em uma imagem em escala de cinza, cada pixel possui um valor entre 0 e 255, onde zero representa "preto" e 255 representa "branco". Os valores intermediários entre 0 e 255 representam uma variedade de tons de cinza, sendo os valores mais próximos de 0 mais escuros, enquanto os mais próximos de 255 são mais claros. Tanto para humanos quanto para computadores, uma imagem é uma grade bidimensional, com cada célula preenchida por um valor de pixel. A computação visualiza a imagem como uma matriz de números, onde cada célula armazena o valor correspondente na imagem.
  • #12 7ª etapa: Interpretação e Tomada de Decisões: por fim, a análise dos resultados finais para tomar decisões ou realizar ações com base nas informações extraídas da imagem.
  • #13 7ª etapa: Interpretação e Tomada de Decisões: por fim, a análise dos resultados finais para tomar decisões ou realizar ações com base nas informações extraídas da imagem.
  • #14 7ª etapa: Interpretação e Tomada de Decisões: por fim, a análise dos resultados finais para tomar decisões ou realizar ações com base nas informações extraídas da imagem.
  • #15 7ª etapa: Interpretação e Tomada de Decisões: por fim, a análise dos resultados finais para tomar decisões ou realizar ações com base nas informações extraídas da imagem.
  • #16 Cientistas da computação de todo o mundo vêm tentando encontrar maneiras de fazer com que as máquinas extraiam significado de dados visuais há cerca de 60 anos, e a história da Visão Computacional, sobre a qual a maioria das pessoas não sabe muito, é profundamente fascinante. The Economist: A reabilitação da “IA” e o entusiasmo atual sobre o campo remontam a 2012 e a um concurso online chamado ImageNet Challenge. ImageNet é um banco de dados online de milhões de imagens, todas rotuladas manualmente. Para qualquer palavra, como “balão” ou “morango”, o ImageNet contém várias centenas de imagens.
  • #17 Da primeira foto de Russell Kirsch: Era apenas uma foto granulada de 5 cm por 5 cm capturada como 30.976 pixels (matriz 176x176). Do 3D de Lawrence Roberts: Deve-se notar que Lawrence não permaneceu na Visão Computacional por muito tempo. Em vez disso, ele ingressou na DARPA e agora é conhecido como um dos inventores da Internet.
  • #18 Da primeira foto de Russell Kirsch: Era apenas uma foto granulada de 5 cm por 5 cm capturada como 30.976 pixels (matriz 176x176). Do 3D de Lawrence Roberts: Deve-se notar que Lawrence não permaneceu na Visão Computacional por muito tempo. Em vez disso, ele ingressou na DARPA e agora é conhecido como um dos inventores da Internet.
  • #19  Kunihihiko Fukushima: Neocognitron é o avô dos ConvNets de hoje.
  • #20  Kunihihiko Fukushima: Neocognitron é o avô dos ConvNets de hoje.
  • #21 O MNIST tem sido um benchmark padrão para avaliar o desempenho de algoritmos de classificação de imagem. Jitendra Malik e Jianbo Shi: Para determinar automaticamente quais pixels de uma imagem pertencem uns aos outros e distinguir objetos de seu entorno. -  problema do agrupamento perceptual ainda é algo com que os especialistas em CV se debatem.
  • #22 Pascal VOC: Os conjuntos de dados do geralmente incluem imagens rotuladas com objetos pertencentes a diferentes classes, como pessoas, carros, bicicletas, animais.
  • #25 CAGR (Taxa de Crescimento Anual Composta): É uma medida utilizada para calcular a taxa média de crescimento anual de um investimento ao longo de um período específico
  • #26 CAGR (Taxa de Crescimento Anual Composta): É uma medida utilizada para calcular a taxa média de crescimento anual de um investimento ao longo de um período específico