SlideShare uma empresa Scribd logo
1 de 37
Baixar para ler offline
Começando com
Inteligência Artificial e
Machine Learning
Aprenda sobre o tamanho potencial
e possibilidade no segmento
Patrocínio:
● Mestre em engenharia de software pelo IPT
● + 12 anos de experiência em projetos de
automação industrial, engenharia de
dados/software e ciência de dados
● Atualmente combina conhecimentos técnicos e
gestão de equipes que envolvem tecnologias de
Big Data como: streaming, data discovery,
plataforma de dados em ambientes de nuvem
● Entusiasta de Python, tem trabalhado com
tecnologias de ponta como Airflow, Spark, K8s,
Kafka, Amundsen e stack AWS
Quem sou eu?
Raphael Castilho Gil / Tech
Manager
Agenda
1 - Mercado Atual.
2 - O que é IA/Machine Learning?
3 - Conhecimentos recomendados
4 - Tipos de Aprendizagem
5 - Passos para o treinamento de um modelo
6 - AutoML
7 - Problemas comum com Data Science
8 - Criei meu modelo, e agora?
9 - Hands-On
Mercado Atual 01
Mercado Atual
Fonte:
https://quanthub.com/data-scientist-shortage-2020/
O que é IA/Machine
Learning? 02
O que é IA/Machine Learning?
Fonte:
https://medium.com/@harish_6956/what-is-ma
chine-learning-deep-learning-7788604004da
Conhecimentos
Recomendados 03
● Estatística;
● Conhecer alguns algoritmos
○ Como encontra-los nas bibliotecas também
ajuda.
● Programação;
○ Python ou R são as linguagens preferidas
● Preparação dos dados
● Estruturação dos dados
○ Lembrando que existem estratégias para
pequena massa de dados e outras para uma
grande massa de dados.
● Conhecimento no Negócio
○ Importante saber o que você quer resolver; e
qual a dor do negócio;
Conhecimentos Recomendados
Ferramentas
Fonte:
https://towardsdatascience.com/feature-selection-techniques-in-mach
ine-learning-with-python-f24e7da3f36e
Ferramentas
Biblioteca desenvolvida com
múltiplos algoritmos desenvolvidos
Biblioteca desenvolvida em
python que tende a realizar uma
maior abstração para simplificar a
utilização de redes neurais
Biblioteca desenvolvida em
python que tende a realizar uma
maior abstração para simplificar a
utilização de redes neurais
Módulo do framework Spark para
utilização em múltiplas aplicações de ML
e focado em grande massa de dados.
Framework criada para a
linguagem Python para
manipulação e análise de dados
Tipos de
Aprendizagem 04
Tipos de aprendizagem
SUPERVISIONADOS:
● Classificação:
○ Predizer um resultado em relação às
classes já existentes;
○ Tipos de algoritmos:
■ SVM (Support vector Machine)
■ Árvore de Decisão
■ Classificação Naïve Bayes
● Regressão:
○ Predizer um valor futuro numérico;
○ Tipos de algoritmos:
■ Regressão linear
■ Regressão Logística
■ SVR
Fonte:https://medium.com/diogo-menezes-borges/machi
ne-learning-with-or-without-human-supervision-b47b3a2
835f3
Tipos de aprendizagem
NÃO SUPERVISIONADO:
● Sem rótulos nos dados;
● Descobrir similaridade entre os
objetos
● Tipos de algoritmo:
○ Algoritmo de agrupamento;
○ Decomposição em valores
singulares
○ Análise de Componentes
Principais
Fonte:https://medium.com/diogo-menezes-borges/machi
ne-learning-with-or-without-human-supervision-b47b3a2
835f3
Tipos de aprendizagem
● Comprimento de largura das suas
pétalas e sépalas.
● Conseguimos identificar 3 grupos
segregados, sem saber os rótulos de
cada flor
Fonte:
https://www.lambda3.com.br/2020/03/aprendizagem-nao
-supervisionada/
Passos para o
treinamento de um
modelo 05
Passos para treinamento de um modelo
● Passos para criação de um modelo clássico:
○ Feature Selection: Fase na qual realiza-se uma busca por padrões e relacionamento para resposta final
(Normalmente despende-se 80% do tempo nessa fase). Nessa fase também ocorre a qualidade do dado
(Remoção de Nulos, duplicados, entre outros):
■ Filtragem:
● Usa de Matriz: Mostra o coeficiente de correlação (ou correlação de Person) entre as features
escolhidas;
● Outros métodos estatísticos (Média, Mediana, LDA, ANOVA, Chi-Square, ...)
○ Conjunto:
■ Combinação de filtragem com seleção automática;
Todas as
features
Seleção de
Subset
Aprendizagem Performance
Todas as
features
Geração de
subset
Aprendizagem
+ Performance
Passos para treinamento de um modelo
● Treinamento: O modelo inicia o
treinamento com os dados adquiridos,
pode ser realizada as seguintes
estratégias:
■ 70-30: 70% para treinamento e
30% para avaliação
■ Cross-Validation: Separação
em grupos e coletas de grupos
para treino e validação.
Procedimento e realizado em
diversas ordens.
Passos para treinamento de um modelo
● Treinamento: Fase que pode gerar os
seguintes resultados:
○ OverFitting:
■ Os valores estimados são idênticos ou
muito próximos aos durante o treino.
Pode proporcionar estimativa
equivocada com dados que não
estejam no treino;
■ Causa: Excesso de parâmetros de
entrada, Maior proporção de treino que
da estimativa
○ UnderFitting
■ Alta discrepância entre o real e o
estimado;
■ Causas: Falta de dados para treino ou
pouca quantidade de features de
entrada reduzidos
Passos para treinamento de um modelo
● Avaliação do Treinamento
○ Resultados:
■ Classificatório:
● Precision =
● Recall =
● F1-Score =
■ Regressão:
● R quadrado: Conhecido também com
Coeficiente de Determinação, mede
entre 0 e 1 quanto valor encaixa nos
dados.
Fonte:
https://medium.com/@erika.dauria/looking-at-r-squared-721252709098
AutoML 06
AutoML
● Várias etapas e falta de profissional complica o dia a
dia de geração de modelos, logo surge uma proposta
mais simplificada.
● Alguns frameworks têm surgido para simplificar o dia
a dia e democratizar a entrada no mundo de ML
AutoML
● Mas é a função do Data Scientist, onde fica?
○ Os Data Scientist conseguem focar mais
seu tempo em entender os problemas a
serem resolvidos;
○ Para as empresas será importante para
criar soluçòes simplificadas. Se a cada
problema surgisse tivéssemos um Data
Scientist, não teríamos como gerar
escalabilidade
○ Empresas como Google, Facebook e Sales
Force já tem adotado soluções similares e
mesmo assim vemos as vagas de Data
Scientist crescerem
●
Fonte:
https://towardsdatascience.com/will-automl-be-the-end-of-data-scienti
sts-9af3e63990e0
Problemas comum
com Data Science 07
Problemas comum em Data Science
● Preparação dos seus dados;
● LGPD;
● Comunicação com o negócio;
● Políticas nas empresas;
● Múltiplas fontes de dados;
● Modelos não funcionais na vida real
● Interação com outros times de dados, principalmente
com a Engenharia de Dados,
Criei meu modelo, e
agora? 08
Criei meu modelo, e agora?
● Colocar em produção o modelo pode não ser um
tarefa fácil :
○ Ter um código testado e performático;
○ Como retreinar?
○ O modelo será com dados em tempo
real ou histórico?
● Eis que surge uma nova função e cultura:
Engenheiro de Machine Learning e MLOps
Criei meu modelo, e agora?
● MLOps:
○ Treinar um modelo de forma
performática
○ Criar uma automatização de
treinamento
○ Orquestrar formas automatizadas
de coleta da predição
● ML Engineer:
○ Programação
○ DevOps
■ Docker, K8S;
○ Modelos
○ Computação Distribuída
○ Comunicação
○ Prototipação
Hands-On 09
Cenário Hands-On
● Deafio Kaggle:
https://www.kaggle.com/sakshigoyal7/credit-card-custo
mers
● Git: https://github.com/raphaccgil/deep_tech_ml
● Resumo:
○ Consumidores estão deixando um
companhia de cartão de crédito e o gerente
pretende tomar alguma ação antes que isso
ocorra.
○ A idéia é criar um modelo que, com os dados
disponíveis, consiga predizer clientes que
tenham a possibilidade de deixar de usar o
cartão de crédito
○ Nesse caso, temos disponível 10000 amostras,
sendo que somente 16,07% são amostras de
usuários que deixaram o cartão
Cenário Hands-On
● Análise estatística de alguns dados:
○ Consumidores que estão no cartão:
○ Consumidores que deixaram o cartão:
Cenário Hands-On
● Correlação de Person
○ Consumidores que estão no
cartão:
○ Consumidores que deixaram o
cartão:
Cenário Hands-On
● Features selecionadas
○ Customer_Age;
○ Gender;
○ Education_Level
○ Total_Relationship_Count
○ Months_Inactive_12_mon
○ Credit_Limit
○ Avg_Utilization_Ratio
● Modelos selecionados e resultados
○ SVM
■ Precision: 83,9%
■ F1-Score: 45,6%
○ Gradient Boost
■ Precision: 86,9%
■ F1-Score: 63,5%
Cenário Hands-On
● Possível Arquitetura para Deploy
○ Disponibilizar o dado via Rest
API
○ Container 1 para retreinar o
modelo
○ Container 2 disponibilizar um
servidor de API
○ Orquestrador para retreinar e
carregar um novo arquivo
excel
OBRIGADO!
OBRIGADO!
Tem alguma dúvida?
raphacgil@gmail.com
linkedin.com/in/raphacgil
github.com/raphaccgil

Mais conteúdo relacionado

Mais procurados

Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comPentahoBrasil
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisCicero Joasyo Mateus de Moura
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewRoberto Oliveira
 
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Caio Moreno
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMarco Garcia
 
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...tdc-globalcode
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Caio Moreno
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Finaljcaroso
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Bancos de Dados Pós-Relacionais
Bancos de Dados Pós-RelacionaisBancos de Dados Pós-Relacionais
Bancos de Dados Pós-Relacionaiselliando dias
 

Mais procurados (20)

Criando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.comCriando Indicadores de Negócios com o Pentaho na Globo.com
Criando Indicadores de Negócios com o Pentaho na Globo.com
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - Qlikview
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
 
Metodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho DayMetodologia Ágil para Projetos de BI - Pentaho Day
Metodologia Ágil para Projetos de BI - Pentaho Day
 
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
 
Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Bancos de Dados Pós-Relacionais
Bancos de Dados Pós-RelacionaisBancos de Dados Pós-Relacionais
Bancos de Dados Pós-Relacionais
 

Semelhante a IA e ML: Uma introdução

Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data WarehouseMarco Garcia
 
(curso) Inteligência Artificial nos negócios
(curso) Inteligência Artificial nos negócios(curso) Inteligência Artificial nos negócios
(curso) Inteligência Artificial nos negóciosPierre GUILLOU
 
Machine Learning Canvas: Da coleta de dados à geração de valor
Machine Learning Canvas: Da coleta de dados à geração de valorMachine Learning Canvas: Da coleta de dados à geração de valor
Machine Learning Canvas: Da coleta de dados à geração de valorAlexandre Ray
 
Criando o mvp (minimum viable product)
Criando o mvp (minimum viable product)Criando o mvp (minimum viable product)
Criando o mvp (minimum viable product)Daniel Campos
 
Machine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMachine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMarlesson Santana
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Palestra sobre Métricas para Performance
Palestra sobre Métricas para PerformancePalestra sobre Métricas para Performance
Palestra sobre Métricas para PerformanceRicardo T. Dias
 
Modelagem de Sistemas de Informação
Modelagem de Sistemas de InformaçãoModelagem de Sistemas de Informação
Modelagem de Sistemas de InformaçãoHelder Lopes
 
Machine Learning com Vowpal Wabbit
Machine Learning com Vowpal WabbitMachine Learning com Vowpal Wabbit
Machine Learning com Vowpal WabbitLabs Alfacon
 
Project model-canvas-apresentacao
Project model-canvas-apresentacaoProject model-canvas-apresentacao
Project model-canvas-apresentacaoleopaiva217101
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Durotdc-globalcode
 
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves Rocha
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves RochaV Café & CODE - Provocações do Mestre - Prof. MSc. Cloves Rocha
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves RochaCloves da Rocha
 
Automated Machine Learning
Automated Machine LearningAutomated Machine Learning
Automated Machine LearningOrlando Mariano
 
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdBSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdMauro Risonho de Paula Assumpcao
 
tdc-2022-poa-quem-tem-medo-low-code.pdf
tdc-2022-poa-quem-tem-medo-low-code.pdftdc-2022-poa-quem-tem-medo-low-code.pdf
tdc-2022-poa-quem-tem-medo-low-code.pdfDouglas Siviotti
 
Métricas - Maratona Digital
Métricas - Maratona DigitalMétricas - Maratona Digital
Métricas - Maratona DigitalMaratona Digital
 

Semelhante a IA e ML: Uma introdução (20)

Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data Warehouse
 
(curso) Inteligência Artificial nos negócios
(curso) Inteligência Artificial nos negócios(curso) Inteligência Artificial nos negócios
(curso) Inteligência Artificial nos negócios
 
Machine Learning Canvas: Da coleta de dados à geração de valor
Machine Learning Canvas: Da coleta de dados à geração de valorMachine Learning Canvas: Da coleta de dados à geração de valor
Machine Learning Canvas: Da coleta de dados à geração de valor
 
Criando o mvp (minimum viable product)
Criando o mvp (minimum viable product)Criando o mvp (minimum viable product)
Criando o mvp (minimum viable product)
 
Machine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMachine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produção
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Palestra sobre Métricas para Performance
Palestra sobre Métricas para PerformancePalestra sobre Métricas para Performance
Palestra sobre Métricas para Performance
 
Modelagem de Sistemas de Informação
Modelagem de Sistemas de InformaçãoModelagem de Sistemas de Informação
Modelagem de Sistemas de Informação
 
Machine Learning com Vowpal Wabbit
Machine Learning com Vowpal WabbitMachine Learning com Vowpal Wabbit
Machine Learning com Vowpal Wabbit
 
Project model-canvas-apresentacao
Project model-canvas-apresentacaoProject model-canvas-apresentacao
Project model-canvas-apresentacao
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
 
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves Rocha
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves RochaV Café & CODE - Provocações do Mestre - Prof. MSc. Cloves Rocha
V Café & CODE - Provocações do Mestre - Prof. MSc. Cloves Rocha
 
Automated Machine Learning
Automated Machine LearningAutomated Machine Learning
Automated Machine Learning
 
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdBSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
 
DataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos OeirasDataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos Oeiras
 
Diversas Ferramentas de dados
Diversas Ferramentas de dadosDiversas Ferramentas de dados
Diversas Ferramentas de dados
 
tdc-2022-poa-quem-tem-medo-low-code.pdf
tdc-2022-poa-quem-tem-medo-low-code.pdftdc-2022-poa-quem-tem-medo-low-code.pdf
tdc-2022-poa-quem-tem-medo-low-code.pdf
 
Métricas - Maratona Digital
Métricas - Maratona DigitalMétricas - Maratona Digital
Métricas - Maratona Digital
 

IA e ML: Uma introdução

  • 1. Começando com Inteligência Artificial e Machine Learning Aprenda sobre o tamanho potencial e possibilidade no segmento
  • 3. ● Mestre em engenharia de software pelo IPT ● + 12 anos de experiência em projetos de automação industrial, engenharia de dados/software e ciência de dados ● Atualmente combina conhecimentos técnicos e gestão de equipes que envolvem tecnologias de Big Data como: streaming, data discovery, plataforma de dados em ambientes de nuvem ● Entusiasta de Python, tem trabalhado com tecnologias de ponta como Airflow, Spark, K8s, Kafka, Amundsen e stack AWS Quem sou eu? Raphael Castilho Gil / Tech Manager
  • 4. Agenda 1 - Mercado Atual. 2 - O que é IA/Machine Learning? 3 - Conhecimentos recomendados 4 - Tipos de Aprendizagem 5 - Passos para o treinamento de um modelo 6 - AutoML 7 - Problemas comum com Data Science 8 - Criei meu modelo, e agora? 9 - Hands-On
  • 7. O que é IA/Machine Learning? 02
  • 8. O que é IA/Machine Learning? Fonte: https://medium.com/@harish_6956/what-is-ma chine-learning-deep-learning-7788604004da
  • 10. ● Estatística; ● Conhecer alguns algoritmos ○ Como encontra-los nas bibliotecas também ajuda. ● Programação; ○ Python ou R são as linguagens preferidas ● Preparação dos dados ● Estruturação dos dados ○ Lembrando que existem estratégias para pequena massa de dados e outras para uma grande massa de dados. ● Conhecimento no Negócio ○ Importante saber o que você quer resolver; e qual a dor do negócio; Conhecimentos Recomendados
  • 12. Ferramentas Biblioteca desenvolvida com múltiplos algoritmos desenvolvidos Biblioteca desenvolvida em python que tende a realizar uma maior abstração para simplificar a utilização de redes neurais Biblioteca desenvolvida em python que tende a realizar uma maior abstração para simplificar a utilização de redes neurais Módulo do framework Spark para utilização em múltiplas aplicações de ML e focado em grande massa de dados. Framework criada para a linguagem Python para manipulação e análise de dados
  • 14. Tipos de aprendizagem SUPERVISIONADOS: ● Classificação: ○ Predizer um resultado em relação às classes já existentes; ○ Tipos de algoritmos: ■ SVM (Support vector Machine) ■ Árvore de Decisão ■ Classificação Naïve Bayes ● Regressão: ○ Predizer um valor futuro numérico; ○ Tipos de algoritmos: ■ Regressão linear ■ Regressão Logística ■ SVR Fonte:https://medium.com/diogo-menezes-borges/machi ne-learning-with-or-without-human-supervision-b47b3a2 835f3
  • 15. Tipos de aprendizagem NÃO SUPERVISIONADO: ● Sem rótulos nos dados; ● Descobrir similaridade entre os objetos ● Tipos de algoritmo: ○ Algoritmo de agrupamento; ○ Decomposição em valores singulares ○ Análise de Componentes Principais Fonte:https://medium.com/diogo-menezes-borges/machi ne-learning-with-or-without-human-supervision-b47b3a2 835f3
  • 16. Tipos de aprendizagem ● Comprimento de largura das suas pétalas e sépalas. ● Conseguimos identificar 3 grupos segregados, sem saber os rótulos de cada flor Fonte: https://www.lambda3.com.br/2020/03/aprendizagem-nao -supervisionada/
  • 17. Passos para o treinamento de um modelo 05
  • 18. Passos para treinamento de um modelo ● Passos para criação de um modelo clássico: ○ Feature Selection: Fase na qual realiza-se uma busca por padrões e relacionamento para resposta final (Normalmente despende-se 80% do tempo nessa fase). Nessa fase também ocorre a qualidade do dado (Remoção de Nulos, duplicados, entre outros): ■ Filtragem: ● Usa de Matriz: Mostra o coeficiente de correlação (ou correlação de Person) entre as features escolhidas; ● Outros métodos estatísticos (Média, Mediana, LDA, ANOVA, Chi-Square, ...) ○ Conjunto: ■ Combinação de filtragem com seleção automática; Todas as features Seleção de Subset Aprendizagem Performance Todas as features Geração de subset Aprendizagem + Performance
  • 19. Passos para treinamento de um modelo ● Treinamento: O modelo inicia o treinamento com os dados adquiridos, pode ser realizada as seguintes estratégias: ■ 70-30: 70% para treinamento e 30% para avaliação ■ Cross-Validation: Separação em grupos e coletas de grupos para treino e validação. Procedimento e realizado em diversas ordens.
  • 20. Passos para treinamento de um modelo ● Treinamento: Fase que pode gerar os seguintes resultados: ○ OverFitting: ■ Os valores estimados são idênticos ou muito próximos aos durante o treino. Pode proporcionar estimativa equivocada com dados que não estejam no treino; ■ Causa: Excesso de parâmetros de entrada, Maior proporção de treino que da estimativa ○ UnderFitting ■ Alta discrepância entre o real e o estimado; ■ Causas: Falta de dados para treino ou pouca quantidade de features de entrada reduzidos
  • 21. Passos para treinamento de um modelo ● Avaliação do Treinamento ○ Resultados: ■ Classificatório: ● Precision = ● Recall = ● F1-Score = ■ Regressão: ● R quadrado: Conhecido também com Coeficiente de Determinação, mede entre 0 e 1 quanto valor encaixa nos dados. Fonte: https://medium.com/@erika.dauria/looking-at-r-squared-721252709098
  • 23. AutoML ● Várias etapas e falta de profissional complica o dia a dia de geração de modelos, logo surge uma proposta mais simplificada. ● Alguns frameworks têm surgido para simplificar o dia a dia e democratizar a entrada no mundo de ML
  • 24. AutoML ● Mas é a função do Data Scientist, onde fica? ○ Os Data Scientist conseguem focar mais seu tempo em entender os problemas a serem resolvidos; ○ Para as empresas será importante para criar soluçòes simplificadas. Se a cada problema surgisse tivéssemos um Data Scientist, não teríamos como gerar escalabilidade ○ Empresas como Google, Facebook e Sales Force já tem adotado soluções similares e mesmo assim vemos as vagas de Data Scientist crescerem ● Fonte: https://towardsdatascience.com/will-automl-be-the-end-of-data-scienti sts-9af3e63990e0
  • 26. Problemas comum em Data Science ● Preparação dos seus dados; ● LGPD; ● Comunicação com o negócio; ● Políticas nas empresas; ● Múltiplas fontes de dados; ● Modelos não funcionais na vida real ● Interação com outros times de dados, principalmente com a Engenharia de Dados,
  • 27. Criei meu modelo, e agora? 08
  • 28. Criei meu modelo, e agora? ● Colocar em produção o modelo pode não ser um tarefa fácil : ○ Ter um código testado e performático; ○ Como retreinar? ○ O modelo será com dados em tempo real ou histórico? ● Eis que surge uma nova função e cultura: Engenheiro de Machine Learning e MLOps
  • 29. Criei meu modelo, e agora? ● MLOps: ○ Treinar um modelo de forma performática ○ Criar uma automatização de treinamento ○ Orquestrar formas automatizadas de coleta da predição ● ML Engineer: ○ Programação ○ DevOps ■ Docker, K8S; ○ Modelos ○ Computação Distribuída ○ Comunicação ○ Prototipação
  • 31. Cenário Hands-On ● Deafio Kaggle: https://www.kaggle.com/sakshigoyal7/credit-card-custo mers ● Git: https://github.com/raphaccgil/deep_tech_ml ● Resumo: ○ Consumidores estão deixando um companhia de cartão de crédito e o gerente pretende tomar alguma ação antes que isso ocorra. ○ A idéia é criar um modelo que, com os dados disponíveis, consiga predizer clientes que tenham a possibilidade de deixar de usar o cartão de crédito ○ Nesse caso, temos disponível 10000 amostras, sendo que somente 16,07% são amostras de usuários que deixaram o cartão
  • 32. Cenário Hands-On ● Análise estatística de alguns dados: ○ Consumidores que estão no cartão: ○ Consumidores que deixaram o cartão:
  • 33. Cenário Hands-On ● Correlação de Person ○ Consumidores que estão no cartão: ○ Consumidores que deixaram o cartão:
  • 34. Cenário Hands-On ● Features selecionadas ○ Customer_Age; ○ Gender; ○ Education_Level ○ Total_Relationship_Count ○ Months_Inactive_12_mon ○ Credit_Limit ○ Avg_Utilization_Ratio ● Modelos selecionados e resultados ○ SVM ■ Precision: 83,9% ■ F1-Score: 45,6% ○ Gradient Boost ■ Precision: 86,9% ■ F1-Score: 63,5%
  • 35. Cenário Hands-On ● Possível Arquitetura para Deploy ○ Disponibilizar o dado via Rest API ○ Container 1 para retreinar o modelo ○ Container 2 disponibilizar um servidor de API ○ Orquestrador para retreinar e carregar um novo arquivo excel