SlideShare uma empresa Scribd logo
1 de 50
@timotta
Machine Learning
no dia a dia do desenvolvedor
@timotta
Problemas
determinísticos
@timotta
seu código
@timotta
framework
seu código
plataforma
biblioteca
biblioteca
banco de
dados
@timotta
@timotta
Problemas
probabilísticos
@timotta
@timotta
@timotta
@timotta
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
99% de acurácia
@timotta
Label leak
y
Xy leaked
@timotta
Label leak with pandas index
y
X~y leaked
@timotta
Dataset desbalanceado
99% sem fraude
1%
com
fraude
@timotta
Dataset desbalanceado
99% sem fraude
1%
com
fraude
100%
previsto
sem fraude
algoritmo
@timotta
~85% de acurácia
@timotta
Preprocessing leak
Dataset
seleção de
features
escalonamento
split
treino/teste
@timotta
Evitando preprocessing leak
seletor de features
escalonador
split treino/teste
Dataset treino Dataset teste
@timotta
Pair analysis &
Analysis review
@timotta
Primeiro modeloLiftpercentual
Acuráciatotal
@timotta
Segundo modeloLiftpercentual
Acuráciatotal
@timotta
Pareto e frustraçãoLiftpercentual
Acuráciatotal
@timotta
Colocando em
produção
@timotta
Colocando em produção
modelo
preparação
Dataset
save
@timotta
Colocando em produção
modelo ML api
preparação
Dataset
load
Requests
@timotta
Micro serviços dividindo a responsabilidade
ML api
Requests
apifront-end
requests
BD
@timotta
Com grande datasets (Imagem, video…)
ML api
Requestsapi
front-end
requests
Media
Storage
BD
@timotta
Atualização
automática do
modelo
@timotta
Atualização do modelo
modelo
preparação
Dataset
job de
treino
histórico de
resultados
@timotta
Modelo enviesado
modelo 1
Dataset 1
treino 1
Dataset 2
treino 2
modelo 2
@timotta
Modelo enviesado
modelo 1
Dataset 1
treino 1
Dataset 2
treino 2
modelo 2
Parte dos
dados ignorada
aleatoriamente
pelo modelo 1
@timotta
10% ciência de dados
90% engenharia
@timotta
@timotta
Bigdata
na OLX
- Datalake acessível
@timotta
Bigdata
na OLX
- Datalake acessível
- Coleta de sinais
simplificada
@timotta
Bigdata
na OLX
- Datalake acessível
- Coleta de sinais
simplificada
- Jupyter as a service
@timotta
Bigdata
na OLX
- Datalake acessível
- Coleta de sinais
simplificada
- Jupyter as a service
- Cursos e
treinamentos
@timotta
Bigdata
na OLX
- Datalake acessível
- Coleta de sinais
simplificada
- Jupyter as a service
- Cursos e
treinamentos
- Squad de cientistas
de dados
@timotta
Bigdata squad
outros squads
@timotta
Modelos prontos e em desenvolvimento
- Identificação de fraude
- Identificação de anúncios inválidos
- Sugestão de categoria
- Previsão do próximo anúncio
- Identificação de uma conversa fechando negócio
- Estimativa de preço
- Recomendação de anúncio
- Identificação de conversa fraudulenta
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
@timotta
timotta@gmail.com

Mais conteúdo relacionado

Semelhante a ML no dia a dia do desenvolvedor

Testes de software automatizados
Testes de software automatizadosTestes de software automatizados
Testes de software automatizadosMarcelo Andrade
 
[CLASS 2014] Palestra Técnica - Renato Mendes
[CLASS 2014] Palestra Técnica - Renato Mendes[CLASS 2014] Palestra Técnica - Renato Mendes
[CLASS 2014] Palestra Técnica - Renato MendesTI Safe
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
 
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...[DevOps Summit]Importância de testes automatizados para sustentar Continuous...
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...Samanta Cicilia
 
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidadeCarlos Augusto Oeiras
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Criando Símbolos Otimizados para Projetos no InduSoft Web Studio
Criando Símbolos Otimizados para Projetos no InduSoft Web StudioCriando Símbolos Otimizados para Projetos no InduSoft Web Studio
Criando Símbolos Otimizados para Projetos no InduSoft Web StudioAVEVA
 
Desenvolvimento Web - Palestra Coding Night #3 - Microsoft
Desenvolvimento Web - Palestra Coding Night #3 - MicrosoftDesenvolvimento Web - Palestra Coding Night #3 - Microsoft
Desenvolvimento Web - Palestra Coding Night #3 - MicrosoftRubens Guimarães - MTAC MVP
 
Software de impressão segura por biometria - Thiarlei - Impressão Gerenciada
Software de impressão segura por biometria - Thiarlei - Impressão GerenciadaSoftware de impressão segura por biometria - Thiarlei - Impressão Gerenciada
Software de impressão segura por biometria - Thiarlei - Impressão GerenciadaThiarlei Macedo
 
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...Rubens Guimarães - MTAC MVP
 
Apresentação tema 9 Segurança das Informações e Continuidade dos negócios
Apresentação tema 9 Segurança das Informações e Continuidade dos negóciosApresentação tema 9 Segurança das Informações e Continuidade dos negócios
Apresentação tema 9 Segurança das Informações e Continuidade dos negóciosSanger Dias
 
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...minastestingconference
 
Introdução a linguagem Python
Introdução a linguagem PythonIntrodução a linguagem Python
Introdução a linguagem PythonLuciano Ramalho
 
Análise estática de código Python
Análise estática de código PythonAnálise estática de código Python
Análise estática de código PythonGuilherme Vierno
 
Importância de Testes Automatizados para Continuous Delivery & DevOps
Importância de Testes Automatizados para Continuous Delivery & DevOpsImportância de Testes Automatizados para Continuous Delivery & DevOps
Importância de Testes Automatizados para Continuous Delivery & DevOpsSamanta Cicilia
 
Devfest Cerrado: Angular 2
Devfest Cerrado: Angular 2 Devfest Cerrado: Angular 2
Devfest Cerrado: Angular 2 Loiane Groner
 
Angular 2 em 60 minutos
Angular 2 em 60 minutosAngular 2 em 60 minutos
Angular 2 em 60 minutosLoiane Groner
 

Semelhante a ML no dia a dia do desenvolvedor (20)

Testes de software automatizados
Testes de software automatizadosTestes de software automatizados
Testes de software automatizados
 
[CLASS 2014] Palestra Técnica - Renato Mendes
[CLASS 2014] Palestra Técnica - Renato Mendes[CLASS 2014] Palestra Técnica - Renato Mendes
[CLASS 2014] Palestra Técnica - Renato Mendes
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dados
 
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...[DevOps Summit]Importância de testes automatizados para sustentar Continuous...
[DevOps Summit]Importância de testes automatizados para sustentar Continuous...
 
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Criando Símbolos Otimizados para Projetos no InduSoft Web Studio
Criando Símbolos Otimizados para Projetos no InduSoft Web StudioCriando Símbolos Otimizados para Projetos no InduSoft Web Studio
Criando Símbolos Otimizados para Projetos no InduSoft Web Studio
 
Desenvolvimento Web - Palestra Coding Night #3 - Microsoft
Desenvolvimento Web - Palestra Coding Night #3 - MicrosoftDesenvolvimento Web - Palestra Coding Night #3 - Microsoft
Desenvolvimento Web - Palestra Coding Night #3 - Microsoft
 
Artigo cientifico
Artigo cientifico Artigo cientifico
Artigo cientifico
 
Software de impressão segura por biometria - Thiarlei - Impressão Gerenciada
Software de impressão segura por biometria - Thiarlei - Impressão GerenciadaSoftware de impressão segura por biometria - Thiarlei - Impressão Gerenciada
Software de impressão segura por biometria - Thiarlei - Impressão Gerenciada
 
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...
Workshop Web - Do Pensamento ao Desenvolvimento - Design, Programação e Banco...
 
Apresentação tema 9 Segurança das Informações e Continuidade dos negócios
Apresentação tema 9 Segurança das Informações e Continuidade dos negóciosApresentação tema 9 Segurança das Informações e Continuidade dos negócios
Apresentação tema 9 Segurança das Informações e Continuidade dos negócios
 
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...
Samanta Cicilia - MTC - Importância de Testes Automatizados para Continuous D...
 
Alats Seminario V03 3
Alats Seminario V03 3Alats Seminario V03 3
Alats Seminario V03 3
 
Introdução a linguagem Python
Introdução a linguagem PythonIntrodução a linguagem Python
Introdução a linguagem Python
 
Análise estática de código Python
Análise estática de código PythonAnálise estática de código Python
Análise estática de código Python
 
Importância de Testes Automatizados para Continuous Delivery & DevOps
Importância de Testes Automatizados para Continuous Delivery & DevOpsImportância de Testes Automatizados para Continuous Delivery & DevOps
Importância de Testes Automatizados para Continuous Delivery & DevOps
 
Devfest Cerrado: Angular 2
Devfest Cerrado: Angular 2 Devfest Cerrado: Angular 2
Devfest Cerrado: Angular 2
 
Angular 2 em 60 minutos
Angular 2 em 60 minutosAngular 2 em 60 minutos
Angular 2 em 60 minutos
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 

Mais de Tiago Albineli Motta

Challenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXChallenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXTiago Albineli Motta
 
Inteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosInteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosTiago Albineli Motta
 
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayMachine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayTiago Albineli Motta
 
A ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoA ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoTiago Albineli Motta
 
Recomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comRecomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comTiago Albineli Motta
 
Testes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTestes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTiago Albineli Motta
 

Mais de Tiago Albineli Motta (17)

Multi Armed Bandit
Multi Armed BanditMulti Armed Bandit
Multi Armed Bandit
 
Challenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLXChallenges and research for a real-time recommendation at OLX
Challenges and research for a real-time recommendation at OLX
 
Inteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dadosInteligência Artificial: Da ciência da computação à ciência de dados
Inteligência Artificial: Da ciência da computação à ciência de dados
 
Experimentation anti patterns
Experimentation anti patternsExperimentation anti patterns
Experimentation anti patterns
 
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlayMachine Learning e experimentos online para evitar o cancelamento no GloboPlay
Machine Learning e experimentos online para evitar o cancelamento no GloboPlay
 
A ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendaçãoA ciência de dados por traz de sistemas de recomendação
A ciência de dados por traz de sistemas de recomendação
 
xCLiMF
xCLiMFxCLiMF
xCLiMF
 
Rastros digitais
Rastros digitaisRastros digitais
Rastros digitais
 
Big data
Big dataBig data
Big data
 
Recomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.comRecomendação de ponta a ponta na Globo.com
Recomendação de ponta a ponta na Globo.com
 
Recomendação na Globo.com
Recomendação na Globo.comRecomendação na Globo.com
Recomendação na Globo.com
 
Otimizando seu projeto Rails
Otimizando seu projeto RailsOtimizando seu projeto Rails
Otimizando seu projeto Rails
 
Meta-programacao em python
Meta-programacao em pythonMeta-programacao em python
Meta-programacao em python
 
Testes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e PorqueTestes unitários e de integração: Quando e Porque
Testes unitários e de integração: Quando e Porque
 
Redis na Prática
Redis na PráticaRedis na Prática
Redis na Prática
 
Dinamizando Sites Estáticos
Dinamizando Sites EstáticosDinamizando Sites Estáticos
Dinamizando Sites Estáticos
 
Escalando Sites com Nginx
Escalando Sites com NginxEscalando Sites com Nginx
Escalando Sites com Nginx
 

ML no dia a dia do desenvolvedor

Notas do Editor

  1. Machine Learning, por mais complexo que possa parecer, com toda a matemática e estatística envolvida, atualmente é bem mais simples do que parece. Com o estudo e ferramentas adequadas, todo o time de desenvolvimento tem a capacidade de criar e colocar em produção modelos que podem trazer resultados surpreendentes pra sua empresa.
  2. Pra gente entender como que machine learning se encaixa no desenvolvimento de software atualmente é preciso revisar o que são os problemas deterministicos, que são os problemas que a maioria dos times de desvolvimento solucionam hoje em dia. CRUDs, regras de negócio, cálculos, nossas maiores incertezas são em relação a se a gente entendeu bem o que o cliente precisava
  3. Hoje os desenvolvedores trabalham muito mais com conexão das abstrações do que realmente processamento de bits e bytes. Muito da teoria não precisa estar no sangue. Mas elas continuam sendo bem necessárias para que saiba como conectar e o que conectar.
  4. Comportamento humano, identificação e interpretação de texto, fotos e vídeos. Não é possível estabelecer regras
  5. E assim como em computação temos um monte de abstrações, para ciencia de dados também temos, e também precisamos do conhecimento dessa ciencia para saber qual, como e quando utilizar cada ferramenta
  6. De uma maneira simplificada esse aqui seria o workflow de um cientista de dados
  7. Mas é consenso que a maior parte do tempo de desenvolvimento de um modelo é na análise exploratória e na preparação de dados
  8. Mas é consenso que a maior parte do tempo de desenvolvimento de um modelo é na análise exploratória e na preparação de dados