@timotta
Machine Learning
no dia a dia do desenvolvedor
@timotta
Problemas
determinísticos
@timotta
seu código
@timotta
framework
seu código
plataforma
biblioteca
biblioteca
banco de
dados
@timotta
@timotta
Problemas
probabilísticos
@timotta
@timotta
@timotta
@timotta
@timotta
Sociedade Amigos Família
Outros devs Matemáticos Realidade
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
treino do
modelo
análise
exploratóri
a
preparação
dos dados
obtenção dos
dados
validação
do modelo
@timotta
99% de acurácia
@timotta
Label leak
y
Xy leaked
@timotta
Preprocessing leak
Dataset
seleção de
features
escalonamento
split
treino/teste
@timotta
Evitando preprocessing leak
seletor de features
escalonador
split treino/teste
Dataset treino Dataset teste
@timotta
Dataset desbalanceado
99% sem fraude
1%
com
fraude
@timotta
Dataset desbalanceado
99% sem fraude
1%
com
fraude
100%
previsto
sem fraude
algoritmo
@timotta
Pair analysis &
Analysis review
@timotta
ParetoLiftpercentual
Acuráciatotal
@timotta
Colocando em
produção
@timotta
Colocando em produção
modelo
preparação
Dataset
save
@timotta
Colocando em produção
modelo ML api
preparação
Dataset
load
Requests
@timotta
Micro serviços dividindo a responsabilidade
ML api
Requests
apifront-end
requests
BD
@timotta
Atualização
automática do
modelo
@timotta
Atualização do modelo
modelo
preparação
Dataset
job de
treino
histórico de
resultados
@timotta
Modelo enviesado
modelo 1
Dataset 1
treino 1
Dataset 2
treino 2
modelo 2
@timotta
Modelo enviesado
modelo 1
Dataset 1
treino 1
Dataset 2
treino 2
modelo 2
Parte dos
dados ignorada
aleatoriamente
pelo modelo 1
@timotta
10% ciência de dados
90% engenharia
@timotta
@timotta
Bigdata
na OLX
- Datalake acessível
- Coleta de sinais
simplificada
- Jupyter as a service
- Cursos e
treinamentos
- Squad de cientistas
de dados
@timotta
Bigdata squad
outros squads
@timotta
Modelos prontos e em desenvolvimento
- Identificação de fraude
- Identificação de anúncios inválidos
- Sugestão de categoria
- Previsão do próximo anúncio
- Identificação de uma conversa fechando negócio
- Estimativa de preço
- Recomendação de anúncio
- Identificação de conversa fraudulenta
@timotta
@timotta
timotta@gmail.com

Machine Learning no dia a dia do desenvolvedor

Notas do Editor

  • #2 Machine Learning, por mais complexo que possa parecer, com toda a matemática e estatística envolvida, atualmente é bem mais simples do que parece. Com o estudo e ferramentas adequadas, todo o time de desenvolvimento tem a capacidade de criar e colocar em produção modelos que podem trazer resultados surpreendentes pra sua empresa.
  • #3 Pra gente entender como que machine learning se encaixa no desenvolvimento de software atualmente é preciso revisar o que são os problemas deterministicos, que são os problemas que a maioria dos times de desvolvimento solucionam hoje em dia. CRUDs, regras de negócio, cálculos, nossas maiores incertezas são em relação a se a gente entendeu bem o que o cliente precisava
  • #6 Hoje os desenvolvedores trabalham muito mais com conexão das abstrações do que realmente processamento de bits e bytes. Muito da teoria não precisa estar no sangue. Mas elas continuam sendo bem necessárias para que saiba como conectar e o que conectar.
  • #7 Comportamento humano, identificação e interpretação de texto, fotos e vídeos. Não é possível estabelecer regras
  • #13 De uma maneira simplificada esse aqui seria o workflow de um cientista de dados
  • #14 Mas é consenso que a maior parte do tempo de desenvolvimento de um modelo é na análise exploratória e na preparação de dados
  • #15 Mas é consenso que a maior parte do tempo de desenvolvimento de um modelo é na análise exploratória e na preparação de dados