2. Conheça o SQL Norte!
● 3 grupos de mensagens (WhatsApp e Telegram) com profissionais de dados
de todo o Brasil;
● 900 inscritos no nosso Canal do Youtube (rumo aos 1.000 inscritos);
● 3 Data Tech Day Realizados, Te aprepara que o Data Tech Day 4ª Edição tá
chegando! (07/12)
● 2 Meetups realizado e ocorrerá mais um ainda esse ano (09/11);
● Muito conteúdo de Data Platform FREE;
● E muito mais;
3. sobre...
- Analista de dados - FADESP
- Data Scientist na Uber - foco em ML para CRM e Churn de
produtos com predições
- Competidor Kaggle - Contributtor (** rumo ao Master)
- Participante ativo nas comunidades “Serenata de amor” e
Data Hackers.
7. O que é Machine Learning?
(Aprendizado de Máquina)
8. Machine Learning é o método de análise de dados que
automatiza a construção de modelos analíticos.
9. Porque aprender ML
Aprenda quando você não pode codificar
Reconhecimento de fala / imagem / gestos
Aprenda quando você não pode escalar
Recomendações, spam e detecção de fraudes
Aprenda quando você precisar adaptar/personalizar
Escrita preditiva
Aprenda quando você não pode fazer o tracking
IA de jogos, controle de robôs
27. Processo de aprendizagem
Um componente chave do processo de aprendizagem é a
generalização!
E para poder generalizar a função que melhor resolve o
problema, os algoritmos de Machine Learning se baseiam em 3
componentes:
29. Processo de aprendizagem
As técnicas de aprendizagem de máquina baseadas em
algoritmos estatísticos utilizam Cálculo e Álgebra Linear e os
dados precisam estar carregados em memória.
30. O modelo pode aprender demais (overfitting) ou aprender de
menos (underfitting).
31. Para atingir o equilíbrio e criar grandes soluções de Machine
Learning, você terá que fazer escolhas.
32. O Processo de Aprendizagem em Detalhes
Para usar uma curva de aprendizagem, você precisa:
1- Dividir seus dados em amostras, chamadas dados de treino e dados
de teste (uma divisão 70/30 funciona bem). Dados de validação
podem ser usados durante o treinamento.
2- Criar porções dos seus dados de treino, com tamanhos diferentes a
cada passagem de treino.
3- Treinar seus modelos com os diferentes subsets. Registrar a
performance.
4- Gerar um gráfico com os resultados. Atenção aos intervalos de
confiança e ao desvio padrão.
33. O Processo de Aprendizagem em Detalhes
Treinamento, Validação e Teste
75 a 70% - dados de treino
25 a 30% - dados de teste
34. O Processo de Aprendizagem em Detalhes
Treinamento, Validação e Teste
70% - dados de treino
20% - dados de validação
10% - dados teste
38. Em busca da onda perfeita
Este é um trabalho iterativo e assim como um surfista está
sempre em busca da onda perfeita, seu trabalho como Cientista
de Dados é buscar sempre o melhor modelo possível para
suas previsões.
39. Em busca da onda perfeita
Lembre-se: um modelo de Machine Learning será usado para
resolver um problema específico!
40. Em busca da onda perfeita
Não caia na tentação de querer aplicar seu modelo a tudo que
você vê pela frente.
Cada problema de negócio, cada conjunto de dados, pode
requerer um modelo diferente