PT-BR - Apresentado na Semana Integrar EST-UEA (2021). Mostro sobre as diferenças de aplicação de Machine Learning na academia e na Indústria, quais os prós e contras de cada cenário e como colocar as expectativas corretamente em ambos os contextos.
ENG - Presented in Semana Integrar EST-UEA (2021). I show the differences between the approach of Machine Learning in academia and industry, what are the pros and cons in each above scenario, and how to set correctly the expectations in both situations.
3. Bio
● Bacharel em Ciência da
Computação - UFAM
● Mestre em Informática - UFAM
○ Ênfase em Sistemas de
Recomendação
● Pesquisa em Detecção de
Rotina
● Atuando em Data Science desde
2017 e em Machine Learning
desde 2011!
● AI Engineer na Bemol Digital <3
Uma Humaitaense em Cape
Town!
3
4. ATENÇÃO!
Esta apresentação não se trata de certo vs. errado ou melhor vs. pior,
são apenas visões diferentes!
A direção. 😂
4
5. Pipeline de Machine Learning
5
Definição do
problema
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Lançar
abordagem
6. Pipeline de Machine Learning
6
Entendimento do
negócio
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
Na Indústria
7. Pipeline de Machine Learning
7
Entendimento do
negócio
Coleta e
Entendimento de
Dados
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
Na Indústria
8. Pipeline de Machine Learning
8
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
Na Indústria
9. Pipeline de Machine Learning
9
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
Na Indústria
10. Pipeline de Machine Learning
10
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Indústria
11. Pipeline de Machine Learning
11
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
12. Pipeline de Machine Learning
12
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
* Imagens da própria
13. Pipeline de Machine Learning
13
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
Coleta e Estudo sobre
coleções de dados
● Quais datasets são usados
pelos trabalhos da literatura?
14. Pipeline de Machine Learning
14
Na Academia
Coleta e Estudo sobre
coleções de dados
● Quais datasets são usados
pelos trabalhos da literatura?
* Imagens da própria
15. Pipeline de Machine Learning
15
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
Coleta e Estudo sobre
coleções de dados
● Quais datasets são usados
pelos trabalhos da literatura?
Implementação de
baselines e novo modelo
proposto
● Implementa modelo estado-
da-arte para comparação
com novo modelo proposto.
16. Pipeline de Machine Learning
16
Na Academia
Implementação de
baselines e novo modelo
proposto
● Implementa modelo estado-
da-arte para comparação
com novo modelo proposto.
Baseline estado-da-arte
no problema
Nova arquitetura proposta
Melhor que
* Imagens da própria
17. Pipeline de Machine Learning
17
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
Coleta e Estudo sobre
coleções de dados
● Quais datasets são usados
pelos trabalhos da literatura?
Implementação de
baselines e novo modelo
proposto
● Implementa modelo estado-
da-arte para comparação
com novo modelo proposto.
Defesa de proposta
abordagem
● Apresenta resultados parciais
à comunidade acadêmica
especializada.
18. Pipeline de Machine Learning
18
Na Academia
Defesa de proposta
abordagem
● Apresenta resultados parciais
à comunidade acadêmica
especializada.
* Imagens da própria
19. Pipeline de Machine Learning
19
Entendimento do
negócio
Coleta e
Entendimento de
Dados
Modelagem
Apresentação dos
Resultados
Implantação
● Qual a dor?
● Por que é uma dor?
● Quais métricas de
negócio queremos
impactar?
● Mapear fonte dos dados
● Mapear fluxo dos dados
● Limpar, transformar,
explorar
● Engenharia de atributos
● Modelo de treinamento
● Métricas de avaliação e
validação
● Como funciona o modelo?
● Perfomance em métricas
de negócio
● Sugestões de uso
● API performance
● Distribuição, calibragem
● Monitoramento
Na Academia
Definição de Problema,
Hipóteses, Questões de
Pesquisa e Objetivos
● Qual problema quero
resolver que 1) ou ainda não
foi resolvido 2) ou não o foi
sob um prisma diferente?
● O que quero obter ao final
deste trabalho?
Coleta e Estudo sobre
coleções de dados
● Quais datasets são usados
pelos trabalhos da literatura?
Implementação de
baselines e novo modelo
proposto
● Implementa modelo estado-
da-arte para comparação
com novo modelo proposto.
Defesa de proposta
abordagem
● Apresenta resultados parciais
à comunidade acadêmica
especializada.
Publicação de artigos e
jornais
● Apresenta nova abordagem
proposta para revisão por
pares por pesquisadores
especialistas.
20. Pipeline de Machine Learning
20
Na Academia
Publicação de artigos e
jornais
● Apresenta nova abordagem
proposta para revisão por
pares por pesquisadores
especialistas.
* Imagens da própria
21. Importante!
Grandes empresas, i.e., Google, fazem pesquisa também, mas não é a
realidade da maioria das empresas e é sobre essa realidade que
estamos tratando aqui.
A direção.
21
22. E o que acontece ali
no dia-a-dia? Um
exemplo Bemol
23. Segmentação de Clientes
Objetivo
• Fornecer insights inteligentes para prever o comportamento de compra do consumidor e padrões
relacionados durante todo o ciclo de vida das transações comerciais.
• Ajudar na construção de um relacionamento saudável e de longo prazo com os Clientes.
23
Estágio da
jornada
Comportamento
de compra
Satisfação Interesses Nível de
engajamento
* Contém imagem de pesquisa no Google.
25. Segmentação de Clientes
25
Alta frequência de compras
Alto valor monetário
Compras recentes
Alto valor
monetário
Compras distantes
Baixa frequência
Baixo valor monetário
Compras recentes
Clientes
Abordagem RFM:
● Recency
● Frequency
● Monetary
* Contém imagem de pesquisa no Google.
26. Segmentação de Clientes
26
Alta frequência de compras
Alto valor monetário
Compras recentes
Alto valor
monetário
Compras distantes
Baixa frequência
Baixo valor monetário
Compras recentes
Clientes Método de Clustering
(não-supervisionado)
i.e., k-Means
Abordagem RFM:
● Recency
● Frequency
● Monetary
Entrada
* Contém imagem de pesquisa no Google.
28. Segmentação de Clientes
28
Suposição comum na academia…
(expectativa)
Distribuição Normal
Na indústria
(realidade)
* Contém imagem de pesquisa no Google.
30. Segmentação de Clientes
30
Método de Clustering
(não-supervisionado)
i.e., k-Means
Impossível de resolver adequadamente com k-means!
Aqui entra o conhecimento sobre o negócio!
* Contém imagem de pesquisa no Google.
33. Quando a academia ignora a realidade...
33
Além do claro problema de racismo, outro problema é que
uma arquitetura inteira foi totalmente construída
considerando dados sub representados! Na vida real ela pode
não se sair tão bem.
Consequências
* Imagens da própria
35. Quando a indústria dificulta para a
academia...
35
Consequências
● Modelos quase que impossíveis de serem reproduzidos no meio acadêmico (falando
a nível de Brasil)
○ Máquinas para treinamento são caras
● Base de dados imensas e restritas às empresas
● Etc.
* Imagens da própria
36. No fim, é só setarmos
corretamente as expectativas em
cada contexto.
36