DS Nubank

Sandor Tucakov Caetano

@SandorCaetano

sandor.caetano@gmail.com
Data Science em
uma instituição
ﬁnanceira moderna

Índice
O Nubank
Ajustando limites de crédito
Pessoas
Dados
Modelos
Políticas
Mantendo tudo sob controle
SÃO PAULO, BRASIL

O Nubank
SOUTHEAST BRAZIL REGION FROM SPACE

>1000 pessoas!
>150 serviços Clojure
>21 modelos em produção
>140 na engenharia
>45 analistas de negócios
>16 data scientists

Nubank
▪ Nubank é uma empresa de tecnologia 
▪ Oferecemos um produto gratuito
▪ Intensivo em capital 
▪ Limite de crédito vale "pra sempre" 
▪ Decisões de crédito demoram meses para serem validadas
▪ Não há margem para erro!

▪ Curva de crescimento ditou boa
parte das estratégias
▪ Distribuição de dados
▪ Treino/Teste < > Realidade
▪ ex. Sul / Sudeste — Brasil
▪ Praticamente sem histórico
Nubank

Ajustando limites de
crédito

Precisamos resolver
▪ Limite de crédito perfeito para cada cliente
▪ Alto demais —> Exposição
▪ Baixo demais —> Inatividade / Custo de oportunidade

O Loop
Churn
Dados
Renda
Risco
Gasto
Previsto
Limite de
Crédito
Gasto
Observado
Dados t-1
Resultados
Nubank

Pessoas

Os Data Scientists - Quem somos
▪ 16+ Data Scientists
▪ Estatísticos, Físicos, Cientistas da Computação, Engenheiros, Economistas,
etc 
▪ Áreas em que atuamos:
▪ Crédito - Aprovação, limites, Marketing e cobranças e atendimento ao cliente 
▪ Que tipo de profissional buscamos?
▪ Portfolio de projetos
▪ Experiência em Machine Learning
▪ Kaggle

Squads, Chapters e Tribos
▪ Tribes
▪ Credito
▪ Cobranças
▪ Atendimento
▪ …
▪ Chapters
▪ Engenharia
▪ Analistas
▪ Data Scientists
▪ …
▪ Squads
▪ Acquisition
▪ Valuation
▪ Customer Management
▪ …

Chapter Data Science
▪ Espalhados em squads
▪ Pares ou trios
▪ Unidos por habilidades em comum 
▪ Rituais:
▪ Standup
▪ Chapter meeting
▪ Article Reading Group
▪ Meetup - Machine Learning Big Data Engenharia
😏
Data
Scientists
Engenheiros
Analistas 😏😏
😏 😏😏
😏 😏😏
Squad Squad Squad

Exemplos de modelos em produção
▪ Diversos modelos de risco de crédito
▪ Gastos / Comportamento
▪ Cobranças - Ligações
▪ Contexto - FAQ - "Me ajuda"
▪ Resposta automática - emails
▪ Marketing
▪ Chat routing
▪ Fraude
▪ …

Dados

Escolhas tecnológicas (2014 - 2016)

[ Db ] - Datomic + Clojure
▪ BD —> fotografia dos seus dados em um certo ponto no tempo
▪ "Como o Git para seus dados”
▪ Permite os data scientists darem um “replay" nos dados
▪ Porém…
▪ …Queries em Clojure

Python
▪ Modelos e análises —> Python
▪ 70/30% IDE ou Jupyter Notebook
▪ Análises Ad hoc - Jupyter Notebook
▪ Todo modelo, na pratica, era um modelo online

ETL
Separando os ambientes Transacional e Analítico - BI
em um mundo de Micro-serviços

Queremos o melhor de 02 mundos
▪ Ambiente Transacional
▪ Alta velocidade para escrever
dados
▪ Fragmentado
▪ Necessária “supervisão" de
um engenheiro
▪ Ambiente analítico
▪ Alta velocidade e
disponibilidade de leitura
▪ Global
▪ Autonomia

Escolhas tecnológicas (Atual)

ETL
▪ Disponibilidade
▪ Autonomia
▪ Data Scientists e Analistas têm acesso a “tudo”
▪ Shipar datasets batch é “fácil”
▪ Shipar modelos batch é "fácil"

Logs + Pickles
Cliente faz algo
Database
(Datomic)
Live
Batch
Datomic
Logs
Dataset
Dataset
Dataset
Dataset
do
Modelo
Spark / ETL
"Big Data"
S3
Dataset
Parquet
File
Treinar
Modelo
Python
1x
Github
Diário
Previsões
Parquet
Python
MonitoramentoPolítica

Modelos

Métricas
▪ Qual a métrica mais importante que queremos mover?
Exemplos:
▪ Quanto ter uma melhor previsão de risco pode ajudar?
▪ Qual o custo de oportunidade de errar as previsões de gasto?
▪ É possível identificar os clientes que vão usar o rotativo?

"Se o AUC fosse 15% pior, você mudaria sua decisão?"

Métricas
Taxa de aprovação
Risco Modelo 2
Modelo 1
Aleatório

Target e Score time
▪ Onde os debates mais "acalorados" acontecem
▪ Viabilidade do Target vs Numero de linhas
▪ Quando vai rodar?
▪ No dia do vencimento da fatura?
▪ Primeiro dia do mês?

Processos e o “Model Deck”
▪ Serve para eliminar reduzir o risco do modelo
▪ Scores em prod < > Scores treino/teste
▪ Model Deck é um check list
▪ Boas práticas
▪ Documentação

Validação
▪ Simulamos como seria colocar o modelo em produção várias
vezes
▪ Validação cruzada
▪ Fora do tempo
▪ Fora dos ids
▪ Curvas de aprendizado

fkit-learn
▪ Biblioteca interna do Nubank para treinar / colocar modelos em
produção
▪ Versão "funcional" do scikit.learn
▪ Score(X) = fn(…f3(f2(f1(X)))…)
▪ Ajuda manter coesão entre os Data Scientists
▪ Reprodutibilidade

Política

Politica de limites (2014-2016)
▪ Dados
▪ Serasa + Utilização
▪ Histórico inexistente
▪ Ajustava o limite dos clientes de forma a manter uma utilização
do limite de crédito compatível com o risco
▪ Rodado Manualmente (Jupyter notebook)

Política de Limites
▪ Tipos:
▪ Proativa - Aumenta limites
automaticamente
▪ Reativa - Deixa um aumento pronto
caso o cliente solicite

Politica de limites
Modelo
Risco
Cliente
solicita
aumento
Dados
Proativo
App
Backend
Modelo
Gasto
Reativo

Mantendo tudo sob
controle

Teste e controle

Framework de teste e controle
▪ Todas as decisões que impactem clientes
▪ Salvas
▪ Facilmente acessíveis
▪ Facilmente testáveis

Política A
Política B
Política C
Framework de experimentação
Serving
LayerSaída
da
política
ETL
Serviço I
Serviço II
Serviço III
Decisão
Decisão
Decisão
Serviços
Framework de teste e controle

“Testar é fácil…
Se random.random() < p, faça algo”

Armadilhas
▪ Randomização não ortogonal
▪ Mesmo números "aleatórios" usados em diferentes
experimentos
▪ Ignorar efeitos de carry-over
▪ O que acontece depois de 3 meses de teste?
▪ Filtrar antes de atribuir o numero aleatório
▪ Possível viesar o teste

Monitoramento

sou.nu/vagasnu
Sandor Tucakov Caetano

@SandorCaetano

sandor.caetano@gmail.com
Obrigado!

DS Nubank

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a DS Nubank

Semelhante a DS Nubank (20)

DS Nubank