Evolução da Plataforma de Dados do Nubank

Evoluindo a
Plataforma de
Dados do
Nubank
16/07/2019
Felipe Sabino 
André Tavares

Felipe Guilherme
Sabino
Engenheiro de Dados
www.linkedin.com/in/fgsabino/

André de Lannoy
Tavares
Gerente de Produto
www.linkedin.com/in/andre-lannoy-tavares/

Nubank
Infraestrutura
Uso de Dados
Plataforma
O Futuro
Dados

• Maior ﬁntech fora da
Asia
• 10 milhões de clientes
• 1800 funcionários
• 16 Tribes e 70 Squads

• Cartão de crédito sem
anuidade
• Conta Digital
• Programa de recompensas
• Empréstimo pessoal

Para que o Nubank usa
dados?
• Para tomar decisões de crédito
• Para melhor a experiência dos
clientes com produtos mais
inteligentes
• Para gerar controles e relatórios
para a empresa, seus acionistas e
reguladores
• Para ajudar os nubankers a
tomarem decisões melhores

• 250 microsserviços 
• 30 modelos em
produção 
• 70Tb de dados
processados por dia 
• 1100 usuários
semanais nas
ferramentas de dados

Dados como uma plataforma
Aquisição
de Clientes
Atendimento
ao Cliente
Cartão de
Crédito
Plataforma de Dados
Empréstimos
Pessoais
Relatórios
Financeiros
....

Tribo de Dados !
Times de Dados
Acesso a Dados "Infra de Dados #

Clojure DatomicKafka
Microsserviços
Kubernetes

Datomic
e Entity Long
a Attribute String
v Value Any
t Transaction point in time Long
tx Transaction entity id Long
txInstant Transaction wall-clock time java.util.Date
op Operation (assertion / retraction) Boolean
• Imutabilidade
• Dados não são sobrescritos
• ACID

[ 28 ':name' 'felipe' ]
Datomic

entidade atributo valor
Datomic

'sabino'
Datomic

[ 28 ':name' 'felipe' Tx₁]
transação
Datomic
[ 28 ':name' 'sabino' Tx₂]

Por que construir um ambiente
analítico?

Ambos são necessários
AMBIENTE TRANSACIONAL AMBIENTE ANALÍTICO
Dificuldade na escritaDificuldade na leitura
Unificado, GlobalFragmentado, Local
Alta acessibilidade
SQL somente leitura com ACL
Baixa acessibilidade
Datalog, bancos de produção, segurança

Data Processing
Data WarehouseData Ingestion
Data Analysis
Batch Models

Ingestão de Dados do Datomic
1. Descoberta
2. Alocação dos bancos
3. Extração dos Logs
4. Empacotamento para S3

Ingestão de Outros Dados via Kafka
Serviço que acumula as mensagens recebidas
salva no Data Lake

• Utilizamos Amazon S3
• Ambiente Isolado
• Gestão de Metadados
Nosso Data Lake

Serviço de Gestão de Metadados
• "Mapa" do ETL: contém
os metadados de cada
dataset, incluindo onde
eles estão armazenados
no S3 
• Os serviços não tem
interferência direta nos
dados

Nossa engine de processamento de dados
• O “motor" do ETL; descreve
todas as transformações para
produzir os datasets
• Feito para processar grandes
quantidades de dados
• Em Scala, fácil de usar porque
abstrai as partes complexas
do Spark
• Declarativo

Organização dos Datasets
DB1 Log S0
DB1 Log S1
DB2 Log S0
Dataset Series
contract 1
contract 2
dataset 1
dataset 2
model
policy

Datasets
• Qualquer pessoa na empresa pode
criar um Dataset e contribuir com um
Pull Request em nosso monorepo
• As equipes são responsáveis por
escrever e manter seus Datasets
• Os Datasets são escritos em Scala;
DSLs são fornecidas
• Usamos Databricks para iterar
• Revisão de PRs são feitas por pares
para garantir qualidade e consistência
• 150 contribuidores fazendo 300+
contribuições por mês

Modelos em Batch
• São executados com o ETL
• Python
• Ferramentas que facilitam:
• Validar conﬁguração
• Treinar e testar diferentes
parâmetros
• Simular comportamento
de produção localmente
• Enviar para Produção
Dados Modelos
Score / Prob.
Políticas
Decisões

Mandando dados de volta para produção
• Serviço na stack de dados
carrega as políticas em
um Dynamo DB
• Serviço na stack de
produção acessa o
mesmo banco e oferece
interfaces para o
consumo dessas políticas

BigQuery
• Serviço que transfere do
S3 para o GCS
• Carrega os datasets no
BigQuery
• Fully managed

Democratização e Cultura de
Dados

Data Analysts
Data
Tribe
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst

Datomic
Extractor
Online
Models
Production
Services
Jupyter
Notebooks
Looker
Batch
Models
Spark
Engine
Production
Services
Datomic DB
Logs
Amazon S3
Metadata
Manager
Non-datomic
Datasources
Non-datomic
Extractor
Static Inputs
Databricks
Loader
Databricks
Serving
Layer Loader
Amazon
Dynamo DB
Serving
Layer
Plataforma de Dados Nubank
BigQuery
BigQuery
Loader

O Futuro
• Plataforma Internacional
• Governança de Dados
• Portal de Metadados
• Continuar Escalando

Estamos contratando!
sou.nu/jobs-at-nubank

Evolução da Plataforma de Dados do Nubank

Evolução da Plataforma de Dados do Nubank

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Evolução da Plataforma de Dados do Nubank

Semelhante a Evolução da Plataforma de Dados do Nubank (20)

Evolução da Plataforma de Dados do Nubank