SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
Evoluindo a
Plataforma de
Dados do
Nubank
16/07/2019
Felipe Sabino

André Tavares
Felipe Guilherme
Sabino
Engenheiro de Dados
www.linkedin.com/in/fgsabino/
André de Lannoy
Tavares
Gerente de Produto
www.linkedin.com/in/andre-lannoy-tavares/
Nubank
Infraestrutura
Uso de Dados
Plataforma
O Futuro
Dados
Nubank
• Maior fintech fora da
Asia
• 10 milhões de clientes
• 1800 funcionários
• 16 Tribes e 70 Squads
• Cartão de crédito sem
anuidade
• Conta Digital
• Programa de recompensas
• Empréstimo pessoal
Dados no Nubank
Para que o Nubank usa
dados?
• Para tomar decisões de crédito
• Para melhor a experiência dos
clientes com produtos mais
inteligentes
• Para gerar controles e relatórios
para a empresa, seus acionistas e
reguladores
• Para ajudar os nubankers a
tomarem decisões melhores
• 250 microsserviços

• 30 modelos em
produção

• 70Tb de dados
processados por dia

• 1100 usuários
semanais nas
ferramentas de dados
Dados como uma plataforma
Aquisição
de Clientes
Atendimento
ao Cliente
Cartão de
Crédito
Plataforma de Dados
Empréstimos
Pessoais
Relatórios
Financeiros
....
Tribo de Dados !
Times de Dados
Acesso a Dados "Infra de Dados #
Infraestrutura do Nubank
Clojure DatomicKafka
Microsserviços
Kubernetes
Datomic
e Entity Long
a Attribute String
v Value Any
t Transaction point in time Long
tx Transaction entity id Long
txInstant Transaction wall-clock time java.util.Date
op Operation (assertion / retraction) Boolean
• Imutabilidade
• Dados não são sobrescritos
• ACID
[ 28 ':name' 'felipe' ]
Datomic
entidade atributo valor
Datomic
[ 28 ':name' 'felipe' ]
[ 28 ':name' 'felipe' ]
entidade atributo valor
'sabino'
Datomic
[ 28 ':name' 'felipe' Tx₁]
transação
Datomic
entidade atributo valor
[ 28 ':name' 'sabino' Tx₂]
Plataforma
Por que construir um ambiente
analítico?
Ambos são necessários
AMBIENTE TRANSACIONAL AMBIENTE ANALÍTICO
Dificuldade na escritaDificuldade na leitura
Unificado, GlobalFragmentado, Local
Alta acessibilidade
SQL somente leitura com ACL
Baixa acessibilidade
Datalog, bancos de produção, segurança
Data Processing
Data WarehouseData Ingestion
Data Analysis
Batch Models
Ingestão de Dados
Ingestão de Dados do Datomic
1. Descoberta
2. Alocação dos bancos
3. Extração dos Logs
4. Empacotamento para S3
Ingestão de Outros Dados via Kafka
Serviço que acumula as mensagens recebidas
salva no Data Lake
• Utilizamos Amazon S3
• Ambiente Isolado
• Gestão de Metadados
Nosso Data Lake
Serviço de Gestão de Metadados
• "Mapa" do ETL: contém
os metadados de cada
dataset, incluindo onde
eles estão armazenados
no S3

• Os serviços não tem
interferência direta nos
dados
Processamento de Dados
Nossa engine de processamento de dados
• O “motor" do ETL; descreve
todas as transformações para
produzir os datasets
• Feito para processar grandes
quantidades de dados
• Em Scala, fácil de usar porque
abstrai as partes complexas
do Spark
• Declarativo
Organização dos Datasets
DB1 Log S0
DB1 Log S1
DB2 Log S0
Dataset Series
contract 1
contract 2
dataset 1
dataset 2
model
policy
Datasets
• Qualquer pessoa na empresa pode
criar um Dataset e contribuir com um
Pull Request em nosso monorepo
• As equipes são responsáveis por
escrever e manter seus Datasets
• Os Datasets são escritos em Scala;
DSLs são fornecidas
• Usamos Databricks para iterar
• Revisão de PRs são feitas por pares
para garantir qualidade e consistência
• 150 contribuidores fazendo 300+
contribuições por mês
Gerenciando DAGs
Uso de Dados
Modelos
Modelos em Batch
• São executados com o ETL
• Python
• Ferramentas que facilitam:
• Validar configuração
• Treinar e testar diferentes
parâmetros
• Simular comportamento
de produção localmente
• Enviar para Produção
Dados Modelos
Score / Prob.
Políticas
Decisões
Serving Layer
Mandando dados de volta para produção
• Serviço na stack de dados
carrega as políticas em
um Dynamo DB
• Serviço na stack de
produção acessa o
mesmo banco e oferece
interfaces para o
consumo dessas políticas
Data Warehouse
BigQuery
• Serviço que transfere do
S3 para o GCS
• Carrega os datasets no
BigQuery
• Fully managed
Ferramentas de Dados
Looker
Jupyter Notebooks
Databricks
Democratização e Cultura de
Dados
Treinamentos
Suporte
Data Analysts
Data
Tribe
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst
Data
Analyst
Recap
Datomic
Extractor
Online
Models
Production
Services
Jupyter
Notebooks
Looker
Batch
Models
Spark
Engine
Production
Services
Datomic DB
Logs
Amazon S3
Metadata
Manager
Non-datomic
Datasources
Non-datomic
Extractor
Static Inputs
Databricks
Loader
Databricks
Serving
Layer Loader
Amazon
Dynamo DB
Serving
Layer
Plataforma de Dados Nubank
BigQuery
BigQuery
Loader
O Futuro
O Futuro
• Plataforma Internacional
• Governança de Dados
• Portal de Metadados
• Continuar Escalando
Estamos contratando!
sou.nu/jobs-at-nubank
Evolução da Plataforma de Dados do Nubank

Mais conteúdo relacionado

Mais procurados

[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...
[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...
[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...Product Camp Brasil
 
Data Democratization at Nubank
 Data Democratization at Nubank Data Democratization at Nubank
Data Democratization at NubankDatabricks
 
Data platform modernization with Databricks.pptx
Data platform modernization with Databricks.pptxData platform modernization with Databricks.pptx
Data platform modernization with Databricks.pptxCalvinSim10
 
The evolution of Netflix's S3 data warehouse (Strata NY 2018)
The evolution of Netflix's S3 data warehouse (Strata NY 2018)The evolution of Netflix's S3 data warehouse (Strata NY 2018)
The evolution of Netflix's S3 data warehouse (Strata NY 2018)Ryan Blue
 
Databricks Platform.pptx
Databricks Platform.pptxDatabricks Platform.pptx
Databricks Platform.pptxAlex Ivy
 
Building an open data platform with apache iceberg
Building an open data platform with apache icebergBuilding an open data platform with apache iceberg
Building an open data platform with apache icebergAlluxio, Inc.
 
Data Lakehouse Symposium | Day 4
Data Lakehouse Symposium | Day 4Data Lakehouse Symposium | Day 4
Data Lakehouse Symposium | Day 4Databricks
 
MDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMark Schoeppel
 
Architect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh ArchitectureArchitect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh ArchitectureDatabricks
 
Modern Data architecture Design
Modern Data architecture DesignModern Data architecture Design
Modern Data architecture DesignKujambu Murugesan
 
[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google Cloud[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google CloudPgDay.Seoul
 
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdfChris Hoyean Song
 
Building a Data Strategy Your C-Suite Will Support
Building a Data Strategy Your C-Suite Will SupportBuilding a Data Strategy Your C-Suite Will Support
Building a Data Strategy Your C-Suite Will SupportReid Colson
 
Apache Kafka® and the Data Mesh
Apache Kafka® and the Data MeshApache Kafka® and the Data Mesh
Apache Kafka® and the Data MeshConfluentInc1
 
CI/CD with Azure DevOps and Azure Databricks
CI/CD with Azure DevOps and Azure DatabricksCI/CD with Azure DevOps and Azure Databricks
CI/CD with Azure DevOps and Azure DatabricksGoDataDriven
 
Moving to Databricks & Delta
Moving to Databricks & DeltaMoving to Databricks & Delta
Moving to Databricks & DeltaDatabricks
 
Free Training: How to Build a Lakehouse
Free Training: How to Build a LakehouseFree Training: How to Build a Lakehouse
Free Training: How to Build a LakehouseDatabricks
 

Mais procurados (20)

[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...
[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...
[Pcamp19] - Scaling Nubank`s customer service with machine learning - Gustavo...
 
Data Democratization at Nubank
 Data Democratization at Nubank Data Democratization at Nubank
Data Democratization at Nubank
 
Data platform modernization with Databricks.pptx
Data platform modernization with Databricks.pptxData platform modernization with Databricks.pptx
Data platform modernization with Databricks.pptx
 
The evolution of Netflix's S3 data warehouse (Strata NY 2018)
The evolution of Netflix's S3 data warehouse (Strata NY 2018)The evolution of Netflix's S3 data warehouse (Strata NY 2018)
The evolution of Netflix's S3 data warehouse (Strata NY 2018)
 
Databricks Platform.pptx
Databricks Platform.pptxDatabricks Platform.pptx
Databricks Platform.pptx
 
Building an open data platform with apache iceberg
Building an open data platform with apache icebergBuilding an open data platform with apache iceberg
Building an open data platform with apache iceberg
 
Data Lakehouse Symposium | Day 4
Data Lakehouse Symposium | Day 4Data Lakehouse Symposium | Day 4
Data Lakehouse Symposium | Day 4
 
MDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large Enterprises
 
Architect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh ArchitectureArchitect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh Architecture
 
Modern Data architecture Design
Modern Data architecture DesignModern Data architecture Design
Modern Data architecture Design
 
Azure SQL Data Warehouse
Azure SQL Data Warehouse Azure SQL Data Warehouse
Azure SQL Data Warehouse
 
[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google Cloud[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google Cloud
 
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[EN] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
 
Data Infra and Data Access in Nubank
Data Infra and Data Access in NubankData Infra and Data Access in Nubank
Data Infra and Data Access in Nubank
 
Building a Data Strategy Your C-Suite Will Support
Building a Data Strategy Your C-Suite Will SupportBuilding a Data Strategy Your C-Suite Will Support
Building a Data Strategy Your C-Suite Will Support
 
Apache Kafka® and the Data Mesh
Apache Kafka® and the Data MeshApache Kafka® and the Data Mesh
Apache Kafka® and the Data Mesh
 
CI/CD with Azure DevOps and Azure Databricks
CI/CD with Azure DevOps and Azure DatabricksCI/CD with Azure DevOps and Azure Databricks
CI/CD with Azure DevOps and Azure Databricks
 
Moving to Databricks & Delta
Moving to Databricks & DeltaMoving to Databricks & Delta
Moving to Databricks & Delta
 
The delta architecture
The delta architectureThe delta architecture
The delta architecture
 
Free Training: How to Build a Lakehouse
Free Training: How to Build a LakehouseFree Training: How to Build a Lakehouse
Free Training: How to Build a Lakehouse
 

Semelhante a Evolução da Plataforma de Dados do Nubank

Power Tuning - Portfolio de BI
Power Tuning - Portfolio de BIPower Tuning - Portfolio de BI
Power Tuning - Portfolio de BIDirceu Resende
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Dirceu Resende
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Dirceu Resende
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Amazon Web Services LATAM
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Dirceu Resende
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escalarkwseijuurou
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...Aislan Honorato
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadoswapiva
 
Apresentacao Vertical De Alocacao Consultor Adriana
Apresentacao Vertical De Alocacao   Consultor AdrianaApresentacao Vertical De Alocacao   Consultor Adriana
Apresentacao Vertical De Alocacao Consultor Adrianacleveranjos
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Splunk
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloFábio Caldas
 
Apresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de DadosApresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de Dadosopensys
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Escalando infra em ops em um ambiente de hiper crescimento
Escalando infra em ops em um ambiente de hiper crescimentoEscalando infra em ops em um ambiente de hiper crescimento
Escalando infra em ops em um ambiente de hiper crescimentoRenan Capaverde
 

Semelhante a Evolução da Plataforma de Dados do Nubank (20)

Sql Server
Sql ServerSql Server
Sql Server
 
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceSistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
 
Power Tuning - Portfolio de BI
Power Tuning - Portfolio de BIPower Tuning - Portfolio de BI
Power Tuning - Portfolio de BI
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dados
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
 
Comprei um SQL Server e agora?
Comprei um SQL Server e agora?Comprei um SQL Server e agora?
Comprei um SQL Server e agora?
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escala
 
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dados
 
Apresentacao Vertical De Alocacao Consultor Adriana
Apresentacao Vertical De Alocacao   Consultor AdrianaApresentacao Vertical De Alocacao   Consultor Adriana
Apresentacao Vertical De Alocacao Consultor Adriana
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São Paulo
 
Apresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de DadosApresentação Opensys Serviços especializados em Bancos de Dados
Apresentação Opensys Serviços especializados em Bancos de Dados
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Escalando infra em ops em um ambiente de hiper crescimento
Escalando infra em ops em um ambiente de hiper crescimentoEscalando infra em ops em um ambiente de hiper crescimento
Escalando infra em ops em um ambiente de hiper crescimento
 

Evolução da Plataforma de Dados do Nubank