SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
TRILHA ENGENHARIA DE DADOS
Escalando a Qualidade de Dados com
Great Expectations e Spark
no Modern Data Stack
Business 2023
- Data Architect @ ViaHub;
- Bacharel em Sistemas de Informação
pelo IFG;
- Pós graduado em Big Data e
Machine Learning pela Fasam;
Cicero Moura
cicerojmm
/in/cicero-moura
/cicerojmm
3
Modern Data Stack
01
Great
Expectations
03
Arquitetura de Dados
05
Qualidade
de Dados
02 04
Dicas e Insights
06
Great Expectations e
Spark na Prática
Sobre o que vamos conversar?
O que é o
Modern Data Stack?
4
5
“O Modern Data Stack é um conjunto flexível de
tecnologias que ajudam as empresas a
armazenar, gerenciar e aprender com seus
dados de forma rápida e eficiente”.
Por que agora?
6
● Amadurecimento da área de Dados;
● Tecnologias mais sólidas;
● Conceitos e práticas onde é possível formar o
Modern Data Stack (MDS).
Pilares do MDS
7
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Pilares do MDS
8
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Data Quality
Arquitetura com Referências
9
10
Qualidade de Dados
11
12
A Qualidade de Dados é um dos maiores desafios
enfrentados pelas empresas atualmente.
A favor de dados precisos, confiáveis e relevantes.
Great Expectations
13
O que é o Great Expectations?
14
● O Great Expectations (GE) é uma ferramenta de
qualidade de dados open source;
● É possível definir expectativas sobre seus dados e
verificar se elas atendem ou não.
■ Expectativas padrões;
■ Expectativas customizadas e;
■ Perfil completo sobre os dados.
Principais funcionalidades
15
● Testes de dados diretamente de dataframes criados
com Pandas ou Spark;
● Documentação dos testes em HTML de forma
automática;
● Criação de suítes e checkpoints dos testes;
● CLI que facilita a criação dos casos de testes;
● Integração nativa com diversas origens de dados.
Arquitetura com
Great Expectations e Spark
16
Cenário de Negócio - Exemplo
17
● Temos dados armazenados em um Data Lake que se
encontra no S3 da AWS;
● Precisamos verificar a qualidade dos dados antes
que o negócio tome decisões críticas em cima deles;
● Os dados são sobre vendas de produtos de um
e-commerce.
18
19
Case 1: Great Expectation + EMR + Airflow
20
Case 2: Great Expectation + Glue ETL + EventBridge
Great Expectations e Spark
na Prática
21
Cenário de Negócio - Exemplo
22
Carregar os dados de teste;
Configurar destino da data docs;
Criar um profile dos dados;
Adicionar casos de testes;
Executar testes;
Caso de Teste: Profile dos Dados
23
Caso de Teste: Validadores
24
Executando os Casos de Testes
25
Executando os Casos de Testes
26
Executando os Casos de Testes
27
Executando os Casos de Testes
28
Executando os Casos de Testes
29
Executando os Casos de Testes
30
Executando os Casos de Testes
31
Documentação dos testes
32
Dicas e Insights
33
Dicas e insights
34
● O Great Expectations possui uma comunidade bem
ativa e com muitas evoluções;
● É interessante criar um framework para
desenvolvimento e padronização da qualidade de
dados;
● Criar relatório para monitoramento da qualidade de
dados;
● Agregar o Great Expectations com um catálogo de
dados é essencial;
35
Mais do que ter os dados disponíveis para
análise, é preciso garantir a qualidade deles.
36
Código completo
https://bit.ly/tdc-ge-2023
37
cicerojmm.medium.com
38
linkedin.com/in/cicero-moura
/in/cicero-moura
Obrigado!

Mais conteúdo relacionado

Semelhante a Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data Stack - TDC Business 2023 (SP)

Deal Inovacao e Tecnologia - Big Data, Machine Learning e devops
Deal Inovacao e Tecnologia - Big Data, Machine Learning e devopsDeal Inovacao e Tecnologia - Big Data, Machine Learning e devops
Deal Inovacao e Tecnologia - Big Data, Machine Learning e devopsFernando Nawa
 
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdfRicardo Carneiro
 
5 motivos para adotar o Event-Driven com Kafka
5 motivos para adotar o Event-Driven com Kafka5 motivos para adotar o Event-Driven com Kafka
5 motivos para adotar o Event-Driven com KafkaTechrom Tecnologia
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricDenodo
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft AzureRenato Grau
 
4 Motivos para adotar a tecnologia Kafka no negócio
4 Motivos para adotar a tecnologia Kafka no negócio4 Motivos para adotar a tecnologia Kafka no negócio
4 Motivos para adotar a tecnologia Kafka no negócioTechrom Tecnologia
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Data Management Summit
Data Management SummitData Management Summit
Data Management SummitDenodo
 
Desafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umDesafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umThiago Fortunato
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
TDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big DataTDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big DataEduardo Hahn
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Amazon Web Services
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura
 
Webinar: Como obter valor comercial com Big Data
Webinar: Como obter valor comercial com Big DataWebinar: Como obter valor comercial com Big Data
Webinar: Como obter valor comercial com Big DataAmazon Web Services LATAM
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 

Semelhante a Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data Stack - TDC Business 2023 (SP) (20)

Deal Inovacao e Tecnologia - Big Data, Machine Learning e devops
Deal Inovacao e Tecnologia - Big Data, Machine Learning e devopsDeal Inovacao e Tecnologia - Big Data, Machine Learning e devops
Deal Inovacao e Tecnologia - Big Data, Machine Learning e devops
 
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf
8-motivações-empresariais-em-prol-da-migração-para-a-nuvem.pdf
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
5 motivos para adotar o Event-Driven com Kafka
5 motivos para adotar o Event-Driven com Kafka5 motivos para adotar o Event-Driven com Kafka
5 motivos para adotar o Event-Driven com Kafka
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data Fabric
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft Azure
 
4 Motivos para adotar a tecnologia Kafka no negócio
4 Motivos para adotar a tecnologia Kafka no negócio4 Motivos para adotar a tecnologia Kafka no negócio
4 Motivos para adotar a tecnologia Kafka no negócio
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Tatic XDR Positioning
Tatic XDR PositioningTatic XDR Positioning
Tatic XDR Positioning
 
Data Management Summit
Data Management SummitData Management Summit
Data Management Summit
 
Desafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao umDesafios de trabalhar com Cloud Computing: Do zero ao um
Desafios de trabalhar com Cloud Computing: Do zero ao um
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
TDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big DataTDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big Data
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
Webinar: Como obter valor comercial com Big Data
Webinar: Como obter valor comercial com Big DataWebinar: Como obter valor comercial com Big Data
Webinar: Como obter valor comercial com Big Data
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
O Novo Normal
O Novo NormalO Novo Normal
O Novo Normal
 

Mais de Cicero Joasyo Mateus de Moura

Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsCicero Joasyo Mateus de Moura
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...Cicero Joasyo Mateus de Moura
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...Cicero Joasyo Mateus de Moura
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Cicero Joasyo Mateus de Moura
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Cicero Joasyo Mateus de Moura
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...Cicero Joasyo Mateus de Moura
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchCicero Joasyo Mateus de Moura
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...Cicero Joasyo Mateus de Moura
 
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasIoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasCicero Joasyo Mateus de Moura
 

Mais de Cicero Joasyo Mateus de Moura (13)

Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
 
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasIoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
 
Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018
 
IoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTTIoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTT
 
PHP: Como não programar em POG
PHP: Como não programar em POGPHP: Como não programar em POG
PHP: Como não programar em POG
 

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data Stack - TDC Business 2023 (SP)