SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
TRILHA ARQUITETURA DE DADOS
Escalando a Qualidade de Dados com
Great Expectations e Spark
no Modern Data Stack
Innovation 2023
- Data Platform Manager @ Dadosfera;
- Bacharel em Sistemas de Informação pelo
IFG;
- Pós graduado em Big Data e Machine
Learning pela Fasam;
Cicero Moura
cicerojmm
/in/cicero-moura
/cicerojmm
3
Modern Data Stack
01
Great
Expectations
03
Arquitetura de Dados
05
Qualidade
de Dados
02 04
Dicas e Insights
06
Great Expectations e
Spark na Prática
Sobre o que vamos conversar?
4
“O Modern Data Stack é um conjunto flexível de
tecnologias que ajudam as empresas a
armazenar, gerenciar e aprender com seus
dados de forma rápida e eficiente”.
Por que agora?
5
● Amadurecimento da área de Dados;
● Tecnologias mais sólidas;
● Conceitos e práticas onde é possível formar o
Modern Data Stack (MDS).
Pilares do MDS
6
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Pilares do MDS
7
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Data Quality
Arquitetura com MDS
8
Data Quality
Qualidade de Dados
9
10
A Qualidade de Dados é um dos maiores desafios
enfrentados pelas empresas atualmente.
A favor de dados precisos, confiáveis e relevantes.
Great Expectations
11
O que é o Great Expectations?
12
● O Great Expectations (GE) é uma ferramenta de
qualidade de dados open source;
● É possível definir expectativas sobre seus dados e
verificar se elas atendem ou não.
■ Expectativas padrões;
■ Expectativas customizadas e;
■ Perfil completo sobre os dados.
Principais funcionalidades
13
● Testes de dados diretamente de dataframes criados
com Pandas ou Spark;
● Documentação dos testes em HTML de forma
automática;
● Criação de suítes e checkpoints dos testes;
● CLI que facilita a criação dos casos de testes;
Arquitetura com
Great Expectations e Spark
14
Cenário de Negócio - Exemplo
15
● Temos dados armazenados em um Data Lake que se
encontra no S3 da AWS;
● Precisamos verificar a qualidade dos dados antes
que o negócio tome decisões críticas em cima deles;
● Os dados são sobre vendas de produtos de um
e-commerce.
16
17
18
Great Expectations e Spark
na Prática
19
Caso de Teste: Suite de testes
20
Caso de Teste: Profile dos Dados
21
Caso de Teste: Validadores
22
Executando os Casos de Testes
23
Documentação dos testes
24
Dicas e Insights
25
Dicas e insights
26
● O Great Expectations possui uma comunidade bem
ativa e com muitas evoluções;
● É interessante criar um framework para
desenvolvimento e padronização da qualidade de
dados;
● Criar relatório para monitoramento da qualidade de
dados;
● Agregar o Great Expectations com um catálogo de
dados é essencial;
27
Mais do que ter os dados disponíveis para
análise, é preciso garantir a qualidade deles.
28
Código completo
https://bit.ly/tdc-ge-2023
29
cicerojmm.medium.com
/in/cicero-moura
Obrigado!

Mais conteúdo relacionado

Semelhante a Great Expectations e Spark escalam qualidade de dados no MDS

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Cicero Joasyo Mateus de Moura
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisCicero Joasyo Mateus de Moura
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteJuly A. M. Rizzo
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxdataRain
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 
Data Management Summit
Data Management SummitData Management Summit
Data Management SummitDenodo
 

Semelhante a Great Expectations e Spark escalam qualidade de dados no MDS (20)

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]GUBI: Agile Analytics [pt-br]
GUBI: Agile Analytics [pt-br]
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
 
QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…
 
Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
Gravação_Sunlytics PitchDeck.PDF
Gravação_Sunlytics PitchDeck.PDFGravação_Sunlytics PitchDeck.PDF
Gravação_Sunlytics PitchDeck.PDF
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
Comprei um SQL Server e agora?
Comprei um SQL Server e agora?Comprei um SQL Server e agora?
Comprei um SQL Server e agora?
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
Data Management Summit
Data Management SummitData Management Summit
Data Management Summit
 

Mais de Cicero Joasyo Mateus de Moura

Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsCicero Joasyo Mateus de Moura
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...Cicero Joasyo Mateus de Moura
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...Cicero Joasyo Mateus de Moura
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Cicero Joasyo Mateus de Moura
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...Cicero Joasyo Mateus de Moura
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchCicero Joasyo Mateus de Moura
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...Cicero Joasyo Mateus de Moura
 
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasIoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasCicero Joasyo Mateus de Moura
 

Mais de Cicero Joasyo Mateus de Moura (13)

Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
 
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das PessoasIoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
 
Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018
 
IoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTTIoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTT
 
PHP: Como não programar em POG
PHP: Como não programar em POGPHP: Como não programar em POG
PHP: Como não programar em POG
 

Great Expectations e Spark escalam qualidade de dados no MDS