Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data Stack - TDC Business 2023 (SP)
1. TRILHA ENGENHARIA DE DADOS
Escalando a Qualidade de Dados com
Great Expectations e Spark
no Modern Data Stack
Business 2023
2. - Data Architect @ ViaHub;
- Bacharel em Sistemas de Informação
pelo IFG;
- Pós graduado em Big Data e
Machine Learning pela Fasam;
Cicero Moura
cicerojmm
/in/cicero-moura
/cicerojmm
5. 5
“O Modern Data Stack é um conjunto flexível de
tecnologias que ajudam as empresas a
armazenar, gerenciar e aprender com seus
dados de forma rápida e eficiente”.
6. Por que agora?
6
● Amadurecimento da área de Dados;
● Tecnologias mais sólidas;
● Conceitos e práticas onde é possível formar o
Modern Data Stack (MDS).
7. Pilares do MDS
7
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
8. Pilares do MDS
8
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Data Quality
14. O que é o Great Expectations?
14
● O Great Expectations (GE) é uma ferramenta de
qualidade de dados open source;
● É possível definir expectativas sobre seus dados e
verificar se elas atendem ou não.
■ Expectativas padrões;
■ Expectativas customizadas e;
■ Perfil completo sobre os dados.
15. Principais funcionalidades
15
● Testes de dados diretamente de dataframes criados
com Pandas ou Spark;
● Documentação dos testes em HTML de forma
automática;
● Criação de suítes e checkpoints dos testes;
● CLI que facilita a criação dos casos de testes;
● Integração nativa com diversas origens de dados.
17. Cenário de Negócio - Exemplo
17
● Temos dados armazenados em um Data Lake que se
encontra no S3 da AWS;
● Precisamos verificar a qualidade dos dados antes
que o negócio tome decisões críticas em cima deles;
● Os dados são sobre vendas de produtos de um
e-commerce.
22. Cenário de Negócio - Exemplo
22
Carregar os dados de teste;
Configurar destino da data docs;
Criar um profile dos dados;
Adicionar casos de testes;
Executar testes;
34. Dicas e insights
34
● O Great Expectations possui uma comunidade bem
ativa e com muitas evoluções;
● É interessante criar um framework para
desenvolvimento e padronização da qualidade de
dados;
● Criar relatório para monitoramento da qualidade de
dados;
● Agregar o Great Expectations com um catálogo de
dados é essencial;
35. 35
Mais do que ter os dados disponíveis para
análise, é preciso garantir a qualidade deles.