Implementação de Data Lakes
Luiz Henrique Zambom Santana, D.Sc.
INE | CTC
Motivação
Imagine que uma empresa já possui um DW mas um produto novo
gerou um aumento de 100x no volume de dados e os relatórios
estão ficando muito lentos e caros. Além disso, foi criada uma
área de Data Science que deve gerar insights contínuos para as
equipes comerciais. A gestão decidiu que irá construir um DL
para substituir o DW.
Quais cuidados devemos ter ao
migrar de um DW para um DL?
Quais problemas podem
aparecer com essa mudança
de paradigma?
● Data lake
○ Dados normalmente armazenados em arquivos (Avro,
Parquet, JSON, etc)
○ Conjunto de camadas para facilitar a manipulação
○ Funcionalidades como time travel
● Existem produtos que apoiam essa criação:
○ Apache Hudi
○ Apache Iceberg
○ Delta Lake (Databricks)
○ Snowflake
Implementação
Apache Hudi (ELT)
Apache Hudi (Storage Layer)
Apache Hudi - Time travel
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
Apache Parquet
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
Exemplo prático
https://colab.research.google.com/d
rive/1jZuD5sRYvO5uJz0hgXqx2Pd
EMHNM4fr6?usp=sharing
Imagine um sistema de vendas que registra novas transações e
atualizações diárias. Podemos criar um data lake que use o
Apache Hudi, que possibilite versionamento e consultas
incrementais.
Obrigado!

UFSC - Data Lakes Technlogies & Implementation - 2025