O documento apresenta uma trilha sobre Big Data e NoSQL, abordando tópicos como streaming de dados em data lake com Debezium, Delta Lake e EMR, incluindo arquiteturas, ferramentas e casos reais.
Stream de Dados em Data Lake com Debezium, Delta Lake e EMR
1. TRILHA BIG DATA E NOSQL
Stream de Dados em
Data Lake com
Debezium, Delta Lake e EMR
2. QUEM SOMOS
Cícero Moura Marco Nogueira
Engenheiro de Dados
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Sprinter (DataSprints) Sprinter (DataSprints)
Graduado em Ciência
da Computação
4. Sobre o que vamos conversar?
○ Big Data e Data Lake
○ Streaming de Dados
○ Debezium
○ Spark e EMR
○ Delta Lake
○ Hands-On
4
Código fonte
do hands-on
5. Objetivo
5
“Integrar dados de diversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.
12. 12
Debezium
● Ferramenta Open Source;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;
17. 17
Debezium
E qual a vantagem?
● Unificação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?
18. 18
Apache Spark
● Ferramenta Open-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html
20. 20
Delta Lake
● Framework para Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks
21. 21
● Transações ACID;
● Unificação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, confiabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas
29. 29
● Em um ambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as configurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas