CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf
1. 2 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
1 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at
efficitur tortor. Donec
congue odio bibendum
3 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
4 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
Big Data e
Machine Learning na Prática
Construindo um Data Lake na AWS
Workshop
2. “
Cícero Moura
Marco Nogueira
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Dadosfera
Dadosfera
Graduado em Ciência
da Computação
AWS Community Builder
Azure Certifications
3. Sobre o que vamos conversar?
○ Big Data e Data Lake;
○ Batch e Streaming de Dados;
○ Debezium, Kafka e muito mais;
○ Metabase para visualização de dados;
○ Handson com várias ferramentas e
tecnologias.
3
4. Objetivo
4
“Integrar dados de diversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.
16. Seu modelo em produção
16
● Como colocar seu modelo em produção:
○ Embarcado em um app mobile;
○ Através de uma API;
○ Em navegadores web;
○ Dispositivo IoT.
○ Gráficos e dashboards.
23. 23
Problema a ser resolvido
● Integração de dados do Banco Postgres para dentro do Data Lake no S3;
● Processamento e tratamento dos dados dentro do Data Lake;
● Análise dos dados através de dashboards;
27. 27
Debezium
● Ferramenta Open Source;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;
32. 32
Debezium
E qual a vantagem?
● Unificação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?
33. 33
Apache Spark
● Ferramenta Open-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html
35. 35
Delta Lake
● Framework para Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks
36. 36
● Transações ACID;
● Unificação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, confiabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas
38. 38
Metabase
Caracteristicas
● Ferramenta Open Source para visualização de dados;
● Elegante e fácil utilização para criação de dashboards;
● Utiliza Machine Learning para sugestões de criação de dashboards;
41. 41
● Em um ambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as configurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas