CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf
O documento discute vários tópicos relacionados a Big Data e Machine Learning, incluindo: 1) pontos atribuídos a diferentes tópicos; 2) definição de Data Lake; 3) batch e streaming de dados; 4) evolução do Big Data; 5) definição de Machine Learning.
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf
1.
2 Ponto
Lorem ipsumdolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
1 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at
efficitur tortor. Donec
congue odio bibendum
3 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
4 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
Big Data e
Machine Learning na Prática
Construindo um Data Lake na AWS
Workshop
2.
“
Cícero Moura
Marco Nogueira
Engenheirode Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Dadosfera
Dadosfera
Graduado em Ciência
da Computação
AWS Community Builder
Azure Certifications
3.
Sobre o quevamos conversar?
○ Big Data e Data Lake;
○ Batch e Streaming de Dados;
○ Debezium, Kafka e muito mais;
○ Metabase para visualização de dados;
○ Handson com várias ferramentas e
tecnologias.
3
4.
Objetivo
4
“Integrar dados dediversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.
Seu modelo emprodução
16
● Como colocar seu modelo em produção:
○ Embarcado em um app mobile;
○ Através de uma API;
○ Em navegadores web;
○ Dispositivo IoT.
○ Gráficos e dashboards.
23
Problema a serresolvido
● Integração de dados do Banco Postgres para dentro do Data Lake no S3;
● Processamento e tratamento dos dados dentro do Data Lake;
● Análise dos dados através de dashboards;
27
Debezium
● Ferramenta OpenSource;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;
32
Debezium
E qual avantagem?
● Unificação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?
33.
33
Apache Spark
● FerramentaOpen-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html
35
Delta Lake
● Frameworkpara Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks
36.
36
● Transações ACID;
●Unificação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, confiabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas
38
Metabase
Caracteristicas
● Ferramenta OpenSource para visualização de dados;
● Elegante e fácil utilização para criação de dashboards;
● Utiliza Machine Learning para sugestões de criação de dashboards;
41
● Em umambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as configurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas