2 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
1 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at
efficitur tortor. Donec
congue odio bibendum
3 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
4 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at efficitur
tortor. Donec congue odio
bibendum
Big Data e
Machine Learning na Prática
Construindo um Data Lake na AWS
Workshop
“
Cícero Moura
Marco Nogueira
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Dadosfera
Dadosfera
Graduado em Ciência
da Computação
AWS Community Builder
Azure Certifications
Sobre o que vamos conversar?
○ Big Data e Data Lake;
○ Batch e Streaming de Dados;
○ Debezium, Kafka e muito mais;
○ Metabase para visualização de dados;
○ Handson com várias ferramentas e
tecnologias.
3
Objetivo
4
“Integrar dados de diversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.
5
O que é Big Data?
Big Data?
6
Data Lake
7
https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/
“Data Lake é um repositório centralizado para dados estruturados e não
estruturados com alta escalabilidade, permitindo assim análise e
processamento dos dados”.
8
https://www.oreilly.com/library/view/data-lake-for/9781787281349/063e9f2b-c0c7-481c-b516-cf76cb9be685.xhtml
Data Lake
Arquitetura
9
Batch de Dados
Streaming de Dados
10
11
Evolução do Big Data
12
O que é Machine Learning?
O que é Machine Learning?
13
O que é Machine Learning?
14
15
https:/
/scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Seu modelo em produção
16
● Como colocar seu modelo em produção:
○ Embarcado em um app mobile;
○ Através de uma API;
○ Em navegadores web;
○ Dispositivo IoT.
○ Gráficos e dashboards.
17
Beleza,
mas como fazer Big Data?
18
Nós temos um plano…
19
https:/
/mattturck.com/data2020/
20
https:/
/mattturck.com/data2020/
21
https:/
/mattturck.com/data2020/
22
O que e como vamos fazer?
23
Problema a ser resolvido
● Integração de dados do Banco Postgres para dentro do Data Lake no S3;
● Processamento e tratamento dos dados dentro do Data Lake;
● Análise dos dados através de dashboards;
24
AWS
25
26
Tecnologias e Ferramentas
27
Debezium
● Ferramenta Open Source;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;
28
Debezium
“Nada mais nada menos do que o Kafka e Kafka Connect juntos”.
29
Debezium
Kafka
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01
30
Debezium
Kafka Connect
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01
31
Debezium
Arquitetura
https://debezium.io/documentation/reference/1.5/architecture.html
32
Debezium
E qual a vantagem?
● Unificação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?
33
Apache Spark
● Ferramenta Open-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html
34
Amazon EMR
https://aws.amazon.com/pt/emr/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
● “Execute e escale facilmente o Apache Spark, o Hive, o Presto e outras
ferramentas de big data”.
● Ferramenta gerenciada da AWS;
35
Delta Lake
● Framework para Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks
36
● Transações ACID;
● Unificação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, confiabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas
37
https://docs.delta.io
Delta Lake
Arquitetura
38
Metabase
Caracteristicas
● Ferramenta Open Source para visualização de dados;
● Elegante e fácil utilização para criação de dashboards;
● Utiliza Machine Learning para sugestões de criação de dashboards;
39
Metabase
Código Completo da Talk
40
código fonte
do hands-on
41
● Em um ambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as configurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas
cicerojmm
/in/cicero-moura
@cicerojmm
cicerojmm
Cícero Moura Marco Nogueira
marcaoandradenogueira
/in/marco-antônio-andrad
e-nogueira-48b856129/
Marcaoandradenogueira
Obrigado pela presença!

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf