CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf

2 Ponto
Lorem ipsum dolor sit
amet, consec tetur
adipiscing elit. at eﬃcitur
tortor. Donec congue odio
bibendum
1 Ponto
amet, consec tetur
adipiscing elit. at
eﬃcitur tortor. Donec
congue odio bibendum
3 Ponto
amet, consec tetur
bibendum
4 Ponto
amet, consec tetur
bibendum
Big Data e
Machine Learning na Prática
Construindo um Data Lake na AWS
Workshop

“
Cícero Moura
Marco Nogueira
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Dadosfera
Dadosfera
Graduado em Ciência
da Computação
AWS Community Builder
Azure Certiﬁcations

Sobre o que vamos conversar?
○ Big Data e Data Lake;
○ Batch e Streaming de Dados;
○ Debezium, Kafka e muito mais;
○ Metabase para visualização de dados;
○ Handson com várias ferramentas e
tecnologias.
3

Objetivo
4
“Integrar dados de diversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.

Data Lake
7
https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/
“Data Lake é um repositório centralizado para dados estruturados e não
estruturados com alta escalabilidade, permitindo assim análise e
processamento dos dados”.

8
https://www.oreilly.com/library/view/data-lake-for/9781787281349/063e9f2b-c0c7-481c-b516-cf76cb9be685.xhtml
Data Lake
Arquitetura

15
https:/
/scikit-learn.org/stable/tutorial/machine_learning_map/index.html

Seu modelo em produção
16
● Como colocar seu modelo em produção:
○ Embarcado em um app mobile;
○ Através de uma API;
○ Em navegadores web;
○ Dispositivo IoT.
○ Gráﬁcos e dashboards.

17
Beleza,
mas como fazer Big Data?

19
https:/
/mattturck.com/data2020/

20
https:/

21
https:/

23
Problema a ser resolvido
● Integração de dados do Banco Postgres para dentro do Data Lake no S3;
● Processamento e tratamento dos dados dentro do Data Lake;
● Análise dos dados através de dashboards;

27
Debezium
● Ferramenta Open Source;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;

28
Debezium
“Nada mais nada menos do que o Kafka e Kafka Connect juntos”.

29
Debezium
Kafka
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01

30
Debezium
Kafka Connect
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01

31
Debezium
Arquitetura
https://debezium.io/documentation/reference/1.5/architecture.html

32
Debezium
E qual a vantagem?
● Uniﬁcação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?

33
Apache Spark
● Ferramenta Open-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html

34
Amazon EMR
https://aws.amazon.com/pt/emr/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
● “Execute e escale facilmente o Apache Spark, o Hive, o Presto e outras
ferramentas de big data”.
● Ferramenta gerenciada da AWS;

35
Delta Lake
● Framework para Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks

36
● Transações ACID;
● Uniﬁcação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, conﬁabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas

37
https://docs.delta.io
Delta Lake
Arquitetura

38
Metabase
Caracteristicas
● Ferramenta Open Source para visualização de dados;
● Elegante e fácil utilização para criação de dashboards;
● Utiliza Machine Learning para sugestões de criação de dashboards;

Código Completo da Talk
40
código fonte
do hands-on

41
● Em um ambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as conﬁgurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas

cicerojmm
/in/cicero-moura
@cicerojmm
cicerojmm
Cícero Moura Marco Nogueira
marcaoandradenogueira
/in/marco-antônio-andrad
e-nogueira-48b856129/
Marcaoandradenogueira
Obrigado pela presença!

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf

Mais conteúdo relacionado

Mais procurados

Semelhante a CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf

Mais de Cicero Joasyo Mateus de Moura

Último

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake na AWS.pdf