AWS Data Immersion Webinar Week - Entenda como ampliar suas possibilidades de uso do seu DataLake

© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amanda Quinto & Bruno Silveira
Arquitetos do Time de Setor Publico da AWS Brasil
20 de Outubro de 2020
Expandindo seu Data Lake na AWS
Ingestão e Armazenamento

Agenda
O que é um Data Lake na AWS?
A importância na escolha do Armazenamento
Fontes de Dados e Ingestão naAWS

Data Lake na AWS

Trabalhando com Data Lake
Catalog & Search Access & User Interfaces
Data Ingestion
Analytics & Serving
S3
Amazon
DynamoDB
Amazon Elasticsearch
Service
AWS
AppSync
Amazon
API Gateway
Amazon
Cognito
AWS
KMS
AWS
CloudTrail
Manage & Secure
AWS
IAM
Amazon
CloudWatch
AWS
Snowball
AWS Storage
Gateway
Amazon
Kinesis Data
Firehose
AWS Direct
Connect
AWS Database
Migration
Service
Amazon
Elasticsearch
Service
Central Storage
Scalable, secure, cost-effective
AWS
Glue
AWS
DataSync AWS Transfer
for SFTP
Amazon S3 Transfer
Acceleration
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDB
Amazon
QuickSight
Amazon
Neptune
Amazon
RDS
Amazon
Kinesis

Trabalhando com Data Lake
Catalog & Search Access & User Interfaces
Data Ingestion
Analytics & Serving
S3
Amazon
DynamoDB
Amazon Elasticsearch
Service
AWS
AppSync
Amazon
API Gateway
Amazon
Cognito
AWS
KMS
AWS
CloudTrail
Manage & Secure
AWS
IAM
Amazon
CloudWatch
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDB
Amazon
QuickSight
Amazon
Elasticsearch
Service
Amazon
Neptune
Amazon
RDS
Central Storage
Scalable, secure, cost-effective
AWS
Glue
AWS
Snowball
AWS Storage
Gateway
Amazon
Kinesis Data
Firehose
AWS Direct
Connect
AWS Database
Migration
Service
AWS Transfer
for SFTP
Amazon S3 Transfer
Acceleration
Amazon
Kinesis
AWS
DataSync

Ingestão de Multiplas Fontes de Dados
s3://datalake/
/vendorfeeds
/vendorA
/vendorB
/clickstream
/orders
/vendors
/customers
/app_logs
/instance1
/instance2
/syslogs
/instance1
/instance2
/databases
/customers
/orders
/vendors
API Gateway
KinesisAgent
DMS
Kinesis Data Firehose
Amazon S3
Files
Streams
Logs
Databases
AWS Snowball

Amazon Simple Storage Service
Construído para armazenar qualquer quantidade de dados
Funciona na maior infraestrutura de nuvem global do
mundo
Projetado para oferecer durabilidade de 99,999999999%
Redundância geográfica e replicação automática
Armazenamento em camadas para otimizar preço /
desempenho
S3
Standard Glacier
Active Infrequent Archive

Fontes de Dados
Arquivos LogsStreams Banco de Dados

Arquivos
Amazon S3Files

Upload no Amazon S3
Amazon S3 oferece suporte para single-part
upload e uma API de multi-part upload
O single-part upload suporta objetos de até 5
GB de tamanho
O multi-part upload suporta objetos de até 5
TB de tamanho
O multi-part upload também permite que
você maximize seu rendimento usando
threads paralelas

As solicitações PUT passam pelo local de borda
AWS mais próximo
Os dados transitam pela rede privada AWS, em
vez da Internet
A rede privada da AWS otimiza a taxa de
transferência e a latência para a região da AWS
Os dados não são armazenados no cache de
borda
S3Transfer Acceleration
S3 bucket
AWS edge
location
Uploader

S3 Batch Operations
Manage billions of objects at scale, change object properties, perform storage management tasks

AWS Snowball/Snowmobile
Use Case AWS Solution
Cloud Migration, Disaster
Recovery
AWS Snowball
Internet ofThings (IoT), Remote
Remote Locations
AWS Snowball Edge
Migrating Exabytes of Data AWS Snowmobile

Streams

Streams
Coletando e Analisando
• Amazon Kinesis
• Amazon Managed Streaming for Kafka (MSK)
• Examplo: Clickstream Analytics

Colete, processe e analise facilmente streams de vídeo e dados em tempo real
Carregar stream de
dados em
armazenamentos de
dados AWS
Kinesis Data
Firehose
Crie aplicativos
personalizados que
analisam stream de
dados
Kinesis Data
Streams
Capture, processe e
armazene streams de
vídeo para análise
KinesisVideo
Streams
Analise streams de dados
com SQL
Kinesis Data
Analytics
Amazon Kinesis –Tempo Real

Kinesis –Varias integrações
Put* APIs
LOG4J
Flume
Fluentd
Get* APIs
Apache Storm
Amazon Elastic MapReduce
(EMR)
Produzindo
Consumindo
AWS Mobile SDK
Kinesis Producer Library
AWS Lambda
Apache Spark
Kinesis Streams
Kinesis Consumer Library

Kinesis – Como funciona?

Amazon Managed Streaming for Kafka (MSK)
Totalmente compatível com Apache Kafka v1.1.1
AWS Management Console e AWS API para provisionamento
Os clusters são configurados automaticamente
Provisione brokers e armazenamento Apache Kafka
Crie e remova clusters sob demanda

Comparando Amazon Kinesis Data Streams to MSK
Amazon Kinesis Data Streams Amazon MSK
Newest dataOldest data
50 1 2 3 4
0 1 2 3
0 1 2 3 4
Shard 2
Shard 1
Shard 3
Writes from
Producers
Stream with 3 shards
Newest dataOldest data
50 1 2 3 4
0 1 2 3
0 1 2 3 4
Partition 2
Partition 1
Partition 3
Writes from
Producers
Topic with 3 partitions

Comparando Amazon Kinesis Data Streams to MSK
• Experiência API AWS
• Modelo de provisionamento de taxa
de transferência
• Dimensionamento contínuo
• Custos normalmente mais baixos
• Integrações nativas AWS
• Compatibilidade opensource
• Modelo de provisionamento de
cluster
• O dimensionamento do Apache
Kafka não é fácil para os clientes
• Desempenho bruto
Amazon Kinesis Data Streams Amazon MSK

API Gateway
Kinesis
Data Stream
Kinesis
DataAnalytics
Amazon S3
Kinesis
Data Stream
Lambda
Taxas de conversão
Anomalias
SNS
Clickstream com Analytics emTempo Real

DEMO
Amazon S3Files

Logs
Amazon S3Files

Logs
Coletando e Analisando
AmazonCloudWatch
Amazon Kinesis

Logs – CloudWatch Agent
EC2 Instances
CloudWatch Log Stream AWS Lambda Amazon S3

Logs – Kinesis Agent
Amazon S3Kinesis Data Firehose
EC2 InstancesWith Kinesis Agent

Logs – Kinesis Agent (with Analytics)
Amazon S3
EC2 Instances
Kinesis Data Stream
Kinesis Data FirehoseKinesis DataAnalytics

Bancos de Dados
Amazon S3Databases

AWS Database Migration Service
Sources* Targets*
Oracle Oracle
SQL Server SQL Server
Azure SQL PostgreSQL
PostgreSQL MySQL
MySQL Amazon Redshift
SAP ASE SAP ASE
MongoDB Amazon S3
Amazon S3 Amazon DynamoDB
IBM DB2 Amazon Kinesis
Amazon ElasticSearch
Consult CHAP_Source.html and CHAP_Target.html pages for latest
DMS sources and targets

Change Data Capture
Techniques to Capture Changes
• Timestamp
• Diff Comparison
• Triggers
• Transaction Log

AWS Database Migration Service (AWS DMS) migre e/ ou
replique de forma fácil e segura seus bancos de dados e data
warehouses para AWS
AWS Schema ConversionTool (AWS SCT) converta seu banco de
dados comercial e esquemas de armazém de dados em mecanismos
de código aberto ou serviços nativos, como Amazon Aurora e
Redshift
Database Migration Service
(Também bom para ingestão!)

Modernize Migre Replique
Modernize sua camada de banco de dados –
• Comercial para open-source
• Comercial para Amazon Aurora
Modernize seu DataWarehoue –
• Commercial para Redshift
• Migrar aplicativos essenciais aos
negócios
• Migrar do clássico para oVPC
• Migrar data warehouse para Redshift
• Atualize para uma versão secundária
• Crie réplicas de leitura entre regiões
• Execute suas análises na nuvem
• Mantenha a sincronização do ambiente
de desenvolvimento/teste e produção
Quando usar DMS e SCT?

DMS – Deployment
Amazon S3
Availability Zone Availability Zone
VPC subnet VPC subnet
Replication
Primary
Replication
Secondary

Bulk File
s3://mybucket/schemaName/tableName
s3://mybucket/hr/employee
/schemaName/tableName/LOAD001.csv
...
101,Smith,Bob,4-Jun-14,New York
102,Smith,Bob,8-Oct-15,Los Angeles
103,Smith,Bob,13-Mar-17,Dallas
104,Smith,Bob,13-Mar-17,Dallas
Ongoing CDC Files
s3://mybucket/schemaName/tableName
<time-stamp>.csv
<time-stamp>.csv
<time-stamp>.csv
...
I,101,Smith,Bob,4-Jun-14,New York
U,101,Smith,Bob,8-Oct-15,Los Angeles
U,101,Smith,Bob,13-Mar-17,Dallas
D,101,Smith,Bob,13-Mar-17,Dallas
DMS – S3 como Destino

Opções para transferência de dados
AWS
Direct Connect
Amazon Kinesis
Data Firehose
AWS
Snowball
AWS Snowmobile
AWS
Storage
Gateway
Amazon S3
Transfer
Acceleration
AWS
DataSync
AWSTransfer
for SFTP
AWS
Snowball Edge
Amazon Kinesis
Data Streams
Amazon Kinesis
Video Streams

Data Immersion Month
Quarta-feira (21/10) - Webinar - Planeje e entenda como criar um
repositório de dados de maneira segura e seguindo boas práticas
de governança
Quinta-feira (22/10) - Webinar - Entenda como a AWS pode te
ajudar em obter respostas com dados e AI/ML

Q&A
Amanda Quinto & Bruno Silveira

Obrigada!

AWS Data Immersion Webinar Week - Entenda como ampliar suas possibilidades de uso do seu DataLake

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a AWS Data Immersion Webinar Week - Entenda como ampliar suas possibilidades de uso do seu DataLake

Semelhante a AWS Data Immersion Webinar Week - Entenda como ampliar suas possibilidades de uso do seu DataLake (20)

Mais de Amazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

AWS Data Immersion Webinar Week - Entenda como ampliar suas possibilidades de uso do seu DataLake

Notas do Editor