Construindo seu Data Lake na AWS: Arquitetura e Tecnologias

© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Samuel Schmidt
Big Data Consultant
23 de junho de 2017
Construindo seu Data Lake na AWS

Agenda
Conceitos de Data Lake
Simplificando o seu Data Lake
Quais tecnologias utilizar?
• Por quê?
• Como?
Arquitetura de referência
Design patterns

O que é Data Lake?
Data Lake é uma nova arquitetura que vem se tornando
cada vez mais popular com objetivo armazenar e analisar
um volume massivo e tipos heterogêneo de dados.

Por que Data Lake?
Utilizar os dados que podem influênciar o desempenho da sua
organização
• Foco no cliente
• Agilidade de negócio
• Melhores previsões utilizando Machine Learning
• Vantagem Competitiva

Viabilizadores do Data Lake
• Evolução das tecnologias de Big Data
• Evolução/economics dos serviços de cloud
• Convergência da arquitetura Big Data+Cloud

Evolução do Big Data
Processamento
Batch
Processamento
Stream
Inteligência
Artificial

Evolução dos serviços de Cloud
Virtual
machines
Managed
services
Serverless

Várias Ferramentas
Amazon
Glacier
S3 DynamoDB
RDS
EMR
Amazon
Redshift
Data Pipeline
Amazon
Kinesis
Lambda Amazon ML
SQS
ElastiCache
DynamoDB
Streams
Amazon Elasticsearch
Service
Amazon Kinesis
Analytics
Amazon
QuickSight

Desafios do Data Lake
Por quê?
Como?
Quais ferramentas
utilizar?
Há uma arquitetura de referência?

Princípios de Arquitetura
Construir sistemas desacoplados
• Dados → Armazenar→ Processamento→ Armazenar → Análise → Respostas
Ferramenta certa para o trabalho certo
• Estrutura de dados, latência, taxa de transferência, padrões de acesso
Utilizar serviços gerenciados da AWS
• Escalabilidade/elasticidade, disponibildiade, segurança, baixa ou nenhuma necessidade de administração
Utilizar design patterns com foco em logs.
• Log imutável (apenas incremental), materialized views
Custo otimizado
• Big data ≠ $$$$$$

Simplificar o Data Lake
COLETAR ARMAZENAR
PROCESSAR
/ANALISAR
CONSUMIR
Tempo de resposta(Latência)
Taxa de transferência
Custo

Tipos de DadosCOLETAR
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
Applications
Estrutura de dados em memória
Registros de banco de dados
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
LoggingTransport
Busca em documentos
Arquivos de log
Messaging
Message MESSAGES
Messaging
Mensagens
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
IoT
Streams de dados
Transações
Arquivos
Eventos

Qual é a temperatura do seu dado?

Características do Dado : Quente, Morno, Frio
Quente Morno Frio
Volume MB–GB GB–TB PB-EB
Tamanho do Item B–KB KB–MB KB–TB
Latência ms ms, sec min, hrs
Durabilidade Baixo–Alto Alto Muito Alto
Taxa de acesso Muito Alto Alto Baixo
Custo/GB $$-$ $-¢¢ ¢
Dados Quentes Dados Mornos Dados Frios

ARMAZENAR
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
IoT
COLETAR
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
LoggingTransport
Messaging
Message MESSAGES
MessagingApplications
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
Tipos de armazenamento de dados
Database Banco de dados SQL & NoSQL
Search Motores de busca
File store Sistemas de arquivos
Queue Filas de mensagens
Stream
storage
Pub/sub filas de mensagens
In-memory Caches, data structure servers

In-memory
Amazon Kinesis
Firehose
Amazon Kinesis
Streams
Apache Kafka
Amazon DynamoDB
Streams
Amazon SQS
Amazon SQS
• Serviço de filas de mensagens geranciado
Apache Kafka
• Plataforma distribuída de streaming com alta
taxa de transferência
Amazon Kinesis Streams
• Serviço gerenciado de processamento e
armazenamento de dados de streaming
Amazon Kinesis Firehose
• Serviço gerenciado de entrega de dados
Amazon DynamoDB
• Banco de dados NoSQL gerenciado
• Tabelas podem ter stream habilitado
Armazenamento de Mensagens e Stream
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
IoT
COLETAR ARMAZENAR
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
Database
Applications
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
Search
File store
LoggingTransport
Messaging
Message MESSAGES
Messaging
Message
Stream

Por que armazenamento de Streams?
• Desacoplar consumidores &
produtores
• Buffer persistente
• Coletar múltiplos streams
• Preservar ordenação
do cliente
• Consumo paralelo
• Streaming MapReduce
443322114 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
44332211
shard 1 / partition 1
shard 2 / partition 2
Consumer 1
Countof
red = 4
Countof
violet= 4
Consumer 2
Countof
blue = 4
Countof
green = 4
DynamoDB stream Amazon Kinesis stream Kafka topic

E sobre Amazon SQS?
• Desacoplar produtores e consumidores
• Buffer persistente
• Coletar streams múltiplos
• Sem ordenação (Padrão)
• Fila FIFO preserva a ordem
• Sem streaming MapReduce
• Sem consumo paralelo
• Amazon SNS consegue publicar
para múltiplos subscribers (filas
ou funções ʎ)
Publisher
Amazon SNS
topic
function
ʎ
AWS
Lambda
function
Amazon SQS
queue
queue
Subscriber
Consumers
4 3 2 1
12344 3 2 1
1234
2134
13342
Standard
FIFO

Qual armazenamento Stream/Fila de Mensagens devo utilizar?
Amazon
DynamoDB
Streams
Amazon
Kinesis
Streams
Amazon
Kinesis
Firehose
Apache
Kafka
Amazon
SQS (Standard)
Amazon SQS
(FIFO)
AWS gerenciado Sim Sim Sim Não Sim Sim
Garantia de ordem Sim Sim Não Sim Não Sim
Entrega
(desaclopamento)
Exatamente
uma vez
Pelo menos
uma vez
Pelo menos uma
vez
Pelo menos uma
vez
Pelo menos uma
vez
Exatamente uma
vez
Tempo de retenção 24 horas 7 dias N/A Configurável 14 dias 14 dias
Disponibilidade 3 AZ 3 AZ 3 AZ Configurável 3 AZ 3 AZ
Escala /
throughput
Sem limite /
~ table IOPS
Sem limite /
~ shards
Sem limite /
Automático
Sem limite /
~ nós
Sem limite /
Automático
300 TPS / fila
Consumo paralelo Sim Sim Não Sim Não Não
Stream MapReduce Sim Sim N/A Sim N/A N/A
Tamanho da
linha/objeto
400 KB 1 MB Tamanho da linha
do destino/objeto
Configurável 256 KB 256 KB
Custo Alto Baixo Baixo Baixo
(+administração)
Baixo-médio Baixo-médio
Hot Warm
New

In-memory
COLETAR ARMAZENAR
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
Database
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
Search
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams
Hot
Stream
Amazon S3
Amazon SQS
Message
Amazon S3
File
LoggingIoTApplicationsTransportMessaging
Armazenamento de
Arquivos

Por que o Amazon S3 é utilizado para Data Lake?
• Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.)
• Desacoplar armazenamento e processamento
• Sem necessidade de rodar clusters para storage (diferente do HDFS)
• Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot
• Múltiplos clusters distintos podem usar os mesmos dados
• Número ilimitado de objetos e de volume de dados
• Alta taxa de transferência – sem limite agregado de taxa de transferência
• Desenhado para ter 99.99% de disponibilidade - tolera falha nas AZs
• Desenhado para durabilidade de 99.999999999%
• Não é necessário pagar por replicação do dado
• Suporte nativo a versionamento
• Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida do dado
• Seguro – criptografia em trânsito com SSL, em descanso com client/server-side
• Baixo custo

E o HDFS e Amazon Glacier?
• Usar HDFS para dados frequentemente
acessados (quente)
• Usar Amazon S3 Standard para dados
frequentemente acessados
• Usar Amazon S3 Standard – IA para dados
que não são frequentemente acessados
• Usar Amazon Glacier para arquivar dados
frios
• Usar o Amazon S3 Analytics para analisar a
categoria de armazenamento dos objetos.
New

In-memory
COLETAR ARMAZENAR
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS Database
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
Search
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams
Hot
Stream
Amazon SQS
Message
Amazon S3
File
In-memory, Banco de
dados, Busca

Melhores práticas – Ferramenta certa para o trabalho certo
Busca
Service
In-memory
Amazon ElastiCache
Redis
Memcached
SQL
Amazon Aurora
Amazon RDS
MySQL
PostgreSQL
Oracle
SQL Server
NoSQL
Amazon DynamoDB
Cassandra
HBase
MongoDB

Materialized Views & Log imutável
Views
Log
imutável

COLETAR ARMAZENAR
Mobile apps
Web apps
Data centers
AWS Direct
Connect
RECORDS
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
DOCUMENTS
FILES
Messaging
Message MESSAGES
Devices
Sensors &
IoT platforms
AWS IoT STREAMS
Apache Kafka
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Streams
Hot
Stream
Amazon SQS
Message
Service
Amazon DynamoDB
Amazon S3
Amazon ElastiCache
Amazon RDS
SearchSQLNoSQLCacheFile
Amazon ElastiCache
• Serviço gerenciado de Memcached ou
Redis
Amazon DynamoDB
• Base de dados NoSQL gerenciado
Amazon RDS
• Serviço de banco de dados relacional
gerenciado
Amazon Elasticsearch Service
• Serviço gerenciado de Elasticsearch

Qual tipo de armazenamento utilizar?
Estrutura de dados → Schema fixo, JSON, chave-valor
Padrão de acesso → Armazenar dados no formato que você
vai acessar
Temperatura do dado → Quente, morno, frio
Custo→ Custo adequado

Estrutura de dados e Padrões de acesso
Padrões de Acesso O que utilizar?
Put/Get (chave, valor) In-memory, NoSQL
Relações simples → 1:N, M:N NoSQL
Multi-table joins, transação, SQL SQL
Faceting, search Search
Estrutura de dados O que utilizar?
Schema fixo SQL, NoSQL
Schema flexível (JSON) NoSQL, Busca
(Chave, Valor) In-memory, NoSQL

In-memory
SQL
Taxa de acesso
Alto Baixo
Custo/GB
Alto Baixo
Latência
Baixo Alto
Volume de dados
Baixo Alto
Amazon
Glacier
Esruturado
NoSQL
Dados quentes Dados mornos Dados frios
Pouco
Muito

Qual tipo de armazenamento devo utilizar?
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS/Aurora
Amazon
Elasticsearch
Amazon S3 Amazon Glacier
Latência
Média
ms ms ms, seg ms,seg ms,seg,min
(~ tamanho)
hrs
Volume de Dados GB GB–TBs
(sem limite)
GB–TB
(64 TB
Max)
GB–TB MB–PB
(sem limite)
GB–PB
(sem limite)
Tamanho do Item B-KB KB
(400 KB
max)
KB
(64 KB)
B-KB
(2 GB max)
KB-GB
(5 TB max)
GB
(40 TB max)
Taxa de Acesso Alta -
Muito Alta
Muito Alta
(sem limite)
Alta Alta Baixa –
Muito Alta
(sem limite)
Muito Baixa
Custo
armazenamento
GB/mês
$$ ¢¢ ¢¢ ¢¢ ¢ ¢4/10
Durabilidade Baixo -
Moderada
Muito Alta Muito Alta Alta Muito Alta Muito Alta
Availability Alta
2 AZ
Muito alta
3 AZ
Muito alta
3 AZ
Alta
2AZ
Muito alta
3 AZ
Muito alta
3 AZ
Quente Morno Frio

Modelo com Custo Otimizado
Exemplo: Eu deveria usar Amazon S3 ou Amazon DynamoDB?
“Atualmente estou analisando um projeto. O modelo requer
diversos arquivos pequenos, talvez um bilhão durante o
pico. O tamanho total seria na ordem de 1.5 TB por mês…”
Taxa de
requisição
(Escrita/seg)
Tamanho do
objeto
(Bytes)
Tamanho
total
(GB/mês)
Objetos por
mês
300 2048 1483 777,600,000

https://calculator.s3.amazonaws.com/index.html
Simple Monthly
Calculator
Modelo com Custo Otimizado
Example: Eu deveria usar Amazon S3 ou Amazon
DynamoDB?

Amazon S3 ou
DynamoDB?
Taxa de
requisição
(Escrita/seg)
Tamanho do
objeto
(Bytes)
Tamanho total
(GB/mês)
Objetos por mês
300 2048 1483 777,600,000

Taxa de requisição
(Escrita/seg)
Tamanho do
objeto
(Bytes)
Tamanho total
(GB/mês)
Objetos por mês
Scenario 1300 2,048 1,483 777,600,000
Scenario 2300 32,768 23,730 777,600,000
Amazon S3
Amazon DynamoDB
usar
usar

Batch
Leva de minutos a horas
Exemplo: Reports diários/semanais/mensais
Amazon EMR (MapReduce, Hive, Pig, Spark)
Interativo
Leva segundos
Exemplo: Self-service dashboards
Amazon Redshift, Amazon Athena, Amazon EMR (Presto, Spark)
Messagem
Leva de milissegundos a segundos
Exemplo: Processamento de mensagens
Amazon SQS applications on Amazon EC2
Stream
Exemplo: Alertas de fraude, Métricas de 1 minuto
Amazon EMR (Spark Streaming), Amazon Kinesis Analytics, KCL, Storm, AWS
Lambda
Inteligência Artificial
Exemplo: Detecção de fraude, previsão de demanda, text to speech
Amazon AI (Lex, Polly, ML, Rekognition), Amazon EMR (Spark ML), Deep
Learning AMI (MXNet, TensorFlow, Theano, Torch, CNTK and Caffe)
Tipos de Analytics e Frameworks PROCESSAR / ANALISAR
Message
Amazon SQS apps
Amazon EC2
Streaming
Amazon Kinesis
Analytics
KCL
apps
AWS Lambda
Stream
Amazon EC2
Amazon EMR
Fast
Amazon Redshift
Presto
Amazon
EMR
FastSlow
Amazon Athena
BatchInteractive
Amazon
AI
AI

Qual processamento Stream/Mensagem devo utilizar?
Amazon EMR
(Spark
Streaming)
Apache Storm KCL
Application
Amazon
Kinesis
Analytics
AWS
Lambda
Amazon SQS
Application
AWS
gerenciado
Sim(Amazon
EMR)
Não (Faça
você mesmo)
Não (EC2 +
Auto Scaling)
Sim Sim Não (EC2 + Auto
Scaling)
Serverless Não Não Não Sim Sim Não
Escala /
throughput
Sem limite /
~ nodes
Sem limite /
~ nodes
Sem limite /
~ nodes
Até 8 KPU /
automático
Sem limite /
automático
Sem limite /
~ nodes
Disponibilidade Única AZ Configurável Multi-AZ Multi-AZ Multi-AZ Multi-AZ
Linguagem de
programação
Java, Python,
Scala
Qualquer
linguagem via
Thrift
Java, outras
MultiLangDaemon
ANSI SQL with
extensions
Node.js, Java,
Python
AWS SDK (Java,
.NET, Python,
…)
Uso Múltiplos
estágios de
processamento
Múltiplos
estágios de
processamento
Único estágio
de
processamento
Múltiplos
estágios de
processamento
Eventos
simples
baseados em
triggers
Eventos simples
baseados em
triggers
Confiabilidade KCL e Spark
checkpoints
Framework
managed
Gerenciado
pelo KCL
Gerenciado pelo
Amazon Kinesis
Analytics
Gerenciado
pelo AWS
Lambda
Gerenciado pelo
SQS Visibility
Timeout

Qual ferramenta analítica devo utilizar?
Amazon Redshift Amazon Athena Amazon EMR
Presto Spark Hive
Caso de uso Otimizado para data
warehousing
Ad-hoc Queries interativas Queries
interativas
Propósito geral
(interativa ML, RT, ..)
Batch
Escala/throughput ~Nodes Automático / Sem limite ~ Nodes
AWS Serviço
gerenciado
Sim Sim, Serverless Sim
Armazenamento Local storage Amazon S3 Amazon S3, HDFS
Otimização Storage Colunar,
Compressão de dados, e
zone maps
CSV, TSV, JSON,
Parquet, ORC, Apache
Web log
Framework dependent
Metadados Amazon Redshift
managed
Athena Catalog Manager Hive Meta-store
Suporte a
ferramentas de BI
Sim (JDBC/ODBC) Sim (JDBC) Sim (JDBC/ODBC & Custom)
Controle de acesso Usuários, grupos, e
controle de acesso
AWS IAM Integração com LDAP
Suporte a UDF Sim (Scalar) Não Sim
Slow

E sobre ETL?
https://aws.amazon.com/big-data/partner-solutions/
ETLARMAZENAR PROCESSAR / ANALISAR
Parceiros de Integração de Dados
Reduzir o esforço para mover, limpar, sincronizar, gerenciar
e automatizar processos relacionados a dados AWS Glue
AWS Glue é um serviço de ETL totalmente
gerenciado que facilita o entendimento da sua fonte
de dados, prepara os dados e os move de forma
confiável entre camadas de armazenamento de
dados
New

COLETAR ARMAZENAR CONSUMIRPROCESSAR / ANALISAR
Service
Apache Kafka
Amazon SQS
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Amazon ElastiCache
Amazon RDS
Amazon DynamoDB
Streams
HotHotWarm
FileMessage
Stream
Mobile apps
Web apps
Devices
Messaging
Message
Sensors &
IoT platforms
AWS IoT
Data centers
AWS Direct
Connect
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
DOCUMENTS
FILES
MESSAGES
STREAMS
ETL
SearchSQLNoSQLCache
Streaming
Amazon Kinesis
Analytics
KCL
apps
AWS Lambda
Fast
Stream
Amazon EC2
Amazon EMR
Amazon SQS apps
Amazon Redshift
Presto
Amazon
EMR
FastSlow
Amazon EC2
Amazon Athena
BatchMessageInteractiveAI
Amazon
AI
Amazon S3

ARMAZENAR CONSUMIRPROCESSAR/ANALISAR
Amazon QuickSight
Apps & Services
Analysis&visualizationNotebooksIDEAPI
Aplicações & API
Análises e visualização
Notebooks
IDE
Usuários do
negócios
Cientistas de
dados,
desenvolvedores
COLETAR ETL

Streaming
Amazon Kinesis
Analytics
KCL
apps
AWS Lambda
COLETAR ARMAZENAR CONSUMIRPROCESSAR / ANALISAR
Service
Apache Kafka
Amazon SQS
Amazon Kinesis
Streams
Amazon Kinesis
Firehose
Amazon DynamoDB
Amazon ElastiCache
Amazon RDS
Amazon DynamoDB
Streams
HotHotWarm
Fast
Stream
SearchSQLNoSQLCacheFileMessageStream
Amazon EC2
Mobile apps
Web apps
Devices
Messaging
Message
Sensors &
IoT platforms
AWS IoT
Data centers
AWS Direct
Connect
AWS Import/Export
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
RECORDS
DOCUMENTS
FILES
MESSAGES
STREAMS
Amazon QuickSight
Apps & Services
Analysis&visualizationNotebooksIDEAPI
ETL
Amazon EMR
Amazon SQS apps
Amazon Redshift
Presto
Amazon
EMR
FastSlow
Amazon EC2
Amazon Athena
BatchMessageInteractiveAI
Amazon
AI
Amazon S3

E os Metadados?
• Amazon Athena Catalog
• Catálogo interno para tabelas/esquemas no S3
• Glue Catalog
• Hive Metastore compatível
• Crawlers - Detectar novos dados, schema e
partições
• Busca - Metadata discovery
• EMR Hive Metastore (Presto, Spark, Hive, Pig)
• Pode ser armazenado no Amazon RDS
Presto
Amazon
EMR
Amazon Athena
Data
Catalog
Amazon Athena
Catalog RDS
Amazon EMR
Hive Metastore
Amazon RDS
Glue
Catalog

Segurança e Governança
• AWS Identity and Access Management (IAM)
• Amazon Cognito
• Amazon CloudWatch & AWS CloudTrail
• Amazon KMS
• AWS Directory Service
• Apache Ranger
Security &
Governance IAM Amazon
CloudWatch
AWS
CloudTrail
AWS
KMS
AWS
CloudHSM
AWS Directory
Service
Amazon
Cognito

Security &
Governance IAM AWS
STS
Amazon
CloudWatch
AWS
CloudTrail
AWS
KMS
AWS
CloudHSM
AWS Directory
Service
Data
Catalog
Amazon Athena
Catalog RDS
Hive
Metastore EMR RDS
Glue
Catalog
Arquitetura de
referência para
Data Lake

Data Lake na AWS
Catalog & Search
Access and search metadata
Access & User Interface
Give your users easy and secure access
DynamoDB Elasticsearch API Gateway Identity & Access
Management
Cognito
QuickSight Amazon AI EMR Redshift
Athena Kinesis
Analytics
RDS
Central Storage
Secure, cost-effective
Storage in Amazon S3
S3
Snowball Database Migration
Service
Kinesis Firehose Direct Connect
Data Ingestion
Get your data into S3
Quickly and securely
Protect and Secure
Use entitlements to ensure data is secure and users’ identities are verified
Processing & Analytics
Use of predictive and prescriptive
analytics to gain better understanding
Security Token
Service
CloudWatch CloudTrail Key Management
Service

Spark Streaming
Apache Storm
AWS Lambda
KCL apps
Amazon
Redshift
Amazon
Redshift
Hive
Spark
Presto
Amazon Kinesis Amazon
DynamoDB
Amazon S3dado
Quente Frio
Temperatura do
Dado
Velocidadedeprocessamento
Rápido
Lento Respostas
Hive
Native apps
KCL apps
AWS Lambda
Amazon
Athena

Amazon EMR
Real-time Analytics
Amazon
Kinesis
KCL app
AWS Lambda
Spark
Streaming
Amazon
SNS
Amazon
AI
Notificações
Amazon
ElastiCache
(Redis)
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
Alertas
App state or
Materialized
View
Previsão em tempo real
KPI
processar
armazenar
Amazon Kinesis
Analytics
Amazon
S3
Log
Amazon
KinesisFan out

Interativo &
Batch
Analytics
Amazon S3
Amazon EMR
Hive
Pig
Spark
Amazon
AI
processar
armazenar
Consumir
Amazon Redshift
Amazon EMR
Presto
Spark
Batch
Interativo
Previsão batch
Previsão real time
Amazon
Kinesis
Firehose
Amazon Athena
Arquivos
Amazon Kinesis
Analytics

Interativo &
Batch
Amazon S3
Amazon
Redshift
Amazon EMR
Presto
Hive
Pig
Spark
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
AWS Lambda
Storm
Spark Streaming
on Amazon EMR
Aplicãções
Amazon
Kinesis
App state
or
Materialized
View
KCL
Amazon
AI
Real-time
Amazon
DynamoDB
Amazon
RDS
Change Data
Capture
Transações
Stream
Arquivos
Data Lake
Amazon Kinesis
Analytics
Amazon Athena
Amazon Kinesis
Firehose

Resources
• https://aws.amazon.com/blogs/big-data/introducing-the-data-
lake-solution-on-aws/
• AWS re:Invent 2016: Netflix: Using Amazon S3 as the fabric of
our big data ecosystem (BDM306)
• AWS re:Invent 2016: Deep Dive on Amazon S3 (STG303)
• https://aws.amazon.com/blogs/big-data/reinvent-2016-aws-big-
data-machine-learning-sessions/
• https://aws.amazon.com/blogs/big-data/implementing-
authorization-and-auditing-using-apache-ranger-on-amazon-emr/

“Tomada de decisão orientada à dados”
Webmotors tem 21 anos e é
considerada top of mind entre os
classificados automotivos.
+ 30 milhões de visitas por mês
+ 130 milhões de buscas por mês
Maior estoque automotivo do Brasil
+ 250 veículos anunciados
“Escolhemos a AWS
pela variedade de
recursos para obter o
melhor potencial das
nossas analises”

O Desafio
• Analise de grande volume de
informações;
• Acessos
• Conversão em vendas
• Único repositorio para
informações;
• Governança de dados;
• Analises em tempo real.

Solução
AWS Region
security group
EC2 instance
IIS
(App layer)
AmazonKinesis
Streams
s3://wm-datalake/source
logs
Adobe Analytics and DMP
Upload to S3 through
connectors
EC2 instance
SQL
Server
(Database
layer)
Adobe Cloud
Pentaho
CloudWatch
Logs
s3://wm-4insights
Amazon Redshift
COPY from S3 into Redshift
ST IT Services on AWS
EC2 instance
4Insights
(Metadata and
Mapping Layer)
Metadata , mapping and
Submit load jobs to Redshift s3://wm-sandbox/
EMR Cluster –
Hive/Spark/Presto
Exploratory
analysis,
Transform,
Advanced
Analytics
Glacier
EMR Cluster –
Hive/Spark/Presto
Create Schemas and
Process Data
Hive metastore
DynamodDB
Data Catalog
and tags
EMR Cluster –
Spark Streaming
Lambda
Lambda
Send data
to Kinesis
Data transformation,
metrics calculations and
geração de alertas
Amazon Elasticsearch Service
WM corporate office
User DesktopEC2 instance
PDI
(ETL
layer)
s3://wm-datalake/consume
Kibana/Dashboard
Tableau
Desktop
VPN
connection
EC2 instance
Tableau Server
(BI layer)
Extract data from Redshift and
load into S3 wm-sandbox
WM - VPC

Ainda não tem o App oficial do
AWS Summit São Paulo?
http://amzn.to/2rOcsVy
Não deixe de avaliar as sessões no app!

Construindo seu Data Lake na AWS: Arquitetura e Tecnologias

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Construindo seu Data Lake na AWS: Arquitetura e Tecnologias

Semelhante a Construindo seu Data Lake na AWS: Arquitetura e Tecnologias (20)

Mais de Amazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

Construindo seu Data Lake na AWS: Arquitetura e Tecnologias

Notas do Editor