Construindo um Data Warehouse moderno com Amazon Redshift

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Claudia Charro
Arquiteta de Soluções
AWS
Construindo um Data Warehouse
moderno com Amazon Redshift

• Data Warehouse e Data Lake: Do modelo tradicional ao
moderno
• Como funciona o Amazon Redshift
• Casos de Clientes
Agenda

Data Warehouse e Data Lake:
Do modelo tradicional ao moderno

Data Warehouse Tradicional
OLTP ERP CRM LOB
Data Warehouse
Business Intelligence
Dados relacionais
Terabytes a petabytes de escala
Schema definido antes da carga
Relatórios Operacionais
Investimento inicial

Data warehouse tradicional Data warehouse moderno
Inclua todos os dados nas queries para melhorar os resultados
Um Approach Melhor: Pesquise Todos os seus dados
Analise o que é carregado
no seu data warehouse
Analise todos os dados no
seu
data warehouse e data lake

Evolução das plataformas tecnológicas de análise de
dados
Appliances de
Data warehouse
1985 2006
Clusters
Hadoop
2009
Clusters EMR
desacoplados
2012
Cloud DWH
Redshift
Today
Clusterless
Athena Glue

Sources:
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
1990 2000 2010 2020
VolumedeDados All Data
Analyzed Data
Dados
Obscuros não
disponíveis
para análise
Este modelo pode levar a “Dados Obscuros”
Dados Gerados
Dados Analisados

Data Lakes Extendem o Approach Tradicional
Dados relacionais e não-relacionais
Escala de Terabytes a exabytes
Schema definido durante a análise
Vários engines analíticos para gerar insights
Desenhado para baixo custo de storage e análise
OLTP ERP CRM LOB
Data warehouse
Business
Intelligence
Data lake
1001100001001010111
0010101011100101010
0001011111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time

OLTP ERP CRM LOB
Data Warehouse
Business Intelligence • Dados relacionais
• Escala de TBs–PBs
• Esquema on-write
• Relatórios operacionais e ad hoc
• Investimentos iniciais
Tradicionalmente, Analytics parecia-se com isso

Data Lake amplia a abordagem tradicional
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• Dados relacionais e não-relacionais
• Escala de TBs–EBs
• Diversidade de engines de análise
• Baixo custo de storage e processamento
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake

Amazon S3
Amazon Glacier
AWS Glue
Armazene os dados em diversos formatos
• Arquivos texto como CSV
• Colunares como Apache Parquet e Apache ORC
• Logstash como Grok
• JSON (simple, nested), AVRO
• E mais…
CSV
ORC
Grok
Avro
Parquet
JSON

Data lake com Amazon S3 e AWS Glue
On premises data
Web app data
Amazon RDS
Other databases
Streaming data
Your data
AMAZON
QUICKSIGHT
AWS GLUE ETL

Evolução e Modernização Gradativa
da Arquitetura

Speed (Processamento em Real-time)
Ingestão Camada de entregaData
sources
Scale (Processamento em Batch)
Usuários de negócio
Solução de ETL
ETL
Amazon
QuickSight
BI Clásico com processamento batch
Banco Relacional
Tradicional
ERP Sist1
Outros
Sistemas

sources
Data Warehouse
Amazon Redshift
Queries Interativas
Amazon Athena
EMR com PrestoStaged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Ingestão de
Databases
AWS DMS
Evoluindo o cenário atual – Processamento Batch com EMR
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas
Ingestão
Apache Flume
Apache Sqoop
Amazon
QuickSight

sources
Data Warehouse
Amazon Redshift
Queries Interativas
Amazon Athena
EMR com PrestoStaged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Deep Learning
AI Frameworks
Advanced Analytics
Amazon EMR
Ingestão de
Databases
AWS DMS
Evolução – Novas capacidades analíticas para novos usuários (IA e ML)
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas Modelagem analítica/AI
Amazon EMRIngestão
Apache Flume
Apache Sqoop
Amazon
QuickSight

sources
Web logs /
cookies
Dispositivos
conectados
Midias sociais
Data Warehouse
Amazon Redshift
Real-time Dashboards
Amazon ElasticSearch
Queries Interativas
Amazon Athena
EMR com Presto
Near-Zero Latency
Amazon DynamoDB
Staged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Deep Learning
AI Frameworks
Advanced Analytics
Amazon EMR
Processamento
de eventos
AWS Lambda
Ingestão de
Databases
AWS DMS
Captura de
Eventos
Amazon Kinesis
Processamento em
tempo real
EMR Spark Streaming
Cenário Futuro – Incluindo Processamento em Tempo Real com IA e ML
Captura de
Eventos
Apache Kafka Amazon AI
Services
Plataformas de
engajamento
Automação / Eventos
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas Modelagem analítica/AI
Amazon EMRIngestão
Apache Flume
Apache Sqoop
Amazon
QuickSight

Como funciona o Amazon Redshift

Amazon Redshift
Rápido
Entrega resultados rápidos
para todos os tipos de
workloads
Custo-benefício
Sem custos custos iniciais,
começe pequeno, e pague o
que utilizar
Integrado Seguro
Audite tudo, criptografe os
dados de ponta a ponta,
certificação e compliance
extensivo
Integrado com data lakes no
Amazon S3, serviços AWS, e
ferramentas de terceiros
$
Simples
Crie e comece a usar um
data warehouse em minutos
Escalável
Gigabytes a petabytes,
a exabytes

Redshift Spectrum
Extenda o data warehouse para o seu data lake no Amazon S3
Escale computação e storage separadamente
Cruze dados entre o Amazon Redshift e Amazon S3
Amazon Redshift SQL pesquisa exabytes de dados
no Amazon S3
Formatos: Parquet, ORC, Grok, Avro, & CSV
Pague somente de acordo com a quantidade de
dados processados
Amazon S3
data lake
Amazon
Redshift data
Redshift Spectrum
query engine

Amazon
Redshift
JDBC/ODBC
...
1 2 3 4 N
Amazon S3
Storage de objetos
em escala de
Exabytes
AWS Glue
Catálogo de
Dados
Amazon
Redshift Spectrum
Computação com
escalabilidade horizontal
Query
SELECT COUNT(*)
FROM S3.EXT_TABLE
GROUP BY …
Arquitetura do
Amazon Redshift

Amazon Redshift está disponível Globalmente
Ireland
Frankfurt
London
Beijing
Mumbai
Seoul
Singapore
Sydney
Tokyo
Sao Paulo
US East – N Virginia
US East – Ohio
US West – Oregon
US West – N California
AWS GovCloud (US)
Canada – Central, Montreal

Parceiros Selecionados Amazon Redshift
Data Integration Systems IntegratorsBusiness Intelligence

Aceleração para Queries rápidas
Via Expressa para Queries rápidas
• Machine learning prevê o
tempo de execução das
queries
• Queries rápidas são roteadas
para uma fila expressa
• Recursos dinamicamente
dedicados para servir um
burst de queries curtas
Como funciona:
Analytics e
BI / Ferramentas e
Dashboards
Amazon
Redshift Machine Learning
Classifier

BI / Dashboard tools
Analytics and
Amazon
Redshift
Queries vão para o nó lider1
Se o cache contém o resultado da
query, o valor é retornado
2
Se o resultado não está no cache, ele
é então executado, e o resultado é
cacheado
3
RESULTS CACHE
QUERY_ID RESULT
QUERY_ID RESULT
Caching de Resultados
Queries repetidas em menos de 1 segundo
Como funciona:
Result
cache
Caching libera recursos no cluster, melhorando
a performance de todas as queries

Ingestão de Arquivos Parquet e ORC (Novo)
• Parquet
• Avro
• Json
• TXT
• ORC
• CSV

Algumas dicas para trabalhar com Spectrum
1. Use Amazon Redshift Spectrum para melhorar workloads “scan-
intensive” e com muita concorrência.
2. Use múltiplos clusters on-demand do Amazon Redshift clusters
para escalar concorrência.
3. Use arquivos Apache Parquet para melhor performance e menor
custo.

Casos de Clientes

Amazon.com tem a visão de ser
a empresa com mais foco no
cliente do mundo, em que
pessoas podem encontrar o
que quiserem e comprar online
Challenge:
Carregar alto volume de e
queries/extrações todos os dias
(Amazon.com, Amazon Prime, Amazon
Music, Amazon Alexa, Amazon Video,
and Twitch).
Solution:
• Data lake no S3
• Usa Redshift para análises baseadas
em SQL por usuários de negócio,
EMR e Machine Learning

• DynamoDB capturando
todas as transações da
Amazon.com
• Dados do DynamoDB, RDS
PostgreSQL e Kinesis
alimentam o data lake no
S3
• Glue usado como catálogo
de meta dados
• Redshift usado para queries
baseadas em SQL e EMR
para machine learning e
processamento big data
• Usuários usam QuickSight
para visualizações
AWS Glue
Catálogo
QuickSight
S3 Athena
EMR
DynamoDB
PostgreSQL
Kinesis
Redshift
Machine
Learning
Amazon.com Data Lake e Analytics

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Líder mundial na área de automação bancária
e comércio conectado. Atuam na área de
online fraud detection.
Desafio:
Recebem informações de diversos canais e
instituções (mobile, desktop, ATM).
Informações são correlacionadas para gerar
um score de risco em menos de 1 segundo.
Solução:
• Redshift
• Data Lake no S3.
Caso público:
https://aws.amazon.com/pt/solutions/case-
studies/diebold-gas/
Vídeo “This is my architecture”:
https://www.youtube.com/watch?v=7HXTEewn
5bE

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon
EC2
Mongo DB
Amazon Kinesis
Firehose
Amazon Kinesis
Analytics
Amazon
EMR
Amazon
EMR
Amazon
Redshift*
S3 bucket
S3 bucket
Transformação
Parquet
Machine
Learning
Amazon
EC2
ETL
API
Diebold Nixdorf
https://www.youtube.com/watch?v=7HXTEewn5bE

Mais informações:
https://aws.amazon.com/redshift/
Experimente o Amazon Redshift:
https://aws.amazon.com/redshift/free-trial/
Leia os blog posts sobre o Amazon Redshift:
https://aws.amazon.com/redshift/blog-posts/
Comece com o Amazon Redshift
Amazon
Redshift

Obrigada!

Construindo um Data Warehouse moderno com Amazon Redshift

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Construindo um Data Warehouse moderno com Amazon Redshift

Semelhante a Construindo um Data Warehouse moderno com Amazon Redshift (20)

Mais de Amazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

Construindo um Data Warehouse moderno com Amazon Redshift