Construindo um Data Warehouse moderno com Amazon Redshift
O documento discute a construção de um data warehouse moderno com o Amazon Redshift. Apresenta a evolução dos modelos de data warehouse tradicionais para os modernos, como funciona o Amazon Redshift e casos de clientes como a Amazon.com.
Evolução das plataformastecnológicas de análise de
dados
Appliances de
Data warehouse
1985 2006
Clusters
Hadoop
2009
Clusters EMR
desacoplados
2012
Cloud DWH
Redshift
Today
Clusterless
Athena Glue
OLTP ERP CRMLOB
Data Warehouse
Business Intelligence • Dados relacionais
• Escala de TBs–PBs
• Esquema on-write
• Relatórios operacionais e ad hoc
• Investimentos iniciais
Tradicionalmente, Analytics parecia-se com isso
10.
Data Lake ampliaa abordagem tradicional
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• Dados relacionais e não-relacionais
• Escala de TBs–EBs
• Diversidade de engines de análise
• Baixo custo de storage e processamento
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake
11.
Amazon S3
Amazon Glacier
AWSGlue
Armazene os dados em diversos formatos
• Arquivos texto como CSV
• Colunares como Apache Parquet e Apache ORC
• Logstash como Grok
• JSON (simple, nested), AVRO
• E mais…
CSV
ORC
Grok
Avro
Parquet
JSON
12.
Data lake comAmazon S3 e AWS Glue
On premises data
Web app data
Amazon RDS
Other databases
Streaming data
Your data
AMAZON
QUICKSIGHT
AWS GLUE ETL
Speed (Processamento emReal-time)
Ingestão Camada de entregaData
sources
Scale (Processamento em Batch)
Usuários de negócio
Solução de ETL
ETL
Amazon
QuickSight
BI Clásico com processamento batch
Banco Relacional
Tradicional
ERP Sist1
Outros
Sistemas
15.
Speed (Processamento emReal-time)
Ingestão Camada de entregaData
sources
Scale (Processamento em Batch)
Data Warehouse
Amazon Redshift
Queries Interativas
Amazon Athena
EMR com PrestoStaged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Ingestão de
Databases
AWS DMS
Evoluindo o cenário atual – Processamento Batch com EMR
Usuários de negócio
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas
Ingestão
Apache Flume
Apache Sqoop
Amazon
QuickSight
16.
Speed (Processamento emReal-time)
Ingestão Camada de entregaData
sources
Scale (Processamento em Batch)
Data Warehouse
Amazon Redshift
Queries Interativas
Amazon Athena
EMR com PrestoStaged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Deep Learning
AI Frameworks
Advanced Analytics
Amazon EMR
Ingestão de
Databases
AWS DMS
Evolução – Novas capacidades analíticas para novos usuários (IA e ML)
Usuários de negócio
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas Modelagem analítica/AI
Amazon EMRIngestão
Apache Flume
Apache Sqoop
Amazon
QuickSight
17.
Speed (Processamento emReal-time)
Ingestão Camada de entregaData
sources
Scale (Processamento em Batch)
Web logs /
cookies
Dispositivos
conectados
Midias sociais
Data Warehouse
Amazon Redshift
Real-time Dashboards
Amazon ElasticSearch
Queries Interativas
Amazon Athena
EMR com Presto
Near-Zero Latency
Amazon DynamoDB
Staged Data
(Data Lake)
Amazon S3
Raw Data
(Data Lake)
Amazon S3
ETL/Processamento
Amazon EMR
Deep Learning
AI Frameworks
Advanced Analytics
Amazon EMR
Processamento
de eventos
AWS Lambda
Ingestão de
Databases
AWS DMS
Captura de
Eventos
Amazon Kinesis
Processamento em
tempo real
EMR Spark Streaming
Cenário Futuro – Incluindo Processamento em Tempo Real com IA e ML
Captura de
Eventos
Apache Kafka Amazon AI
Services
Usuários de negócio
Plataformas de
engajamento
Automação / Eventos
Cientistas de Dados
Analistas de Dados
ERP Sist1
Outros
Sistemas Modelagem analítica/AI
Amazon EMRIngestão
Apache Flume
Apache Sqoop
Amazon
QuickSight
Amazon.com tem avisão de ser
a empresa com mais foco no
cliente do mundo, em que
pessoas podem encontrar o
que quiserem e comprar online
Challenge:
Carregar alto volume de e
queries/extrações todos os dias
(Amazon.com, Amazon Prime, Amazon
Music, Amazon Alexa, Amazon Video,
and Twitch).
Solution:
• Data lake no S3
• Usa Redshift para análises baseadas
em SQL por usuários de negócio,
EMR e Machine Learning
30.
• DynamoDB capturando
todasas transações da
Amazon.com
• Dados do DynamoDB, RDS
PostgreSQL e Kinesis
alimentam o data lake no
S3
• Glue usado como catálogo
de meta dados
• Redshift usado para queries
baseadas em SQL e EMR
para machine learning e
processamento big data
• Usuários usam QuickSight
para visualizações
AWS Glue
Catálogo
QuickSight
S3 Athena
EMR
DynamoDB
PostgreSQL
Kinesis
Redshift
Machine
Learning
Amazon.com Data Lake e Analytics