ou como um Data Warehouse pode complementar sua estratégia de dados e trazer impacto no seu negócio através de analytics (sem te levar à falência)
apresentada no CloudUp - Porto Alegre em Março de 2019
gravação ao final dos slides ou https://youtu.be/XqkfAwDorrk
Guia completo sobre AWS Redshift: características, conceitos e melhores práticas
1. AWS REDSHIFT
PRIMER
...ou como um Data Warehouse pode complementar sua
estratégia de dados e trazer impacto no seu negócio
através de analytics (sem te levar à falência)
4. APENAS MAIS UM BANCO DE DADOS
centrado na aplicação
transacional
cadastros
tempo de resposta
dados normalizados (3NF)
centrado no negócio
analítico
eventos
volume de dados
star / snowflake schema
RELACIONAL DATA WAREHOUSE
7. Amazon Redshift is a fast, fully managed data
warehouse that makes it simple and cost-effective to
analyze all your data using standard SQL and your
existing Business Intelligence (BI) tools. It allows you
to run complex analytic queries against petabytes of
structured data, using sophisticated query
optimization, columnar storage on high-performance
local disks, and massively parallel query execution.
8. Amazon Redshift is a fast, fully managed data
warehouse that makes it simple and cost-effective to
analyze all your data using standard SQL and your
existing Business Intelligence (BI) tools. It allows you
to run complex analytic queries against petabytes of
structured data, using sophisticated query
optimization, columnar storage on high-performance
local disks, and massively parallel query execution.
9.
10.
11.
12.
13.
14. DIFERENTES “SABORES”
2 vCPU
15 GB
0.16 TB
$ 0.25 / h
4 vCPU
31 GB
2 TB
$ 0.85 / h
36 vCPU
244 GB
16 TB
$ 6.80 / h
32 vCPU
244 GB
2.56 TB
$ 4.80 / h
15. DIFERENTES “SABORES”
2 vCPU
15 GB
0.16 TB
$ 0.25 / h
4 vCPU
31 GB
2 TB
$ 0.85 / h
36 vCPU
244 GB
16 TB
$ 6.80 / h
32 vCPU
244 GB
2.56 TB
$ 4.80 / h
16. DIFERENTES “SABORES”
2 vCPU
15 GB
0.16 TB
$ 0.25 / h
4 vCPU
31 GB
2 TB
$ 0.85 / h
36 vCPU
244 GB
16 TB
$ 6.80 / h
32 vCPU
244 GB
2.56 TB
$ 4.80 / h
17. GERENCIADO
RESIZE
1. Coloca o cluster em
READ-ONLY
2. Provisiona um novo cluster
3. Redistribui os dados
4. Aponta o DNS para o novo
cluster
5. Descarta o cluster antigo
BACKUPS
• Direto para o S3
• Sem impacto de performance
• Ocorre a cada:
• 5 GB modificados
• 8 horas
• Manual
MANUTENÇÃO
• Atualizações de S.O.
• Atualizações de Aplicação
• Otimização do Stack
• Painel de Monitoramento
• Health Check
• Substituição de Nodes
19. CONCEITOS
COLUMNAR
STORAGE
• Reduz I/O
• Lê apenas aquilo
que precisa
• Favorece a
compressão
COMPRESSION
• Reduz I/O
• Mais eficaz por
conta da estrutura
colunar
• Reduz o espaço
ocupado
SORT KEY(S)
• Zone Maps
• Evita I/O
desnecessário
• Ordenação física
dos registros
DISTRIBUTION
KEY
• Particionamento
entre Nodes
• Três estilos
• ALL
• KEY
• EVEN
25. ...WE'RE NOT IN
KANSAS ANYMORE
TRANSAÇÕES
• Nada de
ISOLATION LEVELS
• Tudo é
SERIALIZABLE
• Two-phase commit
por ser um sistema
distribuído com
replicação
CONSTRAINTS
• PRIMARY KEY,
FOREIGN KEY,
UNIQUE
• Não são
“enforçadas”
• No entanto são
usadas pelo
optimizer
VACUUM
• Blocos são
imutáveis e
deletes são
lógicos
• Reorganiza os
dados na tabela
• “Devolve” o espaço
em disco
APENAS DADOS
• Lógica só na
aplicação
• Não suporta
IF, WHILE,
ou qualquer outra
estrutura de código
26. CONTUDO.....
(GERENCIADO)
ROI INDIRETO ATRAVÉS DE
MELHORIAS REALIZADAS
PELA AWS
performance
for commits
performance for
repeated queries
query processing (subqueries
& complex analytical queries)
resource management for
memory-intensive queries
string manipulation
27. STATISTICS
automatically updates table
statistics on your cluster via the
new Auto Analyze feature
VACUUM
automatically runs in the
background to reclaim the
space freed by deleted rows
CONTUDO.....
(GERENCIADO)
28. FLEET
TELEMETRY
On a fleet-wide basis, repetitive queries
are 17x faster, deletes are 10x faster,
single-row inserts are 3x faster, and
commits are 2x faster
CONCURRENCY
SCALING
Concurrency Scaling is a new
feature in Amazon Redshift that
adds transient capacity when
needed, to handle heavy demand
from concurrent users and queries
CONTUDO.....
(GERENCIADO)
29. O QUE NÃO FOI DITO
… pois rende uma talk exclusiva
30. O QUE NÃO FOI DITO
WORKLOAD
MANAGEMENT
• Gerenciamento de prioridades
• Filas e Classes de Serviços
• Níveis de concorrência
• Alocação de memória
• Timeouts
SPECTRUM
• Consultas direto do S3
• Integração com Data Lake
• Mescla dados do DW com
arquivos no S3
• Poder computacional proporcional
ao tamanho dos dados, não
necessariamente do cluster
32. AWS REDSHIFT
PRIMER
...ou como um Data Warehouse pode complementar sua
estratégia de dados e trazer impacto no seu negócio
através de analytics (sem te levar à falência)