3. • Um repositório central para dados
estruturados e não estruturados
• Armazenamento de arquivos em
formatos abertos
O que é um Data Lake?
Machine
learning
BI +
analytics
Data
warehousing
Data lakes
Open formats
Central catalog
4. Por quê um Data Lake?
• Separa o armazenamento da
computação tornando o ambiente mais
escalável
• Permite o uso de soluções de analytics
para todas as fontes de dados
• Reduz a complexidade do ETL e o custo
operacional
• Permite que você acople novas
tecnologias ao longo do tempo
Machine
learning
BI +
analytics
Data
warehousing
Data lakes
Open formats
Central catalog
5. Normalmente uma plataforma de analytics é dessa forma…
Escala de TBs-PBs
O esquema é definido na gravação
Relatórios operacionais ou sob demanda
Alto investimento inicial e custo de manutenção
Dados relacionais
OLTP ERP CRM LOB
DW Silo 1
Business
Intelligence
6. Os Data Lakes expandem a visão tradicional de analytics…
OLTP ERP CRM LOB
Catalog
DW
Queries
Big Data
Processing
Interactive Real-Time
Web Sensors SocialDevices
Business Intelligence Machine Learning Escala de TB-EBs
Todos os dados em um lugar
“Single Source of Truth”
Dados relacionais e não relacionais
Desacoplamento de computação e
armazenamento
Esquema definido na leitura
Diversas tecnologias de analyticsData Lake
1001100001001010111001
0101011100101010000101
1111011010001111001011
0010110
0100011000010
7. Benefícios do Data Lake – Todos os dados em um lugar
Armazene e analise todos os seus dados,
de todas as suas fontes, em um local
centralizado.
“Por que os dados são
distribuídos em vários locais?
Onde está a única fonte da
verdade?”
8. Benefícios do Data Lake – Ingestão de dados
Injete rapidamente os dados sem
precisar definir um esquema.
“Como coletar dados
rapidamente de várias fontes e
armazená-los com eficiência?”
9. Benefícios do Data Lake – Armazenamento vs Computação
A separação de armazenamento e
computação permite dimensionar cada
componente conforme necessário
“Como posso escalar com o
volume de dados que está sendo
gerado?”
10. Benefícios do Data Lake – Schema na leitura
“Existe uma maneira de aplicar várias
estruturas de análise e
processamento aos mesmos dados?”
Um Data Lake permite a análise
sob demanda aplicando schemas
na leitura, não na gravação.
11. Nosso portfolio
Portfolio amplo e profundo, construído para builders
S3/Glacier
Glue
ETL & Data Catalog
Lake Formation
Data Lakes
Database Migration Service | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka
Data Movement
Data Lake
Analytics
Redshift
Data warehousing
EMR
Hadoop + Spark
Kinesis Data Analytics
Real time
Elasticsearch Service
Operational Analytics
Athena
Interactive analytics
NEW
NEW
NEWAQUA EMR on Outposts
UltraWarm
Business Intelligence & Machine Learning
Data Exchange
Data exchange
NEW
QuickSight
Visualizations
SageMaker
ML
Comprehend
NLP
Transcribe
Speech-to-text
Textract
Extract text
Personalize
Recommendation
Forecast
Forecasts
Translate
Translation
CodeGuru
Code reviews
Kendra
Enterprise search
NEW NEW
Analytics
Redshift
Data warehousing
EMR
Hadoop + Spark
Kinesis Data Analytics
Real time
Elasticsearch Service
Operational Analytics
Athena
Interactive analytics
NEW
NEW
NEWAQUA EMR on Outposts
UltraWarm
Databases
RDS
MySQL, PostgreSQL,
MariaDB, Oracle, SQL Server,
RDS on VMware
Aurora
MySQL, PostgreSQL
DynamoDB
Key value, Document
ElastiCache
Redis, Memcached
Neptune
Graph
Timestream
Time Series
QLDB
Ledger Database
Managed Apache
Cassandra Service
Wide column
NEW
DocumentDB
Document
NEW
NEW
RDS Proxy
RDS on Outposts
RDS
MySQL, PostgreSQL,
MariaDB, Oracle, SQL Server,
RDS on VMware
Aurora
MySQL, PostgreSQL
DynamoDB
Key value, Document
ElastiCache
Redis, Memcached
Neptune
Graph
Timestream
Time Series
QLDB
Ledger Database
Analytics Databases
Managed
Blockchain
Blockchain
Templates
Blockchain
Managed Apache
Cassandra Service
Wide column
NEW
DocumentDB
Document
Redshift
Data warehousing
EMR
Hadoop + Spark
Kinesis Data Analytics
Real time
Elasticsearch Service
Operational Analytics
Athena
Interactive analytics
NEW
NEW
NEW
NEW
NEW
AQUA EMR on Outposts
UltraWarm
RDS Proxy
RDS on Outposts
12. Abordagens tradicionais de data warehousing
Data silos to
OLTP ERP CRM LOB
DW Silo 1
Business
Intelligence
Devices Web Sensors Social
Business
Intelligence Machine
learning
BI +
analytics
Data
warehousing
Data lakes
Open formats
Central catalogHadoop Silo
13. Qualquer tipo de análise no data lake
Data
Warehousing
Big Data
Processing
Interactive
Query
Operational
Analytics
Real-time
Analytics
Predictive
Analytics
RecommendationsVisualizations
Data lake
Data
Exchange
14. Qualquer tipo de análise no data lake
Plataforma analítica mais abrangente
Amazon S3 | AWS Glue
Lake Formation
Data lake
Amazon
Redshift
Amazon
EMR
Amazon
Athena
Amazon
Elasticsearch
Service
Amazon
Kinesis
Amazon
MSK
Amazon
SageMaker
Amazon
Personalize
Amazon
QuickSight
AWS Data
Exchange
Data
Warehousing
Big Data
Processing
Interactive
Query
Operational
Analytics
Real time
Analytics
Predictive
Analytics
RecommendationsVisualizations
Data
Exchange
15. Amazon S3
Unmatched durability,
availability, and scalability
Most object-level
controls
Easiest to use with
cost optimization:
Intelligent Tiering
Best security, compliance,
and audit capabilities
Most ways to get data in
Broadest portfolio
of analytics tools
Amazon S3 é a plataforma mais utilizada para Data Lakes em Nuvem
16.
17. Categorias de Armanzenamento do Amazon S3
Access frequencyFrequent Infrequent
Active, frequently
accessed data
Milliseconds access
> 3 AZ
$0.0210/GB
Data with changing
access patterns
Milliseconds access
> 3 AZ
$0.0210 to
$0.0125/GB
Infrequently
accessed data
Milliseconds access
> 3 AZ
$0.0125/GB
Re-creatable, less
accessed data
Milliseconds access
1 AZ
$0.0100/GB
Archive data
Minutes or hours
access
> 3 AZ
$0.0040/GB
S3 Standard S3 Standard-IA S3 One Zone-IA S3 Glacier
S3 Intelligent-
Tiering
S3 Glacier
Deep Archive
Archive data
Hours to access
> 3 AZ
$0.00099/GB
https://aws.amazon.com/pt/s3/storage-classes
18. ® 2020 Amazon Web Services Inc. or its Affiliates. All rights reserved.
FINRA uses an AWS data lake to oversee over 3,000 securities firms
FINRA needed a platform that could
ingest, process, and store 36 billion
market events on an average day and
dynamically scale up to handle 100
billion events on a peak day.
FINRA built a data lake on
AWS using Amazon S3 and
EMR to store and analyze data
from 3,700 broker dealers and
12 exchanges.
FINRA’s flexible platform can adapt
to changing market dynamics while
providing analysts with the tools
needed to query the data set.
Amazon
S3
Amazon
EMR
We got some huge pleasant surprises out of [going all in on AWS] that we weren’t
expecting at all. First of those is amazing performance improvements. On average,
400 times improvement to interactive queries. The investigative capacity to our
surveillance team has expanded dramatically.
– Steve Randich, CIO, FINRA
“
”
22. Amazon DynamoDB
Banco de dados totalmente gerenciado, multi-region e multi-master
Banco de dados não relacional que oferece desempenho confiável em
qualquer escala
Latência consistente de um dígito de milissegundo
Segurança integrada, backup e restauração, cache em memória
Suporte a Streams
24. Processamento em Tempo Real
Alto throughput
Elástico
Fácil de utilizar
Integrado com Amazon EMR, Amazon S3, Amazon
Redshift, DynamoDB
Amazon Kinesis
25. Amazon Kinesis
Data Streams
• Para desenvolvedores
• Crie seus próprios
aplicativos
personalizados que
processam ou analisam
dados de streaming
Amazon Kinesis
Data Firehose
• Para todos os
desenvolvedores e
cientistas de dados
• Carregue facilmente
grandes volumes de
dados de streaming no
S3, Amazon Redshift e
Amazon Elasticsearch
Amazon Kinesis
Data Analytics
• Para todos os
desenvolvedores e
cientistas de dados
• Analise facilmente fluxos
de dados usando
consultas SQL padrão
Amazon Kinesis
28. Descobre automaticamente os dados e armazena o esquema
Dados pesquisáveis e disponíveis para ETL
Gera código personalizável
Agenda e executa seus trabalhos ETL
Serverless
AWS Glue - Serverless Data Catalog and ETL
30. Serviço de consulta interativa para analisar
dados no Amazon S3 usando SQL padrão
Nenhuma infraestrutura para configurar ou
gerenciar e nenhum dado para carregar
Suporta vários formatos de dados - Definir
esquema sob demanda
Amazon Athena - Interactive Analysis
36. Data warehousing: Amazon Redshift
Best performance,
most scalable
3x faster with RA3*
10x faster with AQUA*
Adds unlimited compute capacity
on-demand to meet unlimited
concurrent access
Lowest cost
Cost-optimized workloads
by paying compute and
storage separately
1/10th cost of Traditional
DW at $1000/TB/year
Up to 75% less than other
cloud data warehouses &
predictable costs
Data lake &
AWS integration
Analyze exabytes of data across
data warehouse, data lakes, and
operational database
Query data across various
analytics services
Most secure
& compliant
AWS-grade security (eg. VPC,
encryption with KMS, CloudTrail)
All major certifications such
as SOC, PCI, DSS, ISO,
FedRAMP, HIPPA
Primeiro e mais popular data warehouse de nuvem
*vs other cloud DWs
37. PostgreSQL Columnar
MPP
OLAP
AWS Identity
and Access
Management
(IAM)
Amazon
VPC
Amazon
Simple
Workflow
Service
Amazon Simple
Storage
Service (S3)
AWS Key
Management
Service
Amazon
Route 53
Amazon
CloudWatch
Amazon
EC2
Amazon Redshift
AWS Cloud
38. Amazon EMR
Easily Run Spark, Hadoop, Hive, Presto, HBase, and more big data apps on AWS
Low cost
50–80% reduction in costs with
EC2 Spot and Reserved Instances
Per-second billing for flexibility
Use S3 storage
Process data in S3
securely with high performance
using the EMRFS connector
Latest versions
Updated with latest open source
frameworks within 30 days
Fully managed no cluster
setup, node provisioning,
cluster tuning
Easy
42. Como os serviços da AWS ajudam
A AWS implementa, e renova regularmente, suas certificações de segurança
em infraestrutura e serviços de acordo com diversas especificações
internacionais reconhecidas no mercado ou exigidas por lei/regulamentos
• SOC 1/SSAE 16/ISAE 3402 (successor do SAS 70)
• SOC 2
• SOC 3
• FISMA, DIACAP e FedRAMP
• DoD SRG
• PCI DSS Level 1
• ISO 9001
• ISO/IEC 27001 (ABNT NBR ISO/IEC 27001)
• ISO/IEC 27017 (ABNT NBR ISO/IEC 27017)
• ISO/IEC 27018 (ABNT NBR ISO/IEC 27018)
• ITAR
• FIPS 140-2
• MTCS Tier 3