1. Organizações que implementam data lakes e capacidades analíticas na nuvem podem obter vantagens competitivas por meio de insights gerados a partir de dados.
2. A AWS oferece uma variedade de serviços para construir data lakes e habilitar análises, incluindo machine learning e analytics em tempo real, armazenados com segurança e governança na nuvem da AWS.
3. O portfólio integrado de serviços da AWS para data lakes permite que as organizações armazenem, processem e analisem dados na escala de exabytes para
2. Organizações que conseguem gerar valor de
negócio a partir de seus dados irão superar seus
concorrentes. Uma pesquisa da Aberdeen
demonstrou que organizações que
implementaram um data lake superaram
organizações similares 9% no crescimento
orgânico de receita.*
24%
15%
Líderes Seguidores
Crescimento Orgânico
de Receita
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Qual o valor do dado?
3. Dado está mudando Capacidade Analítica
adaptando-se
Captura e
armazenamento
de novos dados na
escala de PB-EB.
Faça novos tipos de
analytics de forma
rentável.
• Machine learning
• Big data
• Análise Real-time
• Busca Full-text
Novos tipos de
capacidade analítica
4. Visão Tradicional da Arquitetura de Dados
(Analytics)
OLTP ERP CRM LOB
Data warehouse
Business intelligence • Dado Relacional
• Escala de TBs–PBs
• Esquema definido antes do acúmulo de
dados
• Relatórios Operacionais e ad-hoc
• CAPEX inicial
5. Data Lakes estendem a abordagem tradicional
Data warehouse
Business intelligence
OLTP ERP CRM LOB
• Dado Relacional e Não Relacional
• Escala de TBs–EBs
• Motores Analíticos Diversos
• Armazenamento de baixo custo &
Analytics
Dispositivos Web Sensores Social
Data lake
Processamento Big data,
real-time, machine learning
6. Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade
na escala de EB
• Melhor capacidade de segurança,
conformidade regulatória e auditoria
• Controle granular de acesso ao nível de
objeto
• Performance mais rápida recuperando
subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS
7. Serviços de ML gerenciados
Deep Learning AMIs
Reconhecimento de Vídeo e Imagem
Interfaces Conversacionais
Deep-Learning Vídeo Camera
Processamento de Linguagem Natural
Tradução de línguas
Reconhecimento de voz
Text-to-Speech
Análise Interativa
Hadoop & Spark
Data Warehousing
Busca Full-text
Análise Real-time
Dashboards & Visualizações
Conexão de Rede Dedicada
Ferramentas de Segurança
Container de Embarque Reforçado
Migração de banco de dados
Dispositivos Conectados na AWS
Stream de dados Real-time
Stream de video Real-time
Data Lake
na AWS
Armazenamento | Catálogo de dados
AnalyticsMachine learning
Dados Real-timeDados On-premises
Portfolio de Data Lakes Integrado
8. Portfolio de Data Lakes Integrado
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
on AWS
AnalyticsMachine learning
Dado Real-timeDado On-premises
Amazon S3 | AWS Glue
9. Data Lake no Amazon S3 com AWS Glue
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
Seus Dados
AMAZON
QUICKSIGHT
10. Autoria de JobCatálogo de Dados Execução de Job
Compatível Apache Hive Metastore
Integrado com serviços AWS
Crawling automático
Descobrir
Gerar ETL automaticamente
Python and Apache Spark
Edite, debug, e compartilhe
Desenvolver
Execução Serverless
Agendamento flexível
Monitoramento e alarmes
Implantar
AWS Glue
11. Outras maneiras de popular um catálogo
Invocar o AWS Glue CreateTable API
Criar tabela manualmente Executar Hive DDL statement
Apache Hive
Metastore
AWS GLUE ETL AWS GLUE
DATA CATALOG
Importar do Apache Hive Metastore
12. Como eu atribuo valor?
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
on AWS
Amazon S3 | AWS Glue
AnalyticsMachine learning
Dado Real-timeDado On-premises
13. Amazon Athena
Serviço de consulta interativa que facilita a
análise de dados diretamente do Amazon S3
utilizando SQL padrão
14. Familiaridade com tecnologias utilizadas
Utilizada para consultas SQL
In-memory distributed query engine
ANSI-SQL compatível com extensões
Utilizado para funcionalidade de DDL
Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados
15. Hadoop/Spark Analytics
• Processamento Distribuído
• Aplicabilidade Variada
• Batch/Script (Hive/Pig)
• Interactive (Spark, Presto)
• Real-time (Spark)
• Machine Learning (Spark)
• NoSQL (HBase)
• Para muitos casos de uso
• Análise de log e clickstream
• Machine learning
• Análise Real-time
• Análise em larga escala
• Genômica
• ETL
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
16. Hadoop/Spark Analytics na AWS
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Amazon S3
Amazon EMR
Hadoop/Spark Gerenciado
Armazenamento de
Objetos
18. Finra – Detecção de Fraude com AWS
FINRA usa Amazon EMR e Amazon S3 para processor até 75 bilhões
de eventos de trading por dia e armazenar de forma segura 5 PB de
dados, atingindo $10-20mm de economia por ano.
19. Amazon S3 – Fonte da verdade
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
Transient ETL Job
Visão da Verdade
HDFS
HDFS
Local Intermediário
HDFS/Storage
Local Intermediário
HDFS/Storage
HDFS
HDFS
20. Gerenciamento de Metadados externos
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
Transient ETL Job
Visão da Verdade
HDFS
Descreve os dados no S3
MySQL DB
instance
Clientespossuemopções
Glue Data
Catalog
21. Machine Learning no Seu Data Lake
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
na AWS
Amazon S3 | AWS Glue
AnalyticsMachine learning
Dado Real-timeDado On-premises