Construindo Data Lakes e Analytics na AWS

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Hugo Rozestraten
Solutions Architect
BDA305
Construindo Data Lakes e Analytics na
AWS

Organizações que conseguem gerar valor de
negócio a partir de seus dados irão superar seus
concorrentes. Uma pesquisa da Aberdeen
demonstrou que organizações que
implementaram um data lake superaram
organizações similares 9% no crescimento
orgânico de receita.*
24%
15%
Líderes Seguidores
Crescimento Orgânico
de Receita
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Qual o valor do dado?

Dado está mudando  Capacidade Analítica
adaptando-se
Captura e
armazenamento
de novos dados na
escala de PB-EB.
Faça novos tipos de
analytics de forma
rentável.
• Machine learning
• Big data
• Análise Real-time
• Busca Full-text
Novos tipos de
capacidade analítica

Visão Tradicional da Arquitetura de Dados
(Analytics)
OLTP ERP CRM LOB
Data warehouse
Business intelligence • Dado Relacional
• Escala de TBs–PBs
• Esquema definido antes do acúmulo de
dados
• Relatórios Operacionais e ad-hoc
• CAPEX inicial

Data Lakes estendem a abordagem tradicional
Data warehouse
Business intelligence
OLTP ERP CRM LOB
• Dado Relacional e Não Relacional
• Escala de TBs–EBs
• Motores Analíticos Diversos
• Armazenamento de baixo custo &
Analytics
Dispositivos Web Sensores Social
Data lake
Processamento Big data,
real-time, machine learning

Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade
na escala de EB
• Melhor capacidade de segurança,
conformidade regulatória e auditoria
• Controle granular de acesso ao nível de
objeto
• Performance mais rápida recuperando
subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS

Serviços de ML gerenciados
Deep Learning AMIs
Reconhecimento de Vídeo e Imagem
Interfaces Conversacionais
Deep-Learning Vídeo Camera
Processamento de Linguagem Natural
Tradução de línguas
Reconhecimento de voz
Text-to-Speech
Análise Interativa
Hadoop & Spark
Data Warehousing
Busca Full-text
Análise Real-time
Dashboards & Visualizações
Conexão de Rede Dedicada
Ferramentas de Segurança
Container de Embarque Reforçado
Migração de banco de dados
Dispositivos Conectados na AWS
Stream de dados Real-time
Stream de video Real-time
Data Lake
na AWS
Armazenamento | Catálogo de dados
AnalyticsMachine learning
Dados Real-timeDados On-premises
Portfolio de Data Lakes Integrado

Portfolio de Data Lakes Integrado
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
on AWS
Dado Real-timeDado On-premises
Amazon S3 | AWS Glue

Data Lake no Amazon S3 com AWS Glue
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
Seus Dados
AMAZON
QUICKSIGHT

Autoria de JobCatálogo de Dados Execução de Job
Compatível Apache Hive Metastore
Integrado com serviços AWS
Crawling automático
Descobrir
Gerar ETL automaticamente
Python and Apache Spark
Edite, debug, e compartilhe
Desenvolver
Execução Serverless
Agendamento flexível
Monitoramento e alarmes
Implantar
AWS Glue

Outras maneiras de popular um catálogo
Invocar o AWS Glue CreateTable API
Criar tabela manualmente Executar Hive DDL statement
Apache Hive
Metastore
AWS GLUE ETL AWS GLUE
DATA CATALOG
Importar do Apache Hive Metastore

Como eu atribuo valor?
Amazon SageMaker
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS IoT Core
Data Lake
on AWS

Amazon Athena
Serviço de consulta interativa que facilita a
análise de dados diretamente do Amazon S3
utilizando SQL padrão

Familiaridade com tecnologias utilizadas
Utilizada para consultas SQL
In-memory distributed query engine
ANSI-SQL compatível com extensões
Utilizado para funcionalidade de DDL
Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados

Hadoop/Spark Analytics
• Processamento Distribuído
• Aplicabilidade Variada
• Batch/Script (Hive/Pig)
• Interactive (Spark, Presto)
• Real-time (Spark)
• Machine Learning (Spark)
• NoSQL (HBase)
• Para muitos casos de uso
• Análise de log e clickstream
• Machine learning
• Análise Real-time
• Análise em larga escala
• Genômica
• ETL
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS

Hadoop/Spark Analytics na AWS
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Amazon S3
Amazon EMR
Hadoop/Spark Gerenciado
Armazenamento de
Objetos

EMR – Enterprise - Hadoop & Spark
Versões mais recentes em ambientes Hadoop e Spark
• Dezenove projetos open-
source: Apache Hadoop,
Spark, HBase, Presto, e
mais
• Atualizado com os
últimos frameworks open
source
Hadoop
Ganglia
HBase
Hive&
Catalog
Hue
Mahout
Oozie
Phoenix
Pig
Presto
Spark
Tez
Zeppelin
Zookeeper
Flink
Livy
MXNet
Sqoop
Emr-4.0.0
Julho2015
2.6.0 1.0.0 0.10.0 0.14.0 1.4.1
Emr-4.7.0
Junho2016
2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8
Emr-5.3.0
Janeiro2017
2.7.3 3.7.2
1.2.3
+
S3
2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0 0.157.1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4
Emr-5.14.0
Junho2018
2.8.3 3.7.2
1.4.2
+
S3
2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0
EMR lançamentos

Finra – Detecção de Fraude com AWS
FINRA usa Amazon EMR e Amazon S3 para processor até 75 bilhões
de eventos de trading por dia e armazenar de forma segura 5 PB de
dados, atingindo $10-20mm de economia por ano.

Amazon S3 – Fonte da verdade
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
Transient ETL Job
Visão da Verdade
HDFS
HDFS
Local Intermediário
HDFS/Storage
Local Intermediário
HDFS/Storage
HDFS
HDFS

Gerenciamento de Metadados externos
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
Transient ETL Job
Visão da Verdade
HDFS
Descreve os dados no S3
MySQL DB
instance
Clientespossuemopções
Glue Data
Catalog

Machine Learning no Seu Data Lake
Amazon SageMaker
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS IoT Core
Data Lake
na AWS

Vision
AWS Machine Learning
Frameworks &
Infra-estrutura
GPU MobileCPU IoT (Greengrass)
Platform
Services
Application
Services
Amazon SageMaker
Rekognition
Image
Rekognition
Video
Speech
Polly Transcribe
Language
Translate ComprehendLex
TensorFlow GluonApache MXNet Cognitive
Toolkit
Caffe2 & Caffe PyTorch Keras

Amazon SageMaker
1 2 3 4
I I I I
Instâncias Notebook Algoritmos Treinamento Hospedagem do
Serviço

Demo

Sumário

Agilidade e Inovação como capacidades de
negócio
Amazon SageMaker
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS IoT Core
Data Lake
na AWS
Real-time dataOn-premises movementdata movement

Obrigado!

Construindo Data Lakes e Analytics na AWS

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Construindo Data Lakes e Analytics na AWS

Semelhante a Construindo Data Lakes e Analytics na AWS (20)

Mais de Amazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

Construindo Data Lakes e Analytics na AWS