© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Hugo Rozestraten
Solutions Architect
BDA305
Construindo Data Lakes e Analytics na
AWS
Organizações que conseguem gerar valor de
negócio a partir de seus dados irão superar seus
concorrentes. Uma pesquisa da Aberdeen
demonstrou que organizações que
implementaram um data lake superaram
organizações similares 9% no crescimento
orgânico de receita.*
24%
15%
Líderes Seguidores
Crescimento Orgânico
de Receita
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Qual o valor do dado?
Dado está mudando  Capacidade Analítica
adaptando-se
Captura e
armazenamento
de novos dados na
escala de PB-EB.
Faça novos tipos de
analytics de forma
rentável.
• Machine learning
• Big data
• Análise Real-time
• Busca Full-text
Novos tipos de
capacidade analítica
Visão Tradicional da Arquitetura de Dados
(Analytics)
OLTP ERP CRM LOB
Data warehouse
Business intelligence • Dado Relacional
• Escala de TBs–PBs
• Esquema definido antes do acúmulo de
dados
• Relatórios Operacionais e ad-hoc
• CAPEX inicial
Data Lakes estendem a abordagem tradicional
Data warehouse
Business intelligence
OLTP ERP CRM LOB
• Dado Relacional e Não Relacional
• Escala de TBs–EBs
• Motores Analíticos Diversos
• Armazenamento de baixo custo &
Analytics
Dispositivos Web Sensores Social
Data lake
Processamento Big data,
real-time, machine learning
Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade
na escala de EB
• Melhor capacidade de segurança,
conformidade regulatória e auditoria
• Controle granular de acesso ao nível de
objeto
• Performance mais rápida recuperando
subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS
Serviços de ML gerenciados
Deep Learning AMIs
Reconhecimento de Vídeo e Imagem
Interfaces Conversacionais
Deep-Learning Vídeo Camera
Processamento de Linguagem Natural
Tradução de línguas
Reconhecimento de voz
Text-to-Speech
Análise Interativa
Hadoop & Spark
Data Warehousing
Busca Full-text
Análise Real-time
Dashboards & Visualizações
Conexão de Rede Dedicada
Ferramentas de Segurança
Container de Embarque Reforçado
Migração de banco de dados
Dispositivos Conectados na AWS
Stream de dados Real-time
Stream de video Real-time
Data Lake
na AWS
Armazenamento | Catálogo de dados
AnalyticsMachine learning
Dados Real-timeDados On-premises
Portfolio de Data Lakes Integrado
Portfolio de Data Lakes Integrado
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
on AWS
AnalyticsMachine learning
Dado Real-timeDado On-premises
Amazon S3 | AWS Glue
Data Lake no Amazon S3 com AWS Glue
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
Seus Dados
AMAZON
QUICKSIGHT
Autoria de JobCatálogo de Dados Execução de Job
Compatível Apache Hive Metastore
Integrado com serviços AWS
Crawling automático
Descobrir
Gerar ETL automaticamente
Python and Apache Spark
Edite, debug, e compartilhe
Desenvolver
Execução Serverless
Agendamento flexível
Monitoramento e alarmes
Implantar
AWS Glue
Outras maneiras de popular um catálogo
Invocar o AWS Glue CreateTable API
Criar tabela manualmente Executar Hive DDL statement
Apache Hive
Metastore
AWS GLUE ETL AWS GLUE
DATA CATALOG
Importar do Apache Hive Metastore
Como eu atribuo valor?
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
on AWS
Amazon S3 | AWS Glue
AnalyticsMachine learning
Dado Real-timeDado On-premises
Amazon Athena
Serviço de consulta interativa que facilita a
análise de dados diretamente do Amazon S3
utilizando SQL padrão
Familiaridade com tecnologias utilizadas
Utilizada para consultas SQL
In-memory distributed query engine
ANSI-SQL compatível com extensões
Utilizado para funcionalidade de DDL
Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados
Hadoop/Spark Analytics
• Processamento Distribuído
• Aplicabilidade Variada
• Batch/Script (Hive/Pig)
• Interactive (Spark, Presto)
• Real-time (Spark)
• Machine Learning (Spark)
• NoSQL (HBase)
• Para muitos casos de uso
• Análise de log e clickstream
• Machine learning
• Análise Real-time
• Análise em larga escala
• Genômica
• ETL
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Hadoop/Spark Analytics na AWS
YARN (Hadoop Resource Manager)
NoSQLMachine
learning
Real-timeInteractiveScriptBatch
Data Lake
na AWS
Amazon S3
Amazon EMR
Hadoop/Spark Gerenciado
Armazenamento de
Objetos
EMR – Enterprise - Hadoop & Spark
Versões mais recentes em ambientes Hadoop e Spark
• Dezenove projetos open-
source: Apache Hadoop,
Spark, HBase, Presto, e
mais
• Atualizado com os
últimos frameworks open
source
Hadoop
Ganglia
HBase
Hive&
Catalog
Hue
Mahout
Oozie
Phoenix
Pig
Presto
Spark
Tez
Zeppelin
Zookeeper
Flink
Livy
MXNet
Sqoop
Emr-4.0.0
Julho2015
2.6.0 1.0.0 0.10.0 0.14.0 1.4.1
Emr-4.7.0
Junho2016
2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8
Emr-5.3.0
Janeiro2017
2.7.3 3.7.2
1.2.3
+
S3
2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0 0.157.1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4
Emr-5.14.0
Junho2018
2.8.3 3.7.2
1.4.2
+
S3
2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0
EMR lançamentos
Finra – Detecção de Fraude com AWS
FINRA usa Amazon EMR e Amazon S3 para processor até 75 bilhões
de eventos de trading por dia e armazenar de forma segura 5 PB de
dados, atingindo $10-20mm de economia por ano.
Amazon S3 – Fonte da verdade
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
HDFS
EC2 Instance Memory
Intermediates
stored on local
disk or HDFS
Local
Transient ETL Job
Visão da Verdade
HDFS
HDFS
Local Intermediário
HDFS/Storage
Local Intermediário
HDFS/Storage
HDFS
HDFS
Gerenciamento de Metadados externos
Amazon S3
Interactive Spark Cluster
Amazon EMR
Amazon EMR
HDFS
Transient ETL Job
Visão da Verdade
HDFS
Descreve os dados no S3
MySQL DB
instance
Clientespossuemopções
Glue Data
Catalog
Machine Learning no Seu Data Lake
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
na AWS
Amazon S3 | AWS Glue
AnalyticsMachine learning
Dado Real-timeDado On-premises
Vision
AWS Machine Learning
Frameworks &
Infra-estrutura
GPU MobileCPU IoT (Greengrass)
Platform
Services
Application
Services
Amazon SageMaker
Rekognition
Image
Rekognition
Video
Speech
Polly Transcribe
Language
Translate ComprehendLex
TensorFlow GluonApache MXNet Cognitive
Toolkit
Caffe2 & Caffe PyTorch Keras
Amazon SageMaker
1 2 3 4
I I I I
Instâncias Notebook Algoritmos Treinamento Hospedagem do
Serviço
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Demo
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Sumário
Agilidade e Inovação como capacidades de
negócio
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake
na AWS
Amazon S3 | AWS Glue
AnalyticsMachine learning
Real-time dataOn-premises movementdata movement
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Obrigado!

Construindo Data Lakes e Analytics na AWS

  • 1.
    © 2018, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Hugo Rozestraten Solutions Architect BDA305 Construindo Data Lakes e Analytics na AWS
  • 2.
    Organizações que conseguemgerar valor de negócio a partir de seus dados irão superar seus concorrentes. Uma pesquisa da Aberdeen demonstrou que organizações que implementaram um data lake superaram organizações similares 9% no crescimento orgânico de receita.* 24% 15% Líderes Seguidores Crescimento Orgânico de Receita *Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence Qual o valor do dado?
  • 3.
    Dado está mudando Capacidade Analítica adaptando-se Captura e armazenamento de novos dados na escala de PB-EB. Faça novos tipos de analytics de forma rentável. • Machine learning • Big data • Análise Real-time • Busca Full-text Novos tipos de capacidade analítica
  • 4.
    Visão Tradicional daArquitetura de Dados (Analytics) OLTP ERP CRM LOB Data warehouse Business intelligence • Dado Relacional • Escala de TBs–PBs • Esquema definido antes do acúmulo de dados • Relatórios Operacionais e ad-hoc • CAPEX inicial
  • 5.
    Data Lakes estendema abordagem tradicional Data warehouse Business intelligence OLTP ERP CRM LOB • Dado Relacional e Não Relacional • Escala de TBs–EBs • Motores Analíticos Diversos • Armazenamento de baixo custo & Analytics Dispositivos Web Sensores Social Data lake Processamento Big data, real-time, machine learning
  • 6.
    Data Lakes naAWS Analytics • Incomparável durabilidade, e disponibilidade na escala de EB • Melhor capacidade de segurança, conformidade regulatória e auditoria • Controle granular de acesso ao nível de objeto • Performance mais rápida recuperando subconjunto de dados • Muitas maneiras de trazer os dados • 2x mais integrações com parceiros • Análise com um amplo conjunto de serviços Machine learning Dados Real-time Dados On-premises Data Lake na AWS
  • 7.
    Serviços de MLgerenciados Deep Learning AMIs Reconhecimento de Vídeo e Imagem Interfaces Conversacionais Deep-Learning Vídeo Camera Processamento de Linguagem Natural Tradução de línguas Reconhecimento de voz Text-to-Speech Análise Interativa Hadoop & Spark Data Warehousing Busca Full-text Análise Real-time Dashboards & Visualizações Conexão de Rede Dedicada Ferramentas de Segurança Container de Embarque Reforçado Migração de banco de dados Dispositivos Conectados na AWS Stream de dados Real-time Stream de video Real-time Data Lake na AWS Armazenamento | Catálogo de dados AnalyticsMachine learning Dados Real-timeDados On-premises Portfolio de Data Lakes Integrado
  • 8.
    Portfolio de DataLakes Integrado Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch Service Amazon Kinesis Amazon QuickSight AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Data Lake on AWS AnalyticsMachine learning Dado Real-timeDado On-premises Amazon S3 | AWS Glue
  • 9.
    Data Lake noAmazon S3 com AWS Glue Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data Seus Dados AMAZON QUICKSIGHT
  • 10.
    Autoria de JobCatálogode Dados Execução de Job Compatível Apache Hive Metastore Integrado com serviços AWS Crawling automático Descobrir Gerar ETL automaticamente Python and Apache Spark Edite, debug, e compartilhe Desenvolver Execução Serverless Agendamento flexível Monitoramento e alarmes Implantar AWS Glue
  • 11.
    Outras maneiras depopular um catálogo Invocar o AWS Glue CreateTable API Criar tabela manualmente Executar Hive DDL statement Apache Hive Metastore AWS GLUE ETL AWS GLUE DATA CATALOG Importar do Apache Hive Metastore
  • 12.
    Como eu atribuovalor? Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch Service Amazon Kinesis Amazon QuickSight AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Data Lake on AWS Amazon S3 | AWS Glue AnalyticsMachine learning Dado Real-timeDado On-premises
  • 13.
    Amazon Athena Serviço deconsulta interativa que facilita a análise de dados diretamente do Amazon S3 utilizando SQL padrão
  • 14.
    Familiaridade com tecnologiasutilizadas Utilizada para consultas SQL In-memory distributed query engine ANSI-SQL compatível com extensões Utilizado para funcionalidade de DDL Tipos de Dados complexos Múltiplos formatos Suporte a particionamento de dados
  • 15.
    Hadoop/Spark Analytics • ProcessamentoDistribuído • Aplicabilidade Variada • Batch/Script (Hive/Pig) • Interactive (Spark, Presto) • Real-time (Spark) • Machine Learning (Spark) • NoSQL (HBase) • Para muitos casos de uso • Análise de log e clickstream • Machine learning • Análise Real-time • Análise em larga escala • Genômica • ETL YARN (Hadoop Resource Manager) NoSQLMachine learning Real-timeInteractiveScriptBatch Data Lake na AWS
  • 16.
    Hadoop/Spark Analytics naAWS YARN (Hadoop Resource Manager) NoSQLMachine learning Real-timeInteractiveScriptBatch Data Lake na AWS Amazon S3 Amazon EMR Hadoop/Spark Gerenciado Armazenamento de Objetos
  • 17.
    EMR – Enterprise- Hadoop & Spark Versões mais recentes em ambientes Hadoop e Spark • Dezenove projetos open- source: Apache Hadoop, Spark, HBase, Presto, e mais • Atualizado com os últimos frameworks open source Hadoop Ganglia HBase Hive& Catalog Hue Mahout Oozie Phoenix Pig Presto Spark Tez Zeppelin Zookeeper Flink Livy MXNet Sqoop Emr-4.0.0 Julho2015 2.6.0 1.0.0 0.10.0 0.14.0 1.4.1 Emr-4.7.0 Junho2016 2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8 Emr-5.3.0 Janeiro2017 2.7.3 3.7.2 1.2.3 + S3 2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0 0.157.1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4 Emr-5.14.0 Junho2018 2.8.3 3.7.2 1.4.2 + S3 2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0 EMR lançamentos
  • 18.
    Finra – Detecçãode Fraude com AWS FINRA usa Amazon EMR e Amazon S3 para processor até 75 bilhões de eventos de trading por dia e armazenar de forma segura 5 PB de dados, atingindo $10-20mm de economia por ano.
  • 19.
    Amazon S3 –Fonte da verdade Amazon S3 Interactive Spark Cluster Amazon EMR Amazon EMR HDFS EC2 Instance Memory Intermediates stored on local disk or HDFS Local HDFS EC2 Instance Memory Intermediates stored on local disk or HDFS Local Transient ETL Job Visão da Verdade HDFS HDFS Local Intermediário HDFS/Storage Local Intermediário HDFS/Storage HDFS HDFS
  • 20.
    Gerenciamento de Metadadosexternos Amazon S3 Interactive Spark Cluster Amazon EMR Amazon EMR HDFS Transient ETL Job Visão da Verdade HDFS Descreve os dados no S3 MySQL DB instance Clientespossuemopções Glue Data Catalog
  • 21.
    Machine Learning noSeu Data Lake Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch Service Amazon Kinesis Amazon QuickSight AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Data Lake na AWS Amazon S3 | AWS Glue AnalyticsMachine learning Dado Real-timeDado On-premises
  • 22.
    Vision AWS Machine Learning Frameworks& Infra-estrutura GPU MobileCPU IoT (Greengrass) Platform Services Application Services Amazon SageMaker Rekognition Image Rekognition Video Speech Polly Transcribe Language Translate ComprehendLex TensorFlow GluonApache MXNet Cognitive Toolkit Caffe2 & Caffe PyTorch Keras
  • 23.
    Amazon SageMaker 1 23 4 I I I I Instâncias Notebook Algoritmos Treinamento Hospedagem do Serviço
  • 24.
    © 2018, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Demo
  • 25.
    © 2018, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Sumário
  • 26.
    Agilidade e Inovaçãocomo capacidades de negócio Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch Service Amazon Kinesis Amazon QuickSight AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Data Lake na AWS Amazon S3 | AWS Glue AnalyticsMachine learning Real-time dataOn-premises movementdata movement
  • 27.
    © 2018, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Obrigado!