SlideShare uma empresa Scribd logo
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Hugo Rozestraten | Arquiteto de Soluções
2016
Padrões de Arquitetura e Melhores Práticas de Big Data na AWS
Tendências de Big Data
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que esperar dessa sessão?
• Desafios de Big Data
• Como simplificar o processamento dos dados?
• Que tecnologias devo utilizar?
• Porque?
• Como?
• Arquitetura de Referência
• Padrões de Desenho
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Big Data crescendo, sempre
Volume
Velocidade
Variedade
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Evolução de Big Data
Batch
•Relatórios
Tempo Real
•Alertas
Predição
• Forecast
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Várias ferramentas
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra
Kinesis-
enabled
app
Lambda ML
ElastiCache
DynamoDB
Streams
SQS
Elastic SearchKinesis Firehose
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Diferencie-se
• Empresas muito parecidas
• Pense com números
• “Erre certo”
http://amzn.to/1Wb1Lrw
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
http://imdb.to/1kRJDgn
Diferencie-se
• Empresas muito parecidas
• Pense com números
• “Erre certo”
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Existe uma arquitetura de referência?
Que ferramentas deveria utilizar?
Como?
Por quê?
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios Arquiteturais
• “Data Bus” Desacoplado
• Dados → Armazenamento→ Processamento→ Respostas
• Ferramenta certa para o trabalho certo
• Estrutura de dados, latência, taxa de transferência, padrões de
acesso
• Usar idéias com Arquitetura Lambda
• Log imutável (append-only), batch/speed/serving layer
• Aproveitar serviços gerenciados da AWS
• Baixa ou nenhuma administração
• Big data ≠ $$$$$$
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Simplificando o processamento de Big
Data
Ingerir /
Coletar
Armazenar Processar /
Analizar
Consumir /
Visualizar
dados respostas
Tempo para as respostas (Latência)
Taxa de transferência
Custo
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Ingerir /
Coletar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Tipos de Dados
• Transacional
• Leituras e escritas em BD
(OLTP)
• Cache
• Search
• Logs
• Streams
• Arquivos
• Arquivos de log (/var/log)
• Coletores de logs e
frameworks
• Stream
• Logs
• Sensores & dados de IoT
BD
Armazenamento
de Arquivos
Armazenamento
de Streams
A
iOS Android
Web Apps
Logstash
LoggingIoTAplicações
Dados Transacionais
Arquivos
Streams
Mobile
Apps
Dados
Indexados
Search
Collect Store
LoggingIoT
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento
de Streams
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNãoSQL
Cache
ArmazenamentodeStreamsFileStorage
Dados Transacionais
Arquivos
Streams
Mobile
Apps
Dados
Indexados
BD
Arquivos
Search
Coletar Armazenar
LoggingIoTAplicações

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Opções de Armazenamento de Streams
• Serviços Gerenciados AWS
• Amazon Kinesis → streams
• DynamoDB Streams → tabela + streams
• Amazon SQS → fila
• Amazon SNS → pub/sub
• Não Gerenciados
• Apache Kafka → stream
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Porque armazenamento de Streams?
• Desacoplar consumidores & produtores
• Buffer persistente
• Coletar múltiplas streams
• Preservar ordenação
• Streaming MapReduce
• Consumo paralelo
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
Produtor 1
Shard 1 / Partition 1
Shard 2 / Partition 2
Consumidor 1
Count of
Red = 4
Count of
Violet = 4
Consumidor 2
Count of
Blue = 4
Count of
Green = 4
Produtor 2
Produtor 3
Produtor N
Key = Violet
Kafka TopicDynamoDB Stream Kinesis Stream
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
E filas e Pub/Sub?
• Desacoplar produtores &
consumidores/assinantes
• Buffer persistente
• Coletar múltiplas streams
• Sem ordenação
• Sem consumo paralelo
Não Amazon SQS
• Amazon SNS pode
rotear para mais filas
SQS ou funções ʎ
• Sem streaming
MapReduce
Consumidores
Produtores
Produtores
Amazon SNS
Amazon SQS
fila
Tópico
Função
ʎ
AWS Lambda
Amazon SQS
fila
Assinante
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual armazenamento de storage devo usar?
Amazon
Kinesis
DynamoDB
Streams
Amazon SQS
Amazon SNS
Kafka
Gerenciado Sim Sim Sim Não
Ordenação Sim Sim Não Sim
Entrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez
Retenção 7 dias 24 horas 14 dias Configurável
Replicação 3 AZ 3 AZ 3 AZ Configurável
Taxa Transferência Sem Limite Sem Limite Sem Limite # Nodes
Clientes Paralelos Sim Sim Não (SQS) Sim
MapReduce Sim Sim Não Sim
Tamanho Registro 1MB 400KB 256KB Configurável
Custo Baixo Alto (custo
tabela)
Baixo-Médio Baixo (+admin)
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento
de Arquivos
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheArmazenamentodeStreamsArmazenamentodeArquivos
Transacional
Arquivos
Streams
Mobile
Apps
Indexado
BD
Search
Coletar Armazenar
LoggingIoTAplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Por que o S3 é bom para Big Data?
• Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.)
• Sem necessidade de rodar clusters para storage (diferente do HDFS)
• Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot
• Múltiplos clusters distintos podem usar os mesmos dados
• Número ilimitado de objetos
• Alta taxa de transferência – sem limite agregado de taxa de transferência
• Alta disponibilidade – tolera falha nas AZs
• Desenhado para durabilidade de 99.999999999%
• Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida
• Seguro – criptografia em trânsito com SSL, em descanso com client/server-side
• Baixo custo
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que dizer sobre HDFS e Amazon
Glacier?
• Usar HDFS para dados
frequentemente acessados
(quente)
• Usar Amazon S3 Standard
para dados
frequentemente acessados
• Usar Amazon S3 Standard
– IA para dados que não
são frequentemente
acessados
• Usar Amazon Glacier para
arquivar dados frios
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
BD +
Search
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheArmazenamentodeStreamsArquivos
Transacionais
Arquivos
Streams
Mobile
Apps
Indexados
Coletar Armazenar
LoggingIoTAplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Quanto só se tem um martelo, tudo
parece como um prego
A Lei de Maslow ou
Martelo de Maslow,
popularmente
mencionado com a frase
“se tudo o que você tem é
um martelo, tudo parece
como um prego” é do livro
“A Psicologia da Ciência”,
de Abraham Maslow.
Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument
http://amzn.to/1MVHgO5
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Fonte: https://creativemarket.com/DearthCo/26223-When-you-are-a-hammer...
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
BD + Search – Anti-Pattern
RDBMS
BD + Search
Aplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Search + BD – Anti-Pattern
Elastic Search
Search + BD
Aplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Melhor prática – Ferramenta certa para o
trabalho certo
Data Tier
Search
Amazon
Elasticsearch
Service
Amazon
CloudSearch
Cache
Redis
Memcached
SQL
Amazon Aurora
MySQL
PostgreSQL
Oracle
SQL Server
NoSQL
Cassandra
Amazon
DynamoDB
HBase
MongoDB
Applications
BD + Search
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Renove a caixa de ferramentas
• Persistência poliglota
http://amzn.to/1qUc0oq
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Views Materializadas
Amazon
ElasticSearch
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tipo de armazenamento devo usar?
• Estrutura de Dados → Schema fixo, JSON, key-value
• Padrões de Acesso → Armazene os dados no formato que
você irá acessar
• Características de acesso a dados → Quente, morno, frio
• Custo → Melhor custo benefício
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Estruturas de Dados e Padrões de
Acesso
Padrões de Acesso O que usar?
Put/Get (Key, Value) Cache, NoSQL
Relacionamentos Simples → 1:N, M:N NoSQL
Cross table joins, transação, SQL SQL
Faceting, Search Search
Estrutura de dados O que usar?
Schema fixo SQL, NoSQL
Sem Schema (JSON) NoSQL, Search
(Key, Value) Cache, NoSQL
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual a temperatura do seu padrão de
acesso aos dados?
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Quente Morno Frio
Volume MB–GB GB–TB PB
Tamanho do Item B–KB KB–MB KB–TB
Latência ms ms, sec min, hrs
Durabilidade Baixo–Alto Alto Muito Alto
Taxa de acesso Muito Alto Alto Baixo
Custo/GB $$-$ $-¢¢ ¢
Dados Quentes Dados Mornos Dados Frios
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cache
SQL
Taxa de Acesso
Alto Baixo
Custo/GB
Alto Baixo
Latência
Baixo Alto
GlacierEstrutura
NoSQL
Quente Morno Frio
Baixo
Alto
Search
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tipo de armazenamento devo usar?
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
Aurora
Amazon
Elasticsearch
Amazon
EMR (HDFS)
Amazon S3 Amazon
Glacier
Latência
Média
ms ms ms, sec ms,sec sec,min,hrs ms,sec,min
(~ tamanho)
hrs
Volume de
Dados
GB GB–TBs
(sem limite)
GB–TB
(64 TB
Max)
GB–TB GB–PB
(~nodes)
MB–PB
(sem limite)
GB–PB
(sem limite)
Tamanho Item B-KB KB
(400 KB
max)
KB
(64 KB)
KB
(1 MB max)
MB-GB KB-GB
(5 TB max)
GB
(40 TB max)
Taxa de Acesso Alta -
Muito Alta
Muito Alta
(sem limite)
Alta Alta Baixa –
Muito Alta
Baixa –
Muito Alta
(sem limite)
Muito Baixa
Custo
armazenamento
GB/mês
$$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10
Durabilidade Baixo -
Moderada
Muito Alta Muito
Alta
Alta Alta Muito Alta Muito Alta
Quente Morno Frio
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desenho orientado a custo
• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?
“Estou desenhando um projeto que irá aumentar
consideravelmente o uso do Amazon S3 pelo meu time. Espero
que você me ajude com algumas questões. A etapa atual do
projeto requer trabalhar com muitos arquivos pequenos, talvez
chegue a um bilhão durante o pico. O tamanho total deve ser
na orderm de 1.5 TB por mês…”
Taxa de acesso
(Escritas/seg)
Tamanho Objeto
(Bytes)
Tamanho Total
(GB/month)
Objetos por mês
300 2048 1483 777,600,000
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desenho orientado a custo
• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?
https://calculator.s3.amazonaws.com/index.html
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3 ou DynamoDB?
Taxa de acesso
(Escritas/seg)
Tamanho
Objeto
(Bytes)
Tamanho
Total
(GB/month)
Objetos por
mês
300 2048 1483 777,600,000
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Taxa de acesso
(Escritas/seg)
Tamanho Objeto
(Bytes)
Tamanho Total
(GB/month)
Objetos por mês
Cenario 1 300 2,048 1,483 3,888,00
Cenario 2 300 32,768 23,730 3,888,00
Amazon S3
Amazon DynamoDB
usar
usar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Processar /
Analizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AnalizarA
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
ProcessamentoStreamingBatchInterativo
Logging
StreamStorage
IoTAplicações
FileStorage
Quente
Frio
Morno
Quente
Quente
ML
Transacionais
Arquivo
Stream
Mobile
Apps
Indexados
Coletar Armazenar Analizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Processar / Analizar
• Análise de dados é um processo de inspeção, limpeza,
transformação, e modelagem de dados com o objetivo de
descobrir informações úteis, chegar a conclusões e suportar a
tomada de decisão.
• Exemplos
• Dashboards Interativos → Análise Interativa
• Relatórios diários/semanais/mensais → Análise em Batch
• Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real
• Análise de sentimento, modelos de predição → Machine learning
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Análise Interativa
• Grande quantidade de dados (mornos/frios)
• Latência de segundos para retornar respostas
• Exemplo: Dashboards self-service
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Análise em Batch
• Utiliza uma grande quantidade de dados (quente ou morno)
• Leva minutos ou horas para retornar respostas
• Exemplos: Gerar relatórios diários, semanais ou mensais
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Análise em Tempo Real
• Utiliza uma pequena quantidade de dados e faz perguntas
• Leva um pequeno período de tempo (milisegundos ou segundos)
para retornar as respostas
• Tempo Real (evento)
• Responder em tempo real a eventos que chegam em streams de dados
• Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação
• Quase Tempo Real (micro batch)
• Operações quase em tempo real em pequenos quantidades de eventos em
streams de dados
• Exemplo: Métricas de 1 minuto
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Predição via Machine Learning
• ML dá a computadores a habilidade de aprender sem serem
explicitamente programados
• Algoritmos de Machine Learning
• Aprendizado Supervisionado ← programa que “ensina”
• Classificação ← Esta transação é uma fraude? (sim ou não)
• Regressão ← Qual o valor total desse cliente?
• Aprendizado Não Supervisionado ← deixe ele aprender sozinho
• Clustering ← Segmentação de Marketing
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Frameworks e ferramentas de análise
• Machine Learning
• Mahout, Spark ML, Amazon ML
• Análise Interativa
• Amazon Redshift, Presto, Impala, Spark
• Processamento em Batch
• MapReduce, Hive, Pig, Spark
• Processamento de Streams
• Micro batch: Spark Streaming, KCL, Hive, Pig
• Tempo real: Storm, AWS Lambda, KCL
Amazon
Redshift
Impala
Pig
Amazon Machine
Learning
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonEMR
StreamsBatchInterativoML
Analyze
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tecnologia de stream eu devo usar?
Spark Streaming Apache Storm Amazon Kinesis Client
Library
AWS Lambda Amazon EMR (Hive, Pig)
Escala / Taxa de
Transferência
~ Nós ~ Nós ~ Nós Automático ~ Nós
Batch ou Tempo
Real
Tempo Real Tempo Real Tempo Real Tempo Real Batch
Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto
Scaling
Gerenciado pela AWS Sim (Amazon EMR)
Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ
Linguagens de
Programação
Java, Python, Scala Qualquer
linguagem via Thrift
Java, via
MultiLangDaemon (
.Net, Python, Ruby,
Node.js)
Node.js, Java, Python Hive, Pig, Linguagens de
Streaming
Alta
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual tecnologia de processamento de
dados eu devo utilizar?
Amazon
Redshift
Impala Presto Spark Hive
Latência
Consulta
Baixa Baixa Baixa Baixa Média (Tez) – Alta
(MapReduce)
Durabilidade Alta Alta Alta Alta Alta
Volume de
Dados
1.6 PB
Max
~Nós ~Nós ~Nós ~Nós
Gerenciado Sim Sim
(Amazon EMR)
Sim
(Amazon EMR)
Sim
(Amazon EMR)
Sim
(Amazon EMR)
Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3
Compatibilidade
com SQL
Alto Médio Alto Baixo (SparkSQL) Médio (HQL)
Alta
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
E sobre ETL?
Store Analyze
https://aws.amazon.com/big-data/partner-solutions/
ETL
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Consumir /
Visualizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Coletar Armazenar Analizar Consumir
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
ArmazenamentoStreams
IoTAplicações
AmazenamentoArquivos
Analysis&Visualization
Quente
Frio
Morno
Quente
Lento
Quente
ML
Rápido
Rápido
Transacional
Arqquivos
Streams
Notebooks
Predictions
Apps & APIs
Mobile
Apps
IDE
Search
ETL
Amazon
QuickSight
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Consumir
• Predições
• Análise e Visualização
• Notebooks
•
• IDE
• Aplicações & API
Consume
AnáliseeVisualização
Amazon
QuickSight
Notebooks
Predições
Apps & APIs
IDE
Armazenar Analizar ConsumirETL
Business
Users
Cientistas de
Dados,
Desenvolvedores
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Colocando tudo junto
Coletar Armazenar Analizar Consumir
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
StreamStorage
IoTApplications
FileStorage
Analysis&Visualization
Quente
Frio
Morno
Quente
Lento
Quente
ML
Rápido
Rápido
Amazon
QuickSight
Transacional
Arquivos
Streams
Notebooks
Predictions
Apps & APIs
Mobile
Apps
IDE
Search
ETL
Arquitetura de Referência
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Padrões de arquitetura
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data
Sources
Amazon
S3
Amazon
EMR
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Multi-Stage Decoupled “Data Bus”
• Múltiplos estágios
• Armazenamento desacoplado do processamento
Armazenar Processar Armazenar Processar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cenário 2: Capturando e analisando dados de sensores
Data
Sources
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
Amazon
Kinesis
Enabled
App
Amazon
Kinesis
Enabled
App
Amazon
DynamoDB
Reposting
Dashboard
Customer
Access
Amazon
Kinesis
1
2 3 4 5
6 7 8 9
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cenário 3: Analise de sentimento e redes sociais
Social Media
Data
Amazon
EC2
Amazon
Lambda
Amazon
ML
Amazon
Kinesis
Amazon
S3
Amazon
SNS
1 2 4 5 6
3 7
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sumário
• “Data Bus” Desacoplado
• Dados → Armazenamento→ Processamento→ Respostas
• Ferramenta certa para o trabalho certo
• Estrutura de dados, latência, taxa de transferência, padrões de
acesso
• Usar idéias com Arquitetura Lambda
• Log imutável (append-only), batch/speed/serving layer
• Aproveitar serviços gerenciados da AWS
• Baixa ou nenhuma administração
• Big data ≠ $$$$$$
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado!
Hugo Rozestraten | Arquiteto de Soluções

Mais conteúdo relacionado

Mais procurados

Raising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftRaising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads Microsoft
Amazon Web Services LATAM
 
Fazendo seu DR na AWS de maneira prática
Fazendo seu DR na AWS de maneira práticaFazendo seu DR na AWS de maneira prática
Fazendo seu DR na AWS de maneira prática
Amazon Web Services LATAM
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Amazon Web Services LATAM
 
Escalando sua aplicação Web com Beanstalk
Escalando sua aplicação Web com BeanstalkEscalando sua aplicação Web com Beanstalk
Escalando sua aplicação Web com Beanstalk
Amazon Web Services LATAM
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
Amazon Web Services LATAM
 
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Amazon Web Services LATAM
 
Fazendo seu DR na AWS
Fazendo seu DR na AWSFazendo seu DR na AWS
Fazendo seu DR na AWS
Amazon Web Services LATAM
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
Amazon Web Services LATAM
 
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Amazon Web Services LATAM
 
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbridaBuilding blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
Amazon Web Services LATAM
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS Lambda
Amazon Web Services LATAM
 
Melhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSMelhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWS
Amazon Web Services LATAM
 
Iniciando com Amazon Cloudfront
Iniciando com Amazon CloudfrontIniciando com Amazon Cloudfront
Iniciando com Amazon Cloudfront
Amazon Web Services LATAM
 
Seu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big DataSeu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big Data
Amazon Web Services LATAM
 
Iniciando com Amazon Aurora
Iniciando com Amazon AuroraIniciando com Amazon Aurora
Iniciando com Amazon Aurora
Amazon Web Services LATAM
 
Amazon EC2 avançado
Amazon EC2 avançadoAmazon EC2 avançado
Amazon EC2 avançado
Amazon Web Services LATAM
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverless
Amazon Web Services LATAM
 
Path to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoTPath to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoT
Amazon Web Services LATAM
 
Introduçao à Internet das Coisas com AWS IoT
Introduçao à Internet das Coisas com AWS IoT Introduçao à Internet das Coisas com AWS IoT
Introduçao à Internet das Coisas com AWS IoT
Amazon Web Services LATAM
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
Amazon Web Services LATAM
 

Mais procurados (20)

Raising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads MicrosoftRaising the bar #5 - Melhores práticas de workloads Microsoft
Raising the bar #5 - Melhores práticas de workloads Microsoft
 
Fazendo seu DR na AWS de maneira prática
Fazendo seu DR na AWS de maneira práticaFazendo seu DR na AWS de maneira prática
Fazendo seu DR na AWS de maneira prática
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
 
Escalando sua aplicação Web com Beanstalk
Escalando sua aplicação Web com BeanstalkEscalando sua aplicação Web com Beanstalk
Escalando sua aplicação Web com Beanstalk
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
 
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
 
Fazendo seu DR na AWS
Fazendo seu DR na AWSFazendo seu DR na AWS
Fazendo seu DR na AWS
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
Raising the bar #4 - Economize utilizando instâncias Spot no Amazon EC2
 
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbridaBuilding blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
Building blocks #3 - Expandindo seu data center com uma infraestrutura híbrida
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS Lambda
 
Melhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSMelhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWS
 
Iniciando com Amazon Cloudfront
Iniciando com Amazon CloudfrontIniciando com Amazon Cloudfront
Iniciando com Amazon Cloudfront
 
Seu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big DataSeu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big Data
 
Iniciando com Amazon Aurora
Iniciando com Amazon AuroraIniciando com Amazon Aurora
Iniciando com Amazon Aurora
 
Amazon EC2 avançado
Amazon EC2 avançadoAmazon EC2 avançado
Amazon EC2 avançado
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverless
 
Path to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoTPath to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoT
 
Introduçao à Internet das Coisas com AWS IoT
Introduçao à Internet das Coisas com AWS IoT Introduçao à Internet das Coisas com AWS IoT
Introduçao à Internet das Coisas com AWS IoT
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 

Destaque

La contaminación de salto de agua
La contaminación de salto de aguaLa contaminación de salto de agua
La contaminación de salto de agua
flohepe
 
RESIDUOS
RESIDUOSRESIDUOS
RESIDUOS
Arnold Sanchez
 
Mtra gladiz
Mtra gladizMtra gladiz
Mtra gladiz
rachelsmith29
 
Protocolo 2 parc
Protocolo 2 parcProtocolo 2 parc
Protocolo 2 parc
ivancast
 
Tildación general
Tildación generalTildación general
Tildación general
rosmerycd1
 
Misiòn y vision presentacio nlisto(1)
Misiòn y vision presentacio nlisto(1)Misiòn y vision presentacio nlisto(1)
Misiòn y vision presentacio nlisto(1)
michaeljaimeuniminuto
 
Principles of Project Management
Principles of Project ManagementPrinciples of Project Management
Principles of Project Management
Caroline Peelo
 
La con quista
La con quistaLa con quista
La con quista
isabelantonio
 
Tres
TresTres
You can't win if you don't play - Gamification - NL
You can't win if you don't play - Gamification - NLYou can't win if you don't play - Gamification - NL
You can't win if you don't play - Gamification - NL
Michiel Van Eunen
 
Enlaces de interes
Enlaces de interesEnlaces de interes
Enlaces de interes
Arnold Sanchez
 
Bullet Points
Bullet PointsBullet Points
Bullet Points
Lexie Loren
 
Albo jesús actividad_1
Albo jesús actividad_1Albo jesús actividad_1
Albo jesús actividad_1
j_albo
 
License Verification
License VerificationLicense Verification
License Verification
Melissa Hernandez
 
Top 10 dog training tips
Top 10 dog training tipsTop 10 dog training tips
Top 10 dog training tips
BROOKY DU
 
Criando e conectando seu datacenter virtual
Criando e conectando seu datacenter virtualCriando e conectando seu datacenter virtual
Criando e conectando seu datacenter virtual
Amazon Web Services LATAM
 

Destaque (16)

La contaminación de salto de agua
La contaminación de salto de aguaLa contaminación de salto de agua
La contaminación de salto de agua
 
RESIDUOS
RESIDUOSRESIDUOS
RESIDUOS
 
Mtra gladiz
Mtra gladizMtra gladiz
Mtra gladiz
 
Protocolo 2 parc
Protocolo 2 parcProtocolo 2 parc
Protocolo 2 parc
 
Tildación general
Tildación generalTildación general
Tildación general
 
Misiòn y vision presentacio nlisto(1)
Misiòn y vision presentacio nlisto(1)Misiòn y vision presentacio nlisto(1)
Misiòn y vision presentacio nlisto(1)
 
Principles of Project Management
Principles of Project ManagementPrinciples of Project Management
Principles of Project Management
 
La con quista
La con quistaLa con quista
La con quista
 
Tres
TresTres
Tres
 
You can't win if you don't play - Gamification - NL
You can't win if you don't play - Gamification - NLYou can't win if you don't play - Gamification - NL
You can't win if you don't play - Gamification - NL
 
Enlaces de interes
Enlaces de interesEnlaces de interes
Enlaces de interes
 
Bullet Points
Bullet PointsBullet Points
Bullet Points
 
Albo jesús actividad_1
Albo jesús actividad_1Albo jesús actividad_1
Albo jesús actividad_1
 
License Verification
License VerificationLicense Verification
License Verification
 
Top 10 dog training tips
Top 10 dog training tipsTop 10 dog training tips
Top 10 dog training tips
 
Criando e conectando seu datacenter virtual
Criando e conectando seu datacenter virtualCriando e conectando seu datacenter virtual
Criando e conectando seu datacenter virtual
 

Semelhante a Tendências de Big Data

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Amazon Web Services
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
Amazon Web Services LATAM
 
Encontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de TrabalhoEncontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de Trabalho
Amazon Web Services LATAM
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
Amazon Web Services LATAM
 
AWS Database Day - Português
AWS Database Day - PortuguêsAWS Database Day - Português
AWS Database Day - Português
Amazon Web Services LATAM
 
Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2
Amazon Web Services LATAM
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
Amazon Web Services LATAM
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
Amazon Web Services LATAM
 
Escalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuariosEscalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuarios
Amazon Web Services LATAM
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Amazon Web Services
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Amazon Web Services
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Amazon Web Services
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Amazon Web Services LATAM
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
Amazon Web Services LATAM
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
Amazon Web Services LATAM
 
Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]
Amazon Web Services
 
AWS Meetup Rio - Qual banco usar e quando?
AWS Meetup Rio - Qual banco usar e quando?AWS Meetup Rio - Qual banco usar e quando?
AWS Meetup Rio - Qual banco usar e quando?
Pedro Pisa
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Amazon Web Services LATAM
 
Introducao a aws storage backup e archiving
Introducao a aws storage backup e archivingIntroducao a aws storage backup e archiving
Introducao a aws storage backup e archiving
Amazon Web Services LATAM
 
Otimizacao de custo summit 2015
Otimizacao de custo summit 2015Otimizacao de custo summit 2015
Otimizacao de custo summit 2015
Amazon Web Services LATAM
 

Semelhante a Tendências de Big Data (20)

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Encontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de TrabalhoEncontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de Trabalho
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
AWS Database Day - Português
AWS Database Day - PortuguêsAWS Database Day - Português
AWS Database Day - Português
 
Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
Escalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuariosEscalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuarios
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]
 
AWS Meetup Rio - Qual banco usar e quando?
AWS Meetup Rio - Qual banco usar e quando?AWS Meetup Rio - Qual banco usar e quando?
AWS Meetup Rio - Qual banco usar e quando?
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
 
Introducao a aws storage backup e archiving
Introducao a aws storage backup e archivingIntroducao a aws storage backup e archiving
Introducao a aws storage backup e archiving
 
Otimizacao de custo summit 2015
Otimizacao de custo summit 2015Otimizacao de custo summit 2015
Otimizacao de custo summit 2015
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
Amazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
Amazon Web Services LATAM
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
Amazon Web Services LATAM
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
Amazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
Amazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
Amazon Web Services LATAM
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
Amazon Web Services LATAM
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
Amazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
Amazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Amazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
Amazon Web Services LATAM
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
Amazon Web Services LATAM
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
Amazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
Amazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Tendências de Big Data

  • 1. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Hugo Rozestraten | Arquiteto de Soluções 2016 Padrões de Arquitetura e Melhores Práticas de Big Data na AWS Tendências de Big Data
  • 2. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O que esperar dessa sessão? • Desafios de Big Data • Como simplificar o processamento dos dados? • Que tecnologias devo utilizar? • Porque? • Como? • Arquitetura de Referência • Padrões de Desenho
  • 3. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Big Data crescendo, sempre Volume Velocidade Variedade
  • 4. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Evolução de Big Data Batch •Relatórios Tempo Real •Alertas Predição • Forecast
  • 5. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Várias ferramentas Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra Kinesis- enabled app Lambda ML ElastiCache DynamoDB Streams SQS Elastic SearchKinesis Firehose
  • 6. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Diferencie-se • Empresas muito parecidas • Pense com números • “Erre certo” http://amzn.to/1Wb1Lrw
  • 7. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. http://imdb.to/1kRJDgn Diferencie-se • Empresas muito parecidas • Pense com números • “Erre certo”
  • 8. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Existe uma arquitetura de referência? Que ferramentas deveria utilizar? Como? Por quê?
  • 9. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Princípios Arquiteturais • “Data Bus” Desacoplado • Dados → Armazenamento→ Processamento→ Respostas • Ferramenta certa para o trabalho certo • Estrutura de dados, latência, taxa de transferência, padrões de acesso • Usar idéias com Arquitetura Lambda • Log imutável (append-only), batch/speed/serving layer • Aproveitar serviços gerenciados da AWS • Baixa ou nenhuma administração • Big data ≠ $$$$$$
  • 10. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Simplificando o processamento de Big Data Ingerir / Coletar Armazenar Processar / Analizar Consumir / Visualizar dados respostas Tempo para as respostas (Latência) Taxa de transferência Custo
  • 11. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ingerir / Coletar
  • 12. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Tipos de Dados • Transacional • Leituras e escritas em BD (OLTP) • Cache • Search • Logs • Streams • Arquivos • Arquivos de log (/var/log) • Coletores de logs e frameworks • Stream • Logs • Sensores & dados de IoT BD Armazenamento de Arquivos Armazenamento de Streams A iOS Android Web Apps Logstash LoggingIoTAplicações Dados Transacionais Arquivos Streams Mobile Apps Dados Indexados Search Collect Store LoggingIoT
  • 13. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenar
  • 14. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento de Streams A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNãoSQL Cache ArmazenamentodeStreamsFileStorage Dados Transacionais Arquivos Streams Mobile Apps Dados Indexados BD Arquivos Search Coletar Armazenar LoggingIoTAplicações 
  • 15. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Opções de Armazenamento de Streams • Serviços Gerenciados AWS • Amazon Kinesis → streams • DynamoDB Streams → tabela + streams • Amazon SQS → fila • Amazon SNS → pub/sub • Não Gerenciados • Apache Kafka → stream
  • 16. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Porque armazenamento de Streams? • Desacoplar consumidores & produtores • Buffer persistente • Coletar múltiplas streams • Preservar ordenação • Streaming MapReduce • Consumo paralelo 4 4 3 3 2 2 1 1 4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1 4 4 3 3 2 2 1 1 Produtor 1 Shard 1 / Partition 1 Shard 2 / Partition 2 Consumidor 1 Count of Red = 4 Count of Violet = 4 Consumidor 2 Count of Blue = 4 Count of Green = 4 Produtor 2 Produtor 3 Produtor N Key = Violet Kafka TopicDynamoDB Stream Kinesis Stream
  • 17. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. E filas e Pub/Sub? • Desacoplar produtores & consumidores/assinantes • Buffer persistente • Coletar múltiplas streams • Sem ordenação • Sem consumo paralelo Não Amazon SQS • Amazon SNS pode rotear para mais filas SQS ou funções ʎ • Sem streaming MapReduce Consumidores Produtores Produtores Amazon SNS Amazon SQS fila Tópico Função ʎ AWS Lambda Amazon SQS fila Assinante
  • 18. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual armazenamento de storage devo usar? Amazon Kinesis DynamoDB Streams Amazon SQS Amazon SNS Kafka Gerenciado Sim Sim Sim Não Ordenação Sim Sim Não Sim Entrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez Retenção 7 dias 24 horas 14 dias Configurável Replicação 3 AZ 3 AZ 3 AZ Configurável Taxa Transferência Sem Limite Sem Limite Sem Limite # Nodes Clientes Paralelos Sim Sim Não (SQS) Sim MapReduce Sim Sim Não Sim Tamanho Registro 1MB 400KB 256KB Configurável Custo Baixo Alto (custo tabela) Baixo-Médio Baixo (+admin)
  • 19. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento de Arquivos A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNoSQLCacheArmazenamentodeStreamsArmazenamentodeArquivos Transacional Arquivos Streams Mobile Apps Indexado BD Search Coletar Armazenar LoggingIoTAplicações
  • 20. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Por que o S3 é bom para Big Data? • Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.) • Sem necessidade de rodar clusters para storage (diferente do HDFS) • Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot • Múltiplos clusters distintos podem usar os mesmos dados • Número ilimitado de objetos • Alta taxa de transferência – sem limite agregado de taxa de transferência • Alta disponibilidade – tolera falha nas AZs • Desenhado para durabilidade de 99.999999999% • Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida • Seguro – criptografia em trânsito com SSL, em descanso com client/server-side • Baixo custo
  • 21. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O que dizer sobre HDFS e Amazon Glacier? • Usar HDFS para dados frequentemente acessados (quente) • Usar Amazon S3 Standard para dados frequentemente acessados • Usar Amazon S3 Standard – IA para dados que não são frequentemente acessados • Usar Amazon Glacier para arquivar dados frios
  • 22. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. BD + Search A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNoSQLCacheArmazenamentodeStreamsArquivos Transacionais Arquivos Streams Mobile Apps Indexados Coletar Armazenar LoggingIoTAplicações
  • 23. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Quanto só se tem um martelo, tudo parece como um prego A Lei de Maslow ou Martelo de Maslow, popularmente mencionado com a frase “se tudo o que você tem é um martelo, tudo parece como um prego” é do livro “A Psicologia da Ciência”, de Abraham Maslow. Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument http://amzn.to/1MVHgO5
  • 24. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Fonte: https://creativemarket.com/DearthCo/26223-When-you-are-a-hammer...
  • 25. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. BD + Search – Anti-Pattern RDBMS BD + Search Aplicações
  • 26. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Search + BD – Anti-Pattern Elastic Search Search + BD Aplicações
  • 27. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Melhor prática – Ferramenta certa para o trabalho certo Data Tier Search Amazon Elasticsearch Service Amazon CloudSearch Cache Redis Memcached SQL Amazon Aurora MySQL PostgreSQL Oracle SQL Server NoSQL Cassandra Amazon DynamoDB HBase MongoDB Applications BD + Search
  • 28. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Renove a caixa de ferramentas • Persistência poliglota http://amzn.to/1qUc0oq
  • 29. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Views Materializadas Amazon ElasticSearch
  • 30. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tipo de armazenamento devo usar? • Estrutura de Dados → Schema fixo, JSON, key-value • Padrões de Acesso → Armazene os dados no formato que você irá acessar • Características de acesso a dados → Quente, morno, frio • Custo → Melhor custo benefício
  • 31. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Estruturas de Dados e Padrões de Acesso Padrões de Acesso O que usar? Put/Get (Key, Value) Cache, NoSQL Relacionamentos Simples → 1:N, M:N NoSQL Cross table joins, transação, SQL SQL Faceting, Search Search Estrutura de dados O que usar? Schema fixo SQL, NoSQL Sem Schema (JSON) NoSQL, Search (Key, Value) Cache, NoSQL
  • 32. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual a temperatura do seu padrão de acesso aos dados?
  • 33. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Quente Morno Frio Volume MB–GB GB–TB PB Tamanho do Item B–KB KB–MB KB–TB Latência ms ms, sec min, hrs Durabilidade Baixo–Alto Alto Muito Alto Taxa de acesso Muito Alto Alto Baixo Custo/GB $$-$ $-¢¢ ¢ Dados Quentes Dados Mornos Dados Frios
  • 34. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cache SQL Taxa de Acesso Alto Baixo Custo/GB Alto Baixo Latência Baixo Alto GlacierEstrutura NoSQL Quente Morno Frio Baixo Alto Search
  • 35. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tipo de armazenamento devo usar? Amazon ElastiCache Amazon DynamoDB Amazon Aurora Amazon Elasticsearch Amazon EMR (HDFS) Amazon S3 Amazon Glacier Latência Média ms ms ms, sec ms,sec sec,min,hrs ms,sec,min (~ tamanho) hrs Volume de Dados GB GB–TBs (sem limite) GB–TB (64 TB Max) GB–TB GB–PB (~nodes) MB–PB (sem limite) GB–PB (sem limite) Tamanho Item B-KB KB (400 KB max) KB (64 KB) KB (1 MB max) MB-GB KB-GB (5 TB max) GB (40 TB max) Taxa de Acesso Alta - Muito Alta Muito Alta (sem limite) Alta Alta Baixa – Muito Alta Baixa – Muito Alta (sem limite) Muito Baixa Custo armazenamento GB/mês $$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10 Durabilidade Baixo - Moderada Muito Alta Muito Alta Alta Alta Muito Alta Muito Alta Quente Morno Frio
  • 36. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Desenho orientado a custo • Exemplo: Deveria utilizar Amazon S3 ou DynamoDB? “Estou desenhando um projeto que irá aumentar consideravelmente o uso do Amazon S3 pelo meu time. Espero que você me ajude com algumas questões. A etapa atual do projeto requer trabalhar com muitos arquivos pequenos, talvez chegue a um bilhão durante o pico. O tamanho total deve ser na orderm de 1.5 TB por mês…” Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês 300 2048 1483 777,600,000
  • 37. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Desenho orientado a custo • Exemplo: Deveria utilizar Amazon S3 ou DynamoDB? https://calculator.s3.amazonaws.com/index.html
  • 38. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon S3 ou DynamoDB? Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês 300 2048 1483 777,600,000
  • 39. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês Cenario 1 300 2,048 1,483 3,888,00 Cenario 2 300 32,768 23,730 3,888,00 Amazon S3 Amazon DynamoDB usar usar
  • 40. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Processar / Analizar
  • 41. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AnalizarA iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache ProcessamentoStreamingBatchInterativo Logging StreamStorage IoTAplicações FileStorage Quente Frio Morno Quente Quente ML Transacionais Arquivo Stream Mobile Apps Indexados Coletar Armazenar Analizar
  • 42. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Processar / Analizar • Análise de dados é um processo de inspeção, limpeza, transformação, e modelagem de dados com o objetivo de descobrir informações úteis, chegar a conclusões e suportar a tomada de decisão. • Exemplos • Dashboards Interativos → Análise Interativa • Relatórios diários/semanais/mensais → Análise em Batch • Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real • Análise de sentimento, modelos de predição → Machine learning
  • 43. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Análise Interativa • Grande quantidade de dados (mornos/frios) • Latência de segundos para retornar respostas • Exemplo: Dashboards self-service
  • 44. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Análise em Batch • Utiliza uma grande quantidade de dados (quente ou morno) • Leva minutos ou horas para retornar respostas • Exemplos: Gerar relatórios diários, semanais ou mensais
  • 45. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Análise em Tempo Real • Utiliza uma pequena quantidade de dados e faz perguntas • Leva um pequeno período de tempo (milisegundos ou segundos) para retornar as respostas • Tempo Real (evento) • Responder em tempo real a eventos que chegam em streams de dados • Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação • Quase Tempo Real (micro batch) • Operações quase em tempo real em pequenos quantidades de eventos em streams de dados • Exemplo: Métricas de 1 minuto
  • 46. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Predição via Machine Learning • ML dá a computadores a habilidade de aprender sem serem explicitamente programados • Algoritmos de Machine Learning • Aprendizado Supervisionado ← programa que “ensina” • Classificação ← Esta transação é uma fraude? (sim ou não) • Regressão ← Qual o valor total desse cliente? • Aprendizado Não Supervisionado ← deixe ele aprender sozinho • Clustering ← Segmentação de Marketing
  • 47. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Frameworks e ferramentas de análise • Machine Learning • Mahout, Spark ML, Amazon ML • Análise Interativa • Amazon Redshift, Presto, Impala, Spark • Processamento em Batch • MapReduce, Hive, Pig, Spark • Processamento de Streams • Micro batch: Spark Streaming, KCL, Hive, Pig • Tempo real: Storm, AWS Lambda, KCL Amazon Redshift Impala Pig Amazon Machine Learning Streaming Amazon Kinesis AWS Lambda AmazonEMR StreamsBatchInterativoML Analyze
  • 48. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tecnologia de stream eu devo usar? Spark Streaming Apache Storm Amazon Kinesis Client Library AWS Lambda Amazon EMR (Hive, Pig) Escala / Taxa de Transferência ~ Nós ~ Nós ~ Nós Automático ~ Nós Batch ou Tempo Real Tempo Real Tempo Real Tempo Real Tempo Real Batch Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto Scaling Gerenciado pela AWS Sim (Amazon EMR) Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ Linguagens de Programação Java, Python, Scala Qualquer linguagem via Thrift Java, via MultiLangDaemon ( .Net, Python, Ruby, Node.js) Node.js, Java, Python Hive, Pig, Linguagens de Streaming Alta
  • 49. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual tecnologia de processamento de dados eu devo utilizar? Amazon Redshift Impala Presto Spark Hive Latência Consulta Baixa Baixa Baixa Baixa Média (Tez) – Alta (MapReduce) Durabilidade Alta Alta Alta Alta Alta Volume de Dados 1.6 PB Max ~Nós ~Nós ~Nós ~Nós Gerenciado Sim Sim (Amazon EMR) Sim (Amazon EMR) Sim (Amazon EMR) Sim (Amazon EMR) Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3 Compatibilidade com SQL Alto Médio Alto Baixo (SparkSQL) Médio (HQL) Alta
  • 50. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. E sobre ETL? Store Analyze https://aws.amazon.com/big-data/partner-solutions/ ETL
  • 51. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Consumir / Visualizar
  • 52. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Coletar Armazenar Analizar Consumir A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging ArmazenamentoStreams IoTAplicações AmazenamentoArquivos Analysis&Visualization Quente Frio Morno Quente Lento Quente ML Rápido Rápido Transacional Arqquivos Streams Notebooks Predictions Apps & APIs Mobile Apps IDE Search ETL Amazon QuickSight
  • 53. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Consumir • Predições • Análise e Visualização • Notebooks • • IDE • Aplicações & API Consume AnáliseeVisualização Amazon QuickSight Notebooks Predições Apps & APIs IDE Armazenar Analizar ConsumirETL Business Users Cientistas de Dados, Desenvolvedores
  • 54. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Colocando tudo junto Coletar Armazenar Analizar Consumir A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging StreamStorage IoTApplications FileStorage Analysis&Visualization Quente Frio Morno Quente Lento Quente ML Rápido Rápido Amazon QuickSight Transacional Arquivos Streams Notebooks Predictions Apps & APIs Mobile Apps IDE Search ETL Arquitetura de Referência
  • 55. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Padrões de arquitetura
  • 56. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cenário 1: Enterprise Data Warehouse Data Warehouse Architecture Data Sources Amazon S3 Amazon EMR Amazon S3 Amazon Redshift Amazon QuickSight
  • 57. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Multi-Stage Decoupled “Data Bus” • Múltiplos estágios • Armazenamento desacoplado do processamento Armazenar Processar Armazenar Processar
  • 58. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cenário 2: Capturando e analisando dados de sensores Data Sources Amazon S3 Amazon Redshift Amazon QuickSight Amazon Kinesis Enabled App Amazon Kinesis Enabled App Amazon DynamoDB Reposting Dashboard Customer Access Amazon Kinesis 1 2 3 4 5 6 7 8 9
  • 59. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cenário 3: Analise de sentimento e redes sociais Social Media Data Amazon EC2 Amazon Lambda Amazon ML Amazon Kinesis Amazon S3 Amazon SNS 1 2 4 5 6 3 7
  • 60. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Sumário • “Data Bus” Desacoplado • Dados → Armazenamento→ Processamento→ Respostas • Ferramenta certa para o trabalho certo • Estrutura de dados, latência, taxa de transferência, padrões de acesso • Usar idéias com Arquitetura Lambda • Log imutável (append-only), batch/speed/serving layer • Aproveitar serviços gerenciados da AWS • Baixa ou nenhuma administração • Big data ≠ $$$$$$
  • 61. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Obrigado! Hugo Rozestraten | Arquiteto de Soluções

Notas do Editor

  1. O filme é baseado no livro Moneyball: The Art of Winning an Unfair Game de Michael Lewis, que por sua vez é baseado na história verdadeira de Billy Beane, gerente geral do time de basebol do Oakland Athletics. Moneyball se foca nas tentativas de Beane de criar um time competitivo para a temporada de 2002 de Oakland, apesar da situação financeira desfavorável da equipe, usando uma sofisticada análise estatística dos jogadores.