SlideShare uma empresa Scribd logo
1 de 61
Baixar para ler offline
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thiago Paulino | Arquiteto de Soluções
Setembro de 2016
Seu primeiro aplicativo de Big Data
Thoran Rodrigues | Founder & CEO BigData Corp.
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que esperar dessa sessão?
• Desafios de Big Data
• Como simplificar o processamento dos dados?
• Que tecnologias devo utilizar?
• Por quê?
• Como?
• Caso de sucesso (Thoran Rodrigues) BigData Corp.
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Big Data crescendo, sempre
Volume
Velocidade
Variedade
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Evolução de Big Data
Batch
•Relatórios
Tempo Real
•Alertas
Predição
• Forecast
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Várias ferramentas
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra
Kinesis-
enabled
app
Lambda ML
ElastiCache
DynamoDB
Streams
SQS
Elastic SearchKinesis Firehose
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Diferencie-se
• Empresas muito parecidas
• Pense com números
• “Erre certo”
http://amzn.to/1Wb1Lrw
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
http://imdb.to/1kRJDgn
Diferencie-se
• Empresas muito parecidas
• Pense com números
• “Erre certo”
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Existe uma arquitetura de referência?
Que ferramentas deveria utilizar?
Como?
Por quê?
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Princípios Arquiteturais
• “Data Bus” Desacoplado
• Dados → Armazenamento→ Processamento→ Respostas
• Ferramenta certa para o trabalho certo
• Estrutura de dados, latência, taxa de transferência, padrões de
acesso
• Usar idéias com Arquitetura Lambda
• Log imutável (append-only), batch/speed/serving layer
• Aproveitar serviços gerenciados da AWS
• Baixa ou nenhuma administração
• Big data ≠ $$$$$$
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Simplificando o processamento de Big
Data
Ingerir /
Coletar
Armazenar Processar /
Analizar
Consumir /
Visualizar
dados respostas
Tempo para as respostas (Latência)
Taxa de transferência
Custo
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Ingerir /
Coletar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Tipos de Dados
• Transacional
• Leituras e escritas em BD
(OLTP)
• Cache
• Search
• Logs
• Streams
• Arquivos
• Arquivos de log (/var/log)
• Coletores de logs e
frameworks
• Stream
• Logs
• Sensores & dados de IoT
BD
Armazenamento
de Arquivos
Armazenamento
de Streams
A
iOS Android
Web Apps
Logstash
LoggingIoTAplicações
Dados Transacionais
Arquivos
Streams
Mobile
Apps
Dados
Indexados
Search
Collect Store
LoggingIoT
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento
de Streams
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNãoSQL
Cache
ArmazenamentodeStreamsFileStorage
Dados Transacionais
Arquivos
Streams
Mobile
Apps
Dados
Indexados
BD
Arquivos
Search
Coletar Armazenar
LoggingIoTAplicações

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Opções de Armazenamento de Streams
• Serviços Gerenciados AWS
• Amazon Kinesis → streams
• DynamoDB Streams → tabela + streams
• Amazon SQS → fila
• Amazon SNS → pub/sub
• Não Gerenciados
• Apache Kafka → stream
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Porque armazenamento de Streams?
• Desacoplar consumidores & produtores
• Buffer persistente
• Coletar múltiplas streams
• Preservar ordenação
• Streaming MapReduce
• Consumo paralelo
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
Produtor 1
Shard 1 / Partition 1
Shard 2 / Partition 2
Consumidor 1
Count of
Red = 4
Count of
Violet = 4
Consumidor 2
Count of
Blue = 4
Count of
Green = 4
Produtor 2
Produtor 3
Produtor N
Key = Violet
Kafka TopicDynamoDB Stream Kinesis Stream
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
E filas e Pub/Sub?
• Desacoplar produtores &
consumidores/assinantes
• Buffer persistente
• Coletar múltiplas streams
• Sem ordenação
• Sem consumo paralelo
Não Amazon SQS
• Amazon SNS pode
rotear para mais filas
SQS ou funções ʎ
• Sem streaming
MapReduce
Consumidores
Produtores
Produtores
Amazon SNS
Amazon SQS
fila
Tópico
Função
ʎ
AWS Lambda
Amazon SQS
fila
Assinante
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual armazenamento de storage devo usar?
Amazon
Kinesis
DynamoDB
Streams
Amazon SQS
Amazon SNS
Kafka
Gerenciado Sim Sim Sim Não
Ordenação Sim Sim Não Sim
Entrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez
Retenção 7 dias 24 horas 14 dias Configurável
Replicação 3 AZ 3 AZ 3 AZ Configurável
Taxa Transferência Sem Limite Sem Limite Sem Limite # Nodes
Clientes Paralelos Sim Sim Não (SQS) Sim
MapReduce Sim Sim Não Sim
Tamanho Registro 1MB 400KB 256KB Configurável
Custo Baixo Alto (custo
tabela)
Baixo-Médio Baixo (+admin)
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Armazenamento
de Arquivos
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheArmazenamentodeStreamsArmazenamentodeArquivos
Transacional
Arquivos
Streams
Mobile
Apps
Indexado
BD
Search
Coletar Armazenar
LoggingIoTAplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Por que o S3 é bom para Big Data?
• Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.)
• Sem necessidade de rodar clusters para storage (diferente do HDFS)
• Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot
• Múltiplos clusters distintos podem usar os mesmos dados
• Número ilimitado de objetos
• Alta taxa de transferência – sem limite agregado de taxa de transferência
• Alta disponibilidade – tolera falha nas AZs
• Desenhado para durabilidade de 99.999999999%
• Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida
• Seguro – criptografia em trânsito com SSL, em descanso com client/server-side
• Baixo custo
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O que dizer sobre HDFS e Amazon
Glacier?
• Usar HDFS para dados
frequentemente acessados
(quente)
• Usar Amazon S3 Standard
para dados
frequentemente acessados
• Usar Amazon S3 Standard
– IA para dados que não
são frequentemente
acessados
• Usar Amazon Glacier para
arquivar dados frios
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
BD +
Search
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheArmazenamentodeStreamsArquivos
Transacionais
Arquivos
Streams
Mobile
Apps
Indexados
Coletar Armazenar
LoggingIoTAplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Quanto só se tem um martelo, tudo
parece como um prego
A Lei de Maslow ou
Martelo de Maslow,
popularmente
mencionado com a frase
“se tudo o que você tem é
um martelo, tudo parece
como um prego” é do livro
“A Psicologia da Ciência”,
de Abraham Maslow.
Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument
http://amzn.to/1MVHgO5
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Fonte: https://creativemarket.com/DearthCo/26223-When-you-are-a-hammer...
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
BD + Search – Anti-Pattern
RDBMS
BD + Search
Aplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Search + BD– Anti-Pattern
Elastic Search
Search + BD
Aplicações
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Melhor prática – Ferramenta certa para o
trabalho certo
Data Tier
Search
Amazon
Elasticsearch
Service
Amazon
CloudSearch
Cache
Redis
Memcached
SQL
Amazon Aurora
MySQL
PostgreSQL
Oracle
SQL Server
NoSQL
Cassandra
Amazon
DynamoDB
HBase
MongoDB
Applications
BD + Search
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Renove a caixa de ferramentas
• Persistência poliglota
http://amzn.to/1qUc0oq
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Views Materializadas
Amazon
ElasticSearch
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tipo de armazenamento devo usar?
• Estrutura de Dados → Schema fixo, JSON, key-value
• Padrões de Acesso → Armazene os dados no formato que
você irá acessar
• Características de acesso a dados → Quente, morno, frio
• Custo → Melhor custo benefício
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Estruturas de Dados e Padrões de
Acesso
Padrões de Acesso O que usar?
Put/Get (Key, Value) Cache, NoSQL
Relacionamentos Simples → 1:N, M:N NoSQL
Cross table joins, transação, SQL SQL
Faceting, Search Search
Estrutura de dados O que usar?
Schema fixo SQL, NoSQL
Sem Schema (JSON) NoSQL, Search
(Key, Value) Cache, NoSQL
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual a temperatura do seu padrão de
acesso aos dados?
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Quente Morno Frio
Volume MB–GB GB–TB PB
Tamanho do Item B–KB KB–MB KB–TB
Latência ms ms, sec min, hrs
Durabilidade Baixo–Alto Alto Muito Alto
Taxa de acesso Very Alto Alto Baixo
Custo/GB $$-$ $-¢¢ ¢
Dados Quentes Dados Mornos Dados Frios
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Cache
SQL
Taxa de Acesso
Alto Baixo
Custo/GB
Alto Baixo
Latência
Baixo Alto
GlacierEstrutura
NoSQL
Quente Morno Frio
Baixo
Alto
Search
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tipo de armazenamento devo usar?
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
Aurora
Amazon
Elasticsearch
Amazon
EMR (HDFS)
Amazon S3 Amazon
Glacier
Latência
Média
ms ms ms, sec ms,sec sec,min,hrs ms,sec,min
(~ tamanho)
hrs
Volume de
Dados
GB GB–TBs
(sem limite)
GB–TB
(64 TB
Max)
GB–TB GB–PB
(~nodes)
MB–PB
(sem limite)
GB–PB
(sem limite)
Tamanho Item B-KB KB
(400 KB
max)
KB
(64 KB)
KB
(1 MB max)
MB-GB KB-GB
(5 TB max)
GB
(40 TB max)
Taxa de Acesso Alta -
Muito Alta
Muito Alta
(sem limite)
Alta Alta Baixa –
Muito Alta
Baixa –
Muito Alta
(sem limite)
Muito Baixa
Custo
armazenamento
GB/mês
$$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10
Durabilidade Baixo -
Moderada
Muito Alta Muito
Alta
Alta Alta Muito Alta Muito Alta
Quente Morno Frio
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desenho orientado a custo
• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?
“Estou desenhando um projeto que irá aumentar
consideravelmente o uso do Amazon S3 pelo meu time. Espero
que você me ajude com algumas questões. A etapa atual do
projeto requere trabalhar com muitos arquivos pequenos,
talvez chegue a um bilhão durante o pico. O tamanho total
deve ser na orderm de 1.5 TB por mês…”
Taxa de acesso
(Escritas/seg)
Tamanho Objeto
(Bytes)
Tamanho Total
(GB/month)
Objetos por mês
300 2048 1483 777,600,000
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Desenho orientado a custo
• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?
https://calculator.s3.amazonaws.com/index.html
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3 ou DynamoDB?
Taxa de acesso
(Escritas/seg)
Tamanho
Objeto
(Bytes)
Tamanho
Total
(GB/month)
Objetos por
mês
300 2048 1483 777,600,000
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Taxa de acesso
(Escritas/seg)
Tamanho Objeto
(Bytes)
Tamanho Total
(GB/month)
Objetos por mês
Cenario 1 300 2,048 1,483 777,600,000
Cenario 2 300 32,768 23,730 777,600,000
Amazon S3
Amazon DynamoDB
usar
usar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Processar /
Analizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AnalizarA
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
ProcessamentoStreamingBatchInterativo
Logging
StreamStorage
IoTAplicações
FileStorage
Quente
Frio
Morno
Quente
Quente
ML
Transacionais
Arquivo
Stream
Mobile
Apps
Indexados
Coletar Armazenar Analizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Processar / Analizar
• Análise de dados é um processo de inspeção, limpeza,
transformação, e modelagem de dados com o objetivo de
descobrir informações úteis, chegar a conclusões e suportar a
tomada de decisão.
• Exemplos
• Relatórios diários/semanais/mensais → Análise em Batch
• Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real
• Análise de sentimento, modelos de predição → Machine learning
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Análise em Batch
• Utiliza uma grande quantidade de dados (quente ou morno)
• Leva minutos ou horas para retornar respostas
• Exemplos: Gerar relatórios diários, semanais ou mensais
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Análise em Tempo Real
• Utiliza uma pequena quantidade de dados e faz perguntas
• Leva um pequeno período de tempo (milisegundos ou segundos)
para retornar as respostas
• Tempo Real (evento)
• Responder em tempo real a eventos que chegam em streams de dados
• Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação
• Quase Tempo Real (micro batch)
• Operações quase em tempo real em pequenos quantidades de eventos em
streams de dados
• Exemplo: Métricas de 1 minuto
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Predição via Machine Learning
• ML dá a computadores a habilidade de aprender sem serem
explicitamente programados
• Algoritmos de Machine Learning
• Aprendizado Supervisionado ← programa que “ensina”
• Classificação ← Esta transação é uma fraude? (sim ou não)
• Regressão ← Qual o valor total desse cliente?
• Aprendizado Não Supervisionado ← deixe ele aprender sozinho
• Clustering ← Segmentação de Marketing
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Frameworks e ferramentas de análise
• Machine Learning
• Mahout, Spark ML, Amazon ML
• Análise Interativa
• Amazon Redshift, Presto, Impala, Spark
• Processamento em Batch
• MapReduce, Hive, Pig, Spark
• Processamento de Streams
• Micro batch: Spark Streaming, KCL, Hive, Pig
• Tempo real: Storm, AWS Lambda, KCL
Amazon
Redshift
Impala
Pig
Amazon Machine
Learning
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonEMR
StreamsBatchInterativoML
Analyze
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Que tecnologia de stream eu devo usar?
Spark Streaming Apache Storm Amazon Kinesis Client
Library
AWS Lambda Amazon EMR (Hive, Pig)
Escala / Taxa de
Transferência
~ Nós ~ Nós ~ Nós Automático ~ Nós
Batch ou Tempo
Real
Tempo Real Tempo Real Tempo Real Tempo Real Batch
Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto
Scaling
Gerenciado pela AWS Sim (Amazon EMR)
Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ
Linguagens de
Programação
Java, Python, Scala Qualquer
linguagem via Thrift
Java, via
MultiLangDaemon (
.Net, Python, Ruby,
Node.js)
Node.js, Java, Python Hive, Pig, Linguagens de
Streaming
Alta
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Qual tecnologia de processamento de
dados eu devo utilizar?
Amazon
Redshift
Impala Presto Spark Hive
Latência
Consulta
Baixa Baixa Baixa Baixa Média (Tez) – Alta
(MapReduce)
Durabilidade Alta Alta Alta Alta Alta
Volume de
Dados
1.6 PB
Max
~Nós ~Nós ~Nós ~Nós
Gerenciado Sim Sim
(Amazon EMR)
Sim
(Amazon EMR)
Sim
(Amazon EMR)
Sim
(Amazon EMR)
Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3
Compatibilidade
com SQL
Alto Médio Alto Baixo (SparkSQL) Médio (HQL)
Alta
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
E sobre ETL?
Store Analyze
https://aws.amazon.com/big-data/partner-solutions/
ETL
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Consumir /
Visualizar
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Coletar Armazenar Analizar Consumir
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
ArmazenamentoStreams
IoTAplicações
AmazenamentoArquivos
Analysis&Visualization
Quente
Frio
Morno
Quente
Lento
Quente
ML
Rápido
Rápido
Transacional
Arqquivos
Streams
Notebooks
Predictions
Apps & APIs
Mobile
Apps
IDE
Search
ETL
Amazon
QuickSight
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Consumir
• Predições
• Análise e Visualização
• Notebooks
•
• IDE
• Aplicações & API
Consume
AnáliseeVisualização
Amazon
QuickSight
Notebooks
Predições
Apps & APIs
IDE
Armazenar Analizar ConsumirETL
Business
Users
Cientistas de
Dados,
Desenvolvedores
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Colocando tudo junto
Coletar Armazenar Analizar Consumir
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
StreamStorage
IoTApplications
FileStorage
Analysis&Visualization
Quente
Frio
Morno
Quente
Lento
Quente
ML
Rápido
Rápido
Amazon
QuickSight
Transacional
Arquivos
Streams
Notebooks
Predictions
Apps & APIs
Mobile
Apps
IDE
Search
ETL
Arquitetura de Referência
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Experiência da BigData Corp.
Thoran Rodrigues
Founder & CEO
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
“A AWS viabilizou a existência da
nossa empresa”
• A BigData Corp. é uma empresa
especializada na captura e
estruturação de dados da web,
atendendo clientes nas mais
diferentes verticais e mercados.
• O principal produto da empresa
são os dados capturados e
estruturados.
“A AWS permitiu uma
ESCALA DE
PROCESSAMENTO
inédita para uma
empresa do nosso
porte.”
- Thoran Rodrigues,
Founder & CEO
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
O Desafio
• Big Data começa com dados, mas
como viabilizar a captura de dados e
estruturação em grande escala?
- # de servidores (dezenas de
milhares);
- Armazenamento (petabytes /
semana);
- Processamento e análise
(ferramentas especializadas).
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Solução
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sumário
• “Data Bus” Desacoplado
• Dados → Armazenamento→ Processamento→ Respostas
• Ferramenta certa para o trabalho certo
• Estrutura de dados, latência, taxa de transferência, padrões de
acesso
• Usar idéias com Arquitetura Lambda
• Log imutável (append-only), batch/speed/serving layer
• Aproveitar serviços gerenciados da AWS
• Baixa ou nenhuma administração
• Big data ≠ $$$$$$
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado!

Mais conteúdo relacionado

Mais procurados

Building blocks #5 - Recuperação de desastres de maneira prática na AWS
Building blocks #5 - Recuperação de desastres de maneira prática na AWSBuilding blocks #5 - Recuperação de desastres de maneira prática na AWS
Building blocks #5 - Recuperação de desastres de maneira prática na AWSAmazon Web Services LATAM
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSAmazon Web Services LATAM
 
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Amazon Web Services LATAM
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon Web Services LATAM
 
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
 
Melhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSMelhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSAmazon Web Services LATAM
 
Escalando para os primeiros 10 milhões de usuários
Escalando para os primeiros 10 milhões de usuáriosEscalando para os primeiros 10 milhões de usuários
Escalando para os primeiros 10 milhões de usuáriosAmazon Web Services LATAM
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightAmazon Web Services LATAM
 
Escalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuariosEscalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuariosAmazon Web Services LATAM
 
Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesAmazon Web Services LATAM
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaAmazon Web Services LATAM
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 

Mais procurados (20)

Building blocks #5 - Recuperação de desastres de maneira prática na AWS
Building blocks #5 - Recuperação de desastres de maneira prática na AWSBuilding blocks #5 - Recuperação de desastres de maneira prática na AWS
Building blocks #5 - Recuperação de desastres de maneira prática na AWS
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWS
 
Fazendo seu DR na AWS
Fazendo seu DR na AWSFazendo seu DR na AWS
Fazendo seu DR na AWS
 
Iniciando com Amazon Aurora
Iniciando com Amazon AuroraIniciando com Amazon Aurora
Iniciando com Amazon Aurora
 
Rodando SAP na AWS
Rodando SAP na AWSRodando SAP na AWS
Rodando SAP na AWS
 
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenho
 
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
 
Melhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWSMelhores práticas de workloads Microsoft na AWS
Melhores práticas de workloads Microsoft na AWS
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Iniciando com Amazon Cloudfront
Iniciando com Amazon CloudfrontIniciando com Amazon Cloudfront
Iniciando com Amazon Cloudfront
 
Seu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big DataSeu primeiro aplicativo de Big Data
Seu primeiro aplicativo de Big Data
 
Escalando para os primeiros 10 milhões de usuários
Escalando para os primeiros 10 milhões de usuáriosEscalando para os primeiros 10 milhões de usuários
Escalando para os primeiros 10 milhões de usuários
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSight
 
Escalando com segurança na AWS
Escalando com segurança na AWSEscalando com segurança na AWS
Escalando com segurança na AWS
 
Escalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuariosEscalando para os primeiros 10 milhoes de usuarios
Escalando para os primeiros 10 milhoes de usuarios
 
Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operações
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS Lambda
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Abaas - Advanced Beer-as-a-Service
Abaas - Advanced Beer-as-a-ServiceAbaas - Advanced Beer-as-a-Service
Abaas - Advanced Beer-as-a-Service
 

Destaque

Path to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoTPath to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoTAmazon Web Services LATAM
 
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividad
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividadCreando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividad
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividadAmazon Web Services LATAM
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraAmazon Web Services LATAM
 
Webinar: Mejores prácticas de Seguridad de la Información
Webinar: Mejores prácticas de Seguridad de la InformaciónWebinar: Mejores prácticas de Seguridad de la Información
Webinar: Mejores prácticas de Seguridad de la InformaciónAmazon Web Services LATAM
 
Webinar: Ask the Architect - Servicios de Storage de AWS
Webinar: Ask the Architect - Servicios de Storage de AWSWebinar: Ask the Architect - Servicios de Storage de AWS
Webinar: Ask the Architect - Servicios de Storage de AWSAmazon Web Services LATAM
 
Armazenamento para uma estratégia híbrida
 Armazenamento para uma estratégia híbrida Armazenamento para uma estratégia híbrida
Armazenamento para uma estratégia híbridaAmazon Web Services LATAM
 
Path to the future #4 - Ingestão, processamento e análise de dados em tempo real
Path to the future #4 - Ingestão, processamento e análise de dados em tempo realPath to the future #4 - Ingestão, processamento e análise de dados em tempo real
Path to the future #4 - Ingestão, processamento e análise de dados em tempo realAmazon Web Services LATAM
 
Quais são as opções de banco de dados gerenciados na AWS?
 Quais são as opções de banco de dados gerenciados na AWS? Quais são as opções de banco de dados gerenciados na AWS?
Quais são as opções de banco de dados gerenciados na AWS?Amazon Web Services LATAM
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemAmazon Web Services LATAM
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaAmazon Web Services LATAM
 

Destaque (12)

Path to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoTPath to the future #2 - Internet das coisas com AWS IoT
Path to the future #2 - Internet das coisas com AWS IoT
 
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividad
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividadCreando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividad
Creando su Datacenter Virtual: Fundamentos de VPC y opciones de conectividad
 
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraRaising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora
 
Webinar: Mejores prácticas de Seguridad de la Información
Webinar: Mejores prácticas de Seguridad de la InformaciónWebinar: Mejores prácticas de Seguridad de la Información
Webinar: Mejores prácticas de Seguridad de la Información
 
Comenzando a usar el Continuous Delivery
 Comenzando a usar el Continuous Delivery Comenzando a usar el Continuous Delivery
Comenzando a usar el Continuous Delivery
 
Webinar: Ask the Architect - Servicios de Storage de AWS
Webinar: Ask the Architect - Servicios de Storage de AWSWebinar: Ask the Architect - Servicios de Storage de AWS
Webinar: Ask the Architect - Servicios de Storage de AWS
 
Armazenamento para uma estratégia híbrida
 Armazenamento para uma estratégia híbrida Armazenamento para uma estratégia híbrida
Armazenamento para uma estratégia híbrida
 
DevOps en AWS
DevOps en AWSDevOps en AWS
DevOps en AWS
 
Path to the future #4 - Ingestão, processamento e análise de dados em tempo real
Path to the future #4 - Ingestão, processamento e análise de dados em tempo realPath to the future #4 - Ingestão, processamento e análise de dados em tempo real
Path to the future #4 - Ingestão, processamento e análise de dados em tempo real
 
Quais são as opções de banco de dados gerenciados na AWS?
 Quais são as opções de banco de dados gerenciados na AWS? Quais são as opções de banco de dados gerenciados na AWS?
Quais são as opções de banco de dados gerenciados na AWS?
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvem
 
Construindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS LambdaConstruindo APIs com Amazon API Gateway e AWS Lambda
Construindo APIs com Amazon API Gateway e AWS Lambda
 

Semelhante a Seu primeiro aplicativo de Big Data

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Encontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de TrabalhoEncontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de TrabalhoAmazon Web Services LATAM
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Amazon Web Services
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Amazon Web Services
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]Amazon Web Services
 
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários - ARC203 - Sao P...
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários -  ARC203 - Sao P...Escalando do Zero aos seus Primeiros 10 Milhões de Usuários -  ARC203 - Sao P...
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários - ARC203 - Sao P...Amazon Web Services
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo SummitAmazon Web Services
 
Criando Aplicações Serverless - ARC302 - Sao Paulo Summit
Criando Aplicações Serverless -  ARC302 - Sao Paulo SummitCriando Aplicações Serverless -  ARC302 - Sao Paulo Summit
Criando Aplicações Serverless - ARC302 - Sao Paulo SummitAmazon Web Services
 

Semelhante a Seu primeiro aplicativo de Big Data (20)

Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Encontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de TrabalhoEncontre o Banco de Dados certo para sua Carga de Trabalho
Encontre o Banco de Dados certo para sua Carga de Trabalho
 
AWS Database Day - Português
AWS Database Day - PortuguêsAWS Database Day - Português
AWS Database Day - Português
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]Data Lakes - EBC on the road Brazil Edition [Portuguese]
Data Lakes - EBC on the road Brazil Edition [Portuguese]
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]Armazenamento - EBC on the road Brazil Edition [Portuguese]
Armazenamento - EBC on the road Brazil Edition [Portuguese]
 
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários - ARC203 - Sao P...
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários -  ARC203 - Sao P...Escalando do Zero aos seus Primeiros 10 Milhões de Usuários -  ARC203 - Sao P...
Escalando do Zero aos seus Primeiros 10 Milhões de Usuários - ARC203 - Sao P...
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
 
Webinar Data Lakes & Analytics na AWS
Webinar Data Lakes & Analytics na AWSWebinar Data Lakes & Analytics na AWS
Webinar Data Lakes & Analytics na AWS
 
Criando Aplicações Serverless - ARC302 - Sao Paulo Summit
Criando Aplicações Serverless -  ARC302 - Sao Paulo SummitCriando Aplicações Serverless -  ARC302 - Sao Paulo Summit
Criando Aplicações Serverless - ARC302 - Sao Paulo Summit
 
Introducao a aws storage backup e archiving
Introducao a aws storage backup e archivingIntroducao a aws storage backup e archiving
Introducao a aws storage backup e archiving
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Seu primeiro aplicativo de Big Data

  • 1. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Thiago Paulino | Arquiteto de Soluções Setembro de 2016 Seu primeiro aplicativo de Big Data Thoran Rodrigues | Founder & CEO BigData Corp.
  • 2. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O que esperar dessa sessão? • Desafios de Big Data • Como simplificar o processamento dos dados? • Que tecnologias devo utilizar? • Por quê? • Como? • Caso de sucesso (Thoran Rodrigues) BigData Corp.
  • 3. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Big Data crescendo, sempre Volume Velocidade Variedade
  • 4. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Evolução de Big Data Batch •Relatórios Tempo Real •Alertas Predição • Forecast
  • 5. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Várias ferramentas Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra Kinesis- enabled app Lambda ML ElastiCache DynamoDB Streams SQS Elastic SearchKinesis Firehose
  • 6. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Diferencie-se • Empresas muito parecidas • Pense com números • “Erre certo” http://amzn.to/1Wb1Lrw
  • 7. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. http://imdb.to/1kRJDgn Diferencie-se • Empresas muito parecidas • Pense com números • “Erre certo”
  • 8. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Existe uma arquitetura de referência? Que ferramentas deveria utilizar? Como? Por quê?
  • 9. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Princípios Arquiteturais • “Data Bus” Desacoplado • Dados → Armazenamento→ Processamento→ Respostas • Ferramenta certa para o trabalho certo • Estrutura de dados, latência, taxa de transferência, padrões de acesso • Usar idéias com Arquitetura Lambda • Log imutável (append-only), batch/speed/serving layer • Aproveitar serviços gerenciados da AWS • Baixa ou nenhuma administração • Big data ≠ $$$$$$
  • 10. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Simplificando o processamento de Big Data Ingerir / Coletar Armazenar Processar / Analizar Consumir / Visualizar dados respostas Tempo para as respostas (Latência) Taxa de transferência Custo
  • 11. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Ingerir / Coletar
  • 12. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Tipos de Dados • Transacional • Leituras e escritas em BD (OLTP) • Cache • Search • Logs • Streams • Arquivos • Arquivos de log (/var/log) • Coletores de logs e frameworks • Stream • Logs • Sensores & dados de IoT BD Armazenamento de Arquivos Armazenamento de Streams A iOS Android Web Apps Logstash LoggingIoTAplicações Dados Transacionais Arquivos Streams Mobile Apps Dados Indexados Search Collect Store LoggingIoT
  • 13. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenar
  • 14. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento de Streams A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNãoSQL Cache ArmazenamentodeStreamsFileStorage Dados Transacionais Arquivos Streams Mobile Apps Dados Indexados BD Arquivos Search Coletar Armazenar LoggingIoTAplicações 
  • 15. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Opções de Armazenamento de Streams • Serviços Gerenciados AWS • Amazon Kinesis → streams • DynamoDB Streams → tabela + streams • Amazon SQS → fila • Amazon SNS → pub/sub • Não Gerenciados • Apache Kafka → stream
  • 16. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Porque armazenamento de Streams? • Desacoplar consumidores & produtores • Buffer persistente • Coletar múltiplas streams • Preservar ordenação • Streaming MapReduce • Consumo paralelo 4 4 3 3 2 2 1 1 4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1 4 4 3 3 2 2 1 1 Produtor 1 Shard 1 / Partition 1 Shard 2 / Partition 2 Consumidor 1 Count of Red = 4 Count of Violet = 4 Consumidor 2 Count of Blue = 4 Count of Green = 4 Produtor 2 Produtor 3 Produtor N Key = Violet Kafka TopicDynamoDB Stream Kinesis Stream
  • 17. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. E filas e Pub/Sub? • Desacoplar produtores & consumidores/assinantes • Buffer persistente • Coletar múltiplas streams • Sem ordenação • Sem consumo paralelo Não Amazon SQS • Amazon SNS pode rotear para mais filas SQS ou funções ʎ • Sem streaming MapReduce Consumidores Produtores Produtores Amazon SNS Amazon SQS fila Tópico Função ʎ AWS Lambda Amazon SQS fila Assinante
  • 18. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual armazenamento de storage devo usar? Amazon Kinesis DynamoDB Streams Amazon SQS Amazon SNS Kafka Gerenciado Sim Sim Sim Não Ordenação Sim Sim Não Sim Entrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez Retenção 7 dias 24 horas 14 dias Configurável Replicação 3 AZ 3 AZ 3 AZ Configurável Taxa Transferência Sem Limite Sem Limite Sem Limite # Nodes Clientes Paralelos Sim Sim Não (SQS) Sim MapReduce Sim Sim Não Sim Tamanho Registro 1MB 400KB 256KB Configurável Custo Baixo Alto (custo tabela) Baixo-Médio Baixo (+admin)
  • 19. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Armazenamento de Arquivos A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNoSQLCacheArmazenamentodeStreamsArmazenamentodeArquivos Transacional Arquivos Streams Mobile Apps Indexado BD Search Coletar Armazenar LoggingIoTAplicações
  • 20. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Por que o S3 é bom para Big Data? • Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.) • Sem necessidade de rodar clusters para storage (diferente do HDFS) • Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot • Múltiplos clusters distintos podem usar os mesmos dados • Número ilimitado de objetos • Alta taxa de transferência – sem limite agregado de taxa de transferência • Alta disponibilidade – tolera falha nas AZs • Desenhado para durabilidade de 99.999999999% • Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida • Seguro – criptografia em trânsito com SSL, em descanso com client/server-side • Baixo custo
  • 21. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O que dizer sobre HDFS e Amazon Glacier? • Usar HDFS para dados frequentemente acessados (quente) • Usar Amazon S3 Standard para dados frequentemente acessados • Usar Amazon S3 Standard – IA para dados que não são frequentemente acessados • Usar Amazon Glacier para arquivar dados frios
  • 22. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. BD + Search A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNoSQLCacheArmazenamentodeStreamsArquivos Transacionais Arquivos Streams Mobile Apps Indexados Coletar Armazenar LoggingIoTAplicações
  • 23. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Quanto só se tem um martelo, tudo parece como um prego A Lei de Maslow ou Martelo de Maslow, popularmente mencionado com a frase “se tudo o que você tem é um martelo, tudo parece como um prego” é do livro “A Psicologia da Ciência”, de Abraham Maslow. Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument http://amzn.to/1MVHgO5
  • 24. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Fonte: https://creativemarket.com/DearthCo/26223-When-you-are-a-hammer...
  • 25. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. BD + Search – Anti-Pattern RDBMS BD + Search Aplicações
  • 26. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Search + BD– Anti-Pattern Elastic Search Search + BD Aplicações
  • 27. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Melhor prática – Ferramenta certa para o trabalho certo Data Tier Search Amazon Elasticsearch Service Amazon CloudSearch Cache Redis Memcached SQL Amazon Aurora MySQL PostgreSQL Oracle SQL Server NoSQL Cassandra Amazon DynamoDB HBase MongoDB Applications BD + Search
  • 28. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Renove a caixa de ferramentas • Persistência poliglota http://amzn.to/1qUc0oq
  • 29. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Views Materializadas Amazon ElasticSearch
  • 30. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tipo de armazenamento devo usar? • Estrutura de Dados → Schema fixo, JSON, key-value • Padrões de Acesso → Armazene os dados no formato que você irá acessar • Características de acesso a dados → Quente, morno, frio • Custo → Melhor custo benefício
  • 31. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Estruturas de Dados e Padrões de Acesso Padrões de Acesso O que usar? Put/Get (Key, Value) Cache, NoSQL Relacionamentos Simples → 1:N, M:N NoSQL Cross table joins, transação, SQL SQL Faceting, Search Search Estrutura de dados O que usar? Schema fixo SQL, NoSQL Sem Schema (JSON) NoSQL, Search (Key, Value) Cache, NoSQL
  • 32. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual a temperatura do seu padrão de acesso aos dados?
  • 33. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Quente Morno Frio Volume MB–GB GB–TB PB Tamanho do Item B–KB KB–MB KB–TB Latência ms ms, sec min, hrs Durabilidade Baixo–Alto Alto Muito Alto Taxa de acesso Very Alto Alto Baixo Custo/GB $$-$ $-¢¢ ¢ Dados Quentes Dados Mornos Dados Frios
  • 34. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Cache SQL Taxa de Acesso Alto Baixo Custo/GB Alto Baixo Latência Baixo Alto GlacierEstrutura NoSQL Quente Morno Frio Baixo Alto Search
  • 35. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tipo de armazenamento devo usar? Amazon ElastiCache Amazon DynamoDB Amazon Aurora Amazon Elasticsearch Amazon EMR (HDFS) Amazon S3 Amazon Glacier Latência Média ms ms ms, sec ms,sec sec,min,hrs ms,sec,min (~ tamanho) hrs Volume de Dados GB GB–TBs (sem limite) GB–TB (64 TB Max) GB–TB GB–PB (~nodes) MB–PB (sem limite) GB–PB (sem limite) Tamanho Item B-KB KB (400 KB max) KB (64 KB) KB (1 MB max) MB-GB KB-GB (5 TB max) GB (40 TB max) Taxa de Acesso Alta - Muito Alta Muito Alta (sem limite) Alta Alta Baixa – Muito Alta Baixa – Muito Alta (sem limite) Muito Baixa Custo armazenamento GB/mês $$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10 Durabilidade Baixo - Moderada Muito Alta Muito Alta Alta Alta Muito Alta Muito Alta Quente Morno Frio
  • 36. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Desenho orientado a custo • Exemplo: Deveria utilizar Amazon S3 ou DynamoDB? “Estou desenhando um projeto que irá aumentar consideravelmente o uso do Amazon S3 pelo meu time. Espero que você me ajude com algumas questões. A etapa atual do projeto requere trabalhar com muitos arquivos pequenos, talvez chegue a um bilhão durante o pico. O tamanho total deve ser na orderm de 1.5 TB por mês…” Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês 300 2048 1483 777,600,000
  • 37. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Desenho orientado a custo • Exemplo: Deveria utilizar Amazon S3 ou DynamoDB? https://calculator.s3.amazonaws.com/index.html
  • 38. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon S3 ou DynamoDB? Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês 300 2048 1483 777,600,000
  • 39. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Taxa de acesso (Escritas/seg) Tamanho Objeto (Bytes) Tamanho Total (GB/month) Objetos por mês Cenario 1 300 2,048 1,483 777,600,000 Cenario 2 300 32,768 23,730 777,600,000 Amazon S3 Amazon DynamoDB usar usar
  • 40. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Processar / Analizar
  • 41. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AnalizarA iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache ProcessamentoStreamingBatchInterativo Logging StreamStorage IoTAplicações FileStorage Quente Frio Morno Quente Quente ML Transacionais Arquivo Stream Mobile Apps Indexados Coletar Armazenar Analizar
  • 42. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Processar / Analizar • Análise de dados é um processo de inspeção, limpeza, transformação, e modelagem de dados com o objetivo de descobrir informações úteis, chegar a conclusões e suportar a tomada de decisão. • Exemplos • Relatórios diários/semanais/mensais → Análise em Batch • Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real • Análise de sentimento, modelos de predição → Machine learning
  • 43. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Análise em Batch • Utiliza uma grande quantidade de dados (quente ou morno) • Leva minutos ou horas para retornar respostas • Exemplos: Gerar relatórios diários, semanais ou mensais
  • 44. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Análise em Tempo Real • Utiliza uma pequena quantidade de dados e faz perguntas • Leva um pequeno período de tempo (milisegundos ou segundos) para retornar as respostas • Tempo Real (evento) • Responder em tempo real a eventos que chegam em streams de dados • Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação • Quase Tempo Real (micro batch) • Operações quase em tempo real em pequenos quantidades de eventos em streams de dados • Exemplo: Métricas de 1 minuto
  • 45. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Predição via Machine Learning • ML dá a computadores a habilidade de aprender sem serem explicitamente programados • Algoritmos de Machine Learning • Aprendizado Supervisionado ← programa que “ensina” • Classificação ← Esta transação é uma fraude? (sim ou não) • Regressão ← Qual o valor total desse cliente? • Aprendizado Não Supervisionado ← deixe ele aprender sozinho • Clustering ← Segmentação de Marketing
  • 46. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Frameworks e ferramentas de análise • Machine Learning • Mahout, Spark ML, Amazon ML • Análise Interativa • Amazon Redshift, Presto, Impala, Spark • Processamento em Batch • MapReduce, Hive, Pig, Spark • Processamento de Streams • Micro batch: Spark Streaming, KCL, Hive, Pig • Tempo real: Storm, AWS Lambda, KCL Amazon Redshift Impala Pig Amazon Machine Learning Streaming Amazon Kinesis AWS Lambda AmazonEMR StreamsBatchInterativoML Analyze
  • 47. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Que tecnologia de stream eu devo usar? Spark Streaming Apache Storm Amazon Kinesis Client Library AWS Lambda Amazon EMR (Hive, Pig) Escala / Taxa de Transferência ~ Nós ~ Nós ~ Nós Automático ~ Nós Batch ou Tempo Real Tempo Real Tempo Real Tempo Real Tempo Real Batch Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto Scaling Gerenciado pela AWS Sim (Amazon EMR) Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ Linguagens de Programação Java, Python, Scala Qualquer linguagem via Thrift Java, via MultiLangDaemon ( .Net, Python, Ruby, Node.js) Node.js, Java, Python Hive, Pig, Linguagens de Streaming Alta
  • 48. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Qual tecnologia de processamento de dados eu devo utilizar? Amazon Redshift Impala Presto Spark Hive Latência Consulta Baixa Baixa Baixa Baixa Média (Tez) – Alta (MapReduce) Durabilidade Alta Alta Alta Alta Alta Volume de Dados 1.6 PB Max ~Nós ~Nós ~Nós ~Nós Gerenciado Sim Sim (Amazon EMR) Sim (Amazon EMR) Sim (Amazon EMR) Sim (Amazon EMR) Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3 Compatibilidade com SQL Alto Médio Alto Baixo (SparkSQL) Médio (HQL) Alta
  • 49. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. E sobre ETL? Store Analyze https://aws.amazon.com/big-data/partner-solutions/ ETL
  • 50. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Consumir / Visualizar
  • 51. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Coletar Armazenar Analizar Consumir A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging ArmazenamentoStreams IoTAplicações AmazenamentoArquivos Analysis&Visualization Quente Frio Morno Quente Lento Quente ML Rápido Rápido Transacional Arqquivos Streams Notebooks Predictions Apps & APIs Mobile Apps IDE Search ETL Amazon QuickSight
  • 52. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Consumir • Predições • Análise e Visualização • Notebooks • • IDE • Aplicações & API Consume AnáliseeVisualização Amazon QuickSight Notebooks Predições Apps & APIs IDE Armazenar Analizar ConsumirETL Business Users Cientistas de Dados, Desenvolvedores
  • 53. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Colocando tudo junto Coletar Armazenar Analizar Consumir A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Streaming Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging StreamStorage IoTApplications FileStorage Analysis&Visualization Quente Frio Morno Quente Lento Quente ML Rápido Rápido Amazon QuickSight Transacional Arquivos Streams Notebooks Predictions Apps & APIs Mobile Apps IDE Search ETL Arquitetura de Referência
  • 54. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
  • 55. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Experiência da BigData Corp. Thoran Rodrigues Founder & CEO
  • 56. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. “A AWS viabilizou a existência da nossa empresa” • A BigData Corp. é uma empresa especializada na captura e estruturação de dados da web, atendendo clientes nas mais diferentes verticais e mercados. • O principal produto da empresa são os dados capturados e estruturados. “A AWS permitiu uma ESCALA DE PROCESSAMENTO inédita para uma empresa do nosso porte.” - Thoran Rodrigues, Founder & CEO
  • 57. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
  • 58. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. O Desafio • Big Data começa com dados, mas como viabilizar a captura de dados e estruturação em grande escala? - # de servidores (dezenas de milhares); - Armazenamento (petabytes / semana); - Processamento e análise (ferramentas especializadas).
  • 59. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Solução
  • 60. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Sumário • “Data Bus” Desacoplado • Dados → Armazenamento→ Processamento→ Respostas • Ferramenta certa para o trabalho certo • Estrutura de dados, latência, taxa de transferência, padrões de acesso • Usar idéias com Arquitetura Lambda • Log imutável (append-only), batch/speed/serving layer • Aproveitar serviços gerenciados da AWS • Baixa ou nenhuma administração • Big data ≠ $$$$$$
  • 61. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Obrigado!