O documento discute como Hadoop, Big Data e Cloud Computing podem ser usados juntos. Apresenta exemplos de onde os dados em grande volume são gerados e como a AWS facilita a coleta, armazenamento, processamento e análise desses dados de forma elástica e econômica.
Os benefícios de migrar seus workloads de Big Data para a AWS
Hadoop Big Data Cloud
1. Hadoop, Big Data
e Cloud Computing
Hadoop Users Group SP
José Papo
AWS Tech Evangelist
@josepapo
2.
3.
4. 4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos
480 MBytes
5. 4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos
220 TBytes
6. Onde se vê Big Data
Mídia/
Propaganda
Anuncios
Dirigidos
Processa-
mento de
vídeos e
imagens
Óleo e Gás
Análise
Sismica
Varejo
Recomen-
dações
Análise de
Transações
Telecom
Cobrança
Log de
Ligações
Uso dos
Produtos
Instituições
Financeiras
Simulações
de Monte
Carlo
Análise de
Riscos
Segurança
Anti-virus
Detecção
de Fraudes
Reconheci-
mento de
Imagens
Marketing e
Jogos
(sobretudo
social)
Analise
Comporta-
mental
Análise de
Uso
Métricas
“In-game”
7. “Running 30 Hadoop machines on-premises costs less
than $500,000 vs. at least $7 million for an appliance. No
wonder everyone is looking out for Hadoop talent… It’s a
no-brainer when you plug in real numbers”.
Por que novas soluções para Big Data?
11. Sobre o Papel da AWS e
Benefícios alcançados
• 4 bilhões de requisições por
mês;
• +300 mil requisições por
minuto;
• +200 milhões de
recomendações todos os
dias;
• Spot instances: -20% custo
aws.
20. Amazon S3: Mais de 2 Trilhões de Objetos
1.1M
requisições
por segundo
21. 288 servidores com Cassandra
1.100.000 transações / segundo
Benchmarking Cassandra Scalability on AWS - Over a million writes per second
41 dólares / hora
(Instâncias Reservadas)
22. DynamoDB é um Banco de
Dados NoSQL “as a service”
sem complexidades
Armazene e recupere qualquer quantidade de dados
Sirva níveis gigantescos de tráfego e requisições
Sem instalações de software
Não é necessário configurar clusters
Custos mínimos de administração
30. Reduz complexidade/custo da gestão do Hadoop
Integra diretamente com Serviços AWS (EC2, S3,
DynamoDB, etc)
Facilita a elasticidade para Big Data
AMAZON ELASTIC MAPREDUCE
42. • Retailer came to Razorfish
3.5 billion records, 71 million unique cookies, 1.7 million targeted ads
required per day
Targeted Ad
User recently
purchased a
sports movie and
is searching for
video games (1.7 Million per day)
Leveraged Elastic MapReduce to analyze billions of customer
clicks and impressions
51. Elastic MapReduce, DynamoDB e Hive
http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html
52. Clusters Elásticos
Provisiona rápido
Stack Hadoop completo e com diversas opções
Sem o peso da gestão de hardware e clusters
Otimizações de custos com
instancias on-demand, reservadas e spot
Benefícios do Elastic MapReduce