O documento discute computação em nuvem e big data. Ele explica como a Amazon Web Services (AWS) oferece computação em nuvem de baixo custo e escalável que permite que empresas lidem com picos de demanda e volumes de dados crescentes de forma flexível. A AWS também fornece ferramentas como Hadoop e data warehouses elásticos para analisar grandes volumes de dados não estruturados.
1. Cloud Computing e Big Data
Rodolpho Ugolini - @rugolini
Amazon Web Services
2. O que é Computação em Nuvem
Sem despesas de Baixo custo Pague apenas
capital antecipadas pelo que usa
Escalabilidade Agilidade e Time
Infraestrutura
simples e to Market
Self-Service
automática
Deploy
3. Como a Amazon…
About Amazon
Web Services
Deep experience in
building and
?
operating global web
scale systems
…passou a oferecer Cloud Computing?
6. Infrestrutura Tradicional não é mais suficiente
Desperdício
Ambientes de Testes Volume de Dados
Picos de Demanda Eventos Sazonais
Insatisfação do cliente
15. Plataforma de Computação AWS
Serviços Básicos
Amazon
Compute Storage Database Networking
Zonas de
Disponibilidade Pontos de
Infraestrutura Distribuição CDN
Global Regiões
16. Disponivel Globalmente
Region
US-WEST (N. California) EU-WEST (Ireland)
GOV CLOUD ASIA PAC
(Tokyo)
US-EAST (Virginia)
US-WEST (Oregon)
ASIA PAC
(Singapore)
SOUTH AMERICA (Sao
Paulo)
17. Apoiando-se nos ombros do gigante…
Dados
Você
Sua Aplicação
Sistema Operacional
Serviços Básicos
Amazon
Compute Storage Database Networking
Zonas de
Disponibilidade Pontos de
Infraestrutura Distribuição CDN
Global Regiões
18. A cada dia, a AWS adiciona o
equivalente em capacidade
computacional, ao que era
necessário para manter a
Amazon.com de 2000
32. 40 a 5000 em 3 dias
Pico de 5000
instancias
Numero de Instancias EC2
Divulagação
Viral
Lançamento da
Integração com
Facebook
40 instancias
4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
34. Objetos armazenados no S3
1 Trilhão
1000,000
750,000
500,000
250,000
0,000
Pico de 750 mil transações por segundo
35. A análise de grandes
volumes de dados
está se tornando a
grande barreira para
inovação, competição
e produtividade.
36. O que é Big Data?
Gerados por computador –
estruturados, semi-estruturados ou
não-estruturados
Logs (web sites, jogos)
Sensores (tempo, água)
Imagens/vídeos (cameras, segurança)
Gerados por pessoas
Blogs/Resenhas/Emails/Fotos
Redes Sociais
Facebook, Linkedin, Twitter
37. Big Data está ficando cada vez maior
2.7 Zetabytes em 2012
Mais de 90% não estruturada
Dados espalhados em diversos
silos
Precisamos de ferramentas para
lidar com Big Data!
38. Onde se vê Big Data
Marketing e
Mídia/ Instituições Jogos
Óleo e Gás Varejo Telecom Segurança
Propaganda Financeiras (sobretudo
social)
Analise
Anti-virus Comporta-
Anuncios Simulações mental
Recomen-
dações de Monte
Dirigidos Carlo
Cobrança
Log de
Análise Detecção Análise de
Ligações
Sismica de Fraudes Uso
Uso dos
Processa- Produtos
mento de Análise de Análise de
vídeos e Transações Riscos Reconheci-
imagens mento de
Métricas
Imagens “In-game”
39. O que é Hadoop?
Apache Hadoop
Sistema de storage distribuído e tolerante a falhas
(HDFS)
Usa um algoritmo chamado MapReduce para realizar
análises estatísticas exaustivas sobre um grande
conjunto de dados distribuídos
Benefícios-chave
Custo mais baixo – Escala linearmente
Provado em escala– Petabytes em milhares de nós
Flexível – Dados podem ser armazenados com ou sem schema
40. "Hadoop é um storage confiável e um sistema analítico"
HDFS MapReduce
41. RDBMS MapReduce (Hadoop)
Schema definido Schema não requerido
Explora índices para Análises rápidas de dados e
recuperação rápida performance uniforme de
queries
SQL apenas Suporta SQL + outras
linguagens
Não escala linearmente Escalabilidade linear para
reads + writes
42. Implantar um cluster hadoop é difícil
http://eddie.niese.net/20090313/dont-pity-incompetence/
43. Big Data requer infraestrutura flexível
Infraestrutura física leva a
hardware e software estático e
planejado para atender picos…
…e muitas vezes acaba
gerando longas filas de
processamento
45. Data Warehouse Elástico
Data Warehouse
(Processo Batch)
Data Warehouse Data Warehouse
(Estável) (Estável)
Diminui
Aumenta para
para 25 9
instancias instancias