Webinar: Introdução a Big data

© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thiago Paulino, Solutions Architect
03 Março, 2016
Introdução a Big Data
Opções de analytics na AWS & Casos de uso

Conteúdo
• Introdução de Big Data em AWS
• Big Data Analytics Opções na AWS
• Padrões de uso e anti-padrões
• Performance & Custos
• Durabilidade & Escalabilidade
• Interfaces
• Construindo soluções Big Data – Abordagem AWS
• Cenários de exemplo

Big Data na AWS
Disponibilidade Imediata. Deploy instantâneo. Sem compra de
hardware, sem infra-estrutura para manter e escalar.
Seguro e confiável. Desenhado para atender requisitos rigorosos
de segurança. Auditoria continua, incluindo certificações : ISO
27001, FedRAMP, DoD CSM, and PCI DSS.
Capilaridade de serviços. Mais de 50 serviços e centenas de
funcionalidades para suportar virtualmente qualquer workload de
big data.
Centenas de parceiros e soluções. Obtenha ajuda de nossos
parceiros de consultoria ou escolha entre centenas de
ferramentas em nosso marktplace

Real-time
Amazon Kinesis Firehose
Object Storage
Amazon S3
RDBMS
Amazon RDS
NoSQL
DynamoDB
Hadoop Ecosystem
Amazon EMR
Real-time
AWS Lambda
Amazon Kinesis Analytics
Data Warehousing
Amazon Redshift
Machine Learning
Amazon Machine
Learning
Business Intelligence &
Data Visualization
Amazon QuickSight
Real-time
Amazon Kinesis Streams
Elastic Search Analytics
Amazon ElasticSearch
Coleta Armazenamento Análise &
Processamento
Visualização
Data Import
Amazon Import/Export
Snowball
IoT
Amazon IoT
Ampla capacidade e integração

Petabyte (capacidade)
Processamento paralelo
Relacional data warehouse
Gerenciado, zero admin
Menos de $1,000/TB/Year
Rápido
Barato
Simples
Amazon Redshift

Amazon Redshift
• Padrões de uso
• Dados de vendas
• Dado históricos
• Dados de jogos
• Dados de redes sociais
• Dados de campanha de publicidade
• Performance
• Processamento paralelo massivo
• Armazenamento colunar
• Compressão de dados
• Mapeamento
• Discos diretamente conectados
• Modelo de custo
• Sem investimento inicial ou contratos
• Backup gratuíto (storage equivalente a 100% do
storage provisionado)
Com armazenamento colunar,
você acessa apenas o dado
que você precisa.

Amazon Redshift
• Escalabilidade & Elasticidade
• Aumentar ou Diminuir - Número ou tipo de
node com alguns clicks
• Durabilidade e disponibilidade
• Replicação
• Backup
• Automated recovery para falhas de discos &
nodes
• Interfaces
• JDBC/ODBC interface com ferramentas de
BI/ETL
• Amazon S3 ou DynamoDB
• Anti-padrões
• Pequenos datasets
• OLTP
• Dados não estruturados
• Blob Data
10 GigE
(HPC)
Ingestion
Backup
Restore
JDBC/ODBC

streaming de dados
Processamento em tempo real
Armazene terabytes de dados
por hora
Amazon Kinesis

• Padrões de uso – Streaming de
dados, ingestão e processamento
• Data analytics em tempo real
• Ingestão de dados e processamento ex.
logs
• Métricas e reports em tempo real
• Performance
• Throughput baseado em shards
• Modelo de custo
• Sem investimento inicial ou contratos
• Pague pelo que usar
• Custo hora por shard
• Cobrança por 1 million de transações
PUT

• Escalabilidade e Elasticidade
• Aumente o número de shards
• Durabilidade e Disponibilidade
• Replicação
• Cursor preservation
• Interfaces
• Input – data in
• Output – data out
• Kinesis Firehose
• Anti-padrões
• Pequenas taxas de transferência
• Armazenamento de longo prazo

Inicie cluster em minutos
Pague por hora e economize com
instâncias spot
MapReduce, Apache Spark, Presto
Amazon EMR

Amazon EMR
• Padrões de uso
• Processamento de log and analytics
• Grande ETL e movimentacao de dados
• Risk modeling and threat analytics
• Sucesso de publicidade and click stream
analytics
• Genoma
• Análise preditiva
• Ad-hoc data mining and analytics
• Performance
• Tipo de instância
• Número de instâncias
• Cost model
• Pague pelas horas de execução
• EC2 instance e EMR

Amazon EMR
• Resize de cluster
• Adicione instâncias core ou task
• Tolerância a falha slave node (HDFS)
• Backup com S3 para resiliência do master
node
• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk,
Presto, etc..
• Anti-padrões
• Pequenos data sets
• ACID (Atomicity, Consistency, Isolation and
Durability)

NoSQL database totalmente
gerenciado
Um dígito de Millisecond de latência
para escalar
Suporte a documento e chave-valor
Amazon
DynamoDB

Amazon DynamoDB
• Padrões de uso
• Mobile apps, jogos, digital ad serving, votaçao
em tempo real, rede de sensores, ingestão de
logs
• Controle de acesso a conteudo web, carrinho
de compras para e-commerce
• Gerenciamento de sessões web
• Performance
• SSD
• Provisione throughput por tabela
• Sem limite de dados armazenados
• Aumentar ou diminuir a capacidade de leitura e
escrita por tabela
• Modelo de custo
• Provisione throughput (por hora)
• Indexe dados armazenados (por GB por mês)
• Data transfer in or out (por GB por mês)
 Provisioned read/write performance per table.
 Predictable high performance scaled via console or API

Amazon DynamoDB
• Três Availability Zones (AZ)
• Interfaces
• AWS Console
• API’s
• SDK’s
• Anti-padrões
• Applicação de bancos de dados relacional
• Joins e/ou transações complexas
• BLOB data
• Muitos dados com pouco I/O
AZ-A
AZ-B
AZ-C

Serviço gerenciado projetado para tornar
mais fácil para os desenvolvedores o uso de
machine learning
Baseado na mesma tecnologia ML usado há
anos por cientistas de dados internos da
Amazon
Amazon Machine Learning é altamente
escalavel e utiliza padrões de ML. (Análise
preditiva)
Amazon
Machine Learning

Amazon Machine Learning
• Padrões de uso
• Alertas de transações suspeitas
• Personalize application content
• Predição de atividade do usuário
• Analise rede social
• Modelo de custo
• Sem gerenciamento de instâncias, apenas
serviço
• Performance
• Predições em tempo real Real-time
predictions projetado para responder em
pelo menos 100ms
• 200 transações por segundo

Amazon Machine Learning
• Sem janela de manutençao
• Desenhado para multiplas AZ’s
• Modelo de treino de ate100GB
• Multiplo jobs simultâneos
• Interfaces
• Origem de dados a partir do S3, RDS e
Redshift
• Intereção ML via console, SDKs, e ML
API
• Anti-padrões
• Grandes Data Sets > 100GB
• Sequência de predição ou tasks não
supervisionada

Orientado a eventos,
computaçao 100% gerenciada
Sem gestão de infra-estrutura
Escalabilidade automática
AWS Lambda

AWS Lambda
• Padrões de uso
• Procesamento de arquivos em tempo real
• Extract, Transform, Load (ETL)
• Performance
• Processamento de eventos em milliseconds
• Modelos de custo
• Sem gerênciamento de instâncias, pague
apenas pelo serviço
• Lambda free tier incluí 1Milhão de
requisições gratuitas

AWS Lambda
• Sem janelas de manutenção ou
downtime agendado
• Funções Async são executadas até 3
times caso falhem
• Alta concorrência de execuções
simultânea
• AWS Lambda Aloca dinamicamente
capacidade para executar os eventos.
• Interfaces
• Lambda suportas Java, Node.js, e
Python
• Execução por evento ou agendas
• Anti-padrões
• Execuções longas de aplicações
• Aplicações Stateful no Lambda

Instale um cluster de Elasticsearch em
minutos
Integrado com Logstash and Kibana
Escale o seu cluster Elasticsearch
perfeitamente
Amazon
Elasticsearch
Service

Amazon Elasticsearch
• Padrões de uso
• Análise de logs
• Análise de stream de dados e/ou updates de
outros serviços AWS
• Prover uma busca rica e uma boa experiência de
uso/navegação
• Monitorar o uso de aplicações mobile
• Performance
• Depende de multiplos fatores, incluindo tipo de
instância, workload, index, número de shards no
cluster, replicas de leitura
• Configurações de disco – instance storage ou EBS
storage
• Modelos de custo
• Pague somente pela instância de elasticsearch e
disco utilizado

Amazon Elasticsearch
• Zone Awareness
• Snapshots automático e manual.
• Adicione e remova instâncias
• Altere os volumes EBS conforme
crescimento
• Interfaces
• AWS Console
• API’s
• SDK’s
• Kibana and Logstash (ELK Stack)
• Anti-padrões
• OLTP
• Workloads que precisam de mais de 5TB de
armazenamento
Elasticsearch + Logstash + Kibana =
real-time analytics & visualization

Construa visualizações
Performance para processamento ad-hoc
Compartilhamento de dasboards(storyboards)
Acesso nativo com as principais
plataformas mobile
Amazon QuickSight

Introdução Amazon QuickSight
Serviço em Cloud de Business Intelligence com 1/10th
do custo de um software de BI tradicional
 Sem esforço de TI. Sem modelagem dimensional
 Auto-discovery de fonte de dados (AWS)
 Rapido, processamento paralelo, Calculos em
memória
 100% gerenciado
Available in Preview
aws.amazon.com/quicksight

Aumente ou diminua conforme
necessidade.
Pague somente pelo que usar.
Multipla opções.
Construa sua própria aplicação big
data.
Amazon EC2

Abordagem AWS
• Flexivel. Use a melhor ferramenta para cada tarefa
• Estrutura de dados, latência, alta capacidade de rede, padrões
de acesso.
• Escalável. Imutável (Tarefa única)
• Execuções Batch/velocidade (Camadas)
• Mínimo de administração. Serviços AWS gerenciados
• Sem ou com administração mínima
• Baixo custo. Big data ≠ big cost

Scenario 1: Enterprise Data Warehouse
Scenario 2: Capture e analise dados de sensores
Scenario 3: Análise de sentimento de rede social
Big Data
Cenários

Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data
Sources
Amazon
S3
Amazon
EMR
Amazon
S3
Amazon
Redshift
Amazon
QuickSight

Cenário 2: Capture e analise dados de sensores
Data
Sources
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
Amazon
Kinesis
Enabled
App
Amazon
Kinesis
Enabled
App
Amazon
DynamoDB
Reposting
Dashboard
Customer
Access
Amazon
Kinesis
1
2 3 4 5
6 7 8 9

Cenário 3: Análise de sentimento Rede social
Social
Media Data
Amazon
EC2
Amazon
Lambda
Amazon
ML
Amazon
Kinesis
Amazon
S3
Amazon
SNS
1 2 4 5 6
3 7

Próximos passos
• Assine o feed do AWS Big Data Blog
blogs.aws.amazon.com/bigdata
• Leia mais sobre o assunto, tutoriais, guias e laboratórios
aws.amazon.com/big-data
• Registre-se para os próximos Webinars
aws.amazon.com/about-aws/events/monthlywebinarseries

Webinar: Introdução a Big data

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Webinar: Introdução a Big data

Mais de Amazon Web Services LATAM

Webinar: Introdução a Big data

Notas do Editor