© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thiago Paulino, Solutions Architect
03 Março, 2016
Introdução a Big Data
Opções de analytics na AWS & Casos de uso
Conteúdo
• Introdução de Big Data em AWS
• Big Data Analytics Opções na AWS
• Padrões de uso e anti-padrões
• Performance & Custos
• Durabilidade & Escalabilidade
• Interfaces
• Construindo soluções Big Data – Abordagem AWS
• Cenários de exemplo
Big Data na AWS
Disponibilidade Imediata. Deploy instantâneo. Sem compra de
hardware, sem infra-estrutura para manter e escalar.
Seguro e confiável. Desenhado para atender requisitos rigorosos
de segurança. Auditoria continua, incluindo certificações : ISO
27001, FedRAMP, DoD CSM, and PCI DSS.
Capilaridade de serviços. Mais de 50 serviços e centenas de
funcionalidades para suportar virtualmente qualquer workload de
big data.
Centenas de parceiros e soluções. Obtenha ajuda de nossos
parceiros de consultoria ou escolha entre centenas de
ferramentas em nosso marktplace
Real-time
Amazon Kinesis Firehose
Object Storage
Amazon S3
RDBMS
Amazon RDS
NoSQL
DynamoDB
Hadoop Ecosystem
Amazon EMR
Real-time
AWS Lambda
Amazon Kinesis Analytics
Data Warehousing
Amazon Redshift
Machine Learning
Amazon Machine
Learning
Business Intelligence &
Data Visualization
Amazon QuickSight
Real-time
Amazon Kinesis Streams
Elastic Search Analytics
Amazon ElasticSearch
Coleta Armazenamento Análise &
Processamento
Visualização
Data Import
Amazon Import/Export
Snowball
IoT
Amazon IoT
Ampla capacidade e integração
Petabyte (capacidade)
Processamento paralelo
Relacional data warehouse
Gerenciado, zero admin
Menos de $1,000/TB/Year
Rápido
Barato
Simples
Amazon Redshift
Amazon Redshift
• Padrões de uso
• Dados de vendas
• Dado históricos
• Dados de jogos
• Dados de redes sociais
• Dados de campanha de publicidade
• Performance
• Processamento paralelo massivo
• Armazenamento colunar
• Compressão de dados
• Mapeamento
• Discos diretamente conectados
• Modelo de custo
• Sem investimento inicial ou contratos
• Backup gratuíto (storage equivalente a 100% do
storage provisionado)
Com armazenamento colunar,
você acessa apenas o dado
que você precisa.
Amazon Redshift
• Escalabilidade & Elasticidade
• Aumentar ou Diminuir - Número ou tipo de
node com alguns clicks
• Durabilidade e disponibilidade
• Replicação
• Backup
• Automated recovery para falhas de discos &
nodes
• Interfaces
• JDBC/ODBC interface com ferramentas de
BI/ETL
• Amazon S3 ou DynamoDB
• Anti-padrões
• Pequenos datasets
• OLTP
• Dados não estruturados
• Blob Data
10 GigE
(HPC)
Ingestion
Backup
Restore
JDBC/ODBC
streaming de dados
Processamento em tempo real
Armazene terabytes de dados
por hora
Amazon Kinesis
Amazon Kinesis Streams
• Padrões de uso – Streaming de
dados, ingestão e processamento
• Data analytics em tempo real
• Ingestão de dados e processamento ex.
logs
• Métricas e reports em tempo real
• Performance
• Throughput baseado em shards
• Modelo de custo
• Sem investimento inicial ou contratos
• Pague pelo que usar
• Custo hora por shard
• Cobrança por 1 million de transações
PUT
Amazon Kinesis Streams
• Escalabilidade e Elasticidade
• Aumente o número de shards
• Durabilidade e Disponibilidade
• Replicação
• Cursor preservation
• Interfaces
• Input – data in
• Output – data out
• Kinesis Firehose
• Anti-padrões
• Pequenas taxas de transferência
• Armazenamento de longo prazo
Inicie cluster em minutos
Pague por hora e economize com
instâncias spot
MapReduce, Apache Spark, Presto
Amazon EMR
Amazon EMR
• Padrões de uso
• Processamento de log and analytics
• Grande ETL e movimentacao de dados
• Risk modeling and threat analytics
• Sucesso de publicidade and click stream
analytics
• Genoma
• Análise preditiva
• Ad-hoc data mining and analytics
• Performance
• Tipo de instância
• Número de instâncias
• Cost model
• Pague pelas horas de execução
• EC2 instance e EMR
Amazon EMR
• Escalabilidade e Elasticidade
• Resize de cluster
• Adicione instâncias core ou task
• Durabilidade e Disponibilidade
• Tolerância a falha slave node (HDFS)
• Backup com S3 para resiliência do master
node
• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk,
Presto, etc..
• Anti-padrões
• Pequenos data sets
• ACID (Atomicity, Consistency, Isolation and
Durability)
NoSQL database totalmente
gerenciado
Um dígito de Millisecond de latência
para escalar
Suporte a documento e chave-valor
Amazon
DynamoDB
Amazon DynamoDB
• Padrões de uso
• Mobile apps, jogos, digital ad serving, votaçao
em tempo real, rede de sensores, ingestão de
logs
• Controle de acesso a conteudo web, carrinho
de compras para e-commerce
• Gerenciamento de sessões web
• Performance
• SSD
• Provisione throughput por tabela
• Escalabilidade e Elasticidade
• Sem limite de dados armazenados
• Aumentar ou diminuir a capacidade de leitura e
escrita por tabela
• Modelo de custo
• Pague pelo que usar
• Provisione throughput (por hora)
• Indexe dados armazenados (por GB por mês)
• Data transfer in or out (por GB por mês)
 Provisioned read/write performance per table.
 Predictable high performance scaled via console or API
Amazon DynamoDB
• Durabilidade e Disponibilidade
• Três Availability Zones (AZ)
• Interfaces
• AWS Console
• API’s
• SDK’s
• Anti-padrões
• Applicação de bancos de dados relacional
• Joins e/ou transações complexas
• BLOB data
• Muitos dados com pouco I/O
AZ-A
AZ-B
AZ-C
Serviço gerenciado projetado para tornar
mais fácil para os desenvolvedores o uso de
machine learning
Baseado na mesma tecnologia ML usado há
anos por cientistas de dados internos da
Amazon
Amazon Machine Learning é altamente
escalavel e utiliza padrões de ML. (Análise
preditiva)
Amazon
Machine Learning
Amazon Machine Learning
• Padrões de uso
• Alertas de transações suspeitas
• Personalize application content
• Predição de atividade do usuário
• Analise rede social
• Modelo de custo
• Pague pelo que usar
• Sem gerenciamento de instâncias, apenas
serviço
• Performance
• Predições em tempo real Real-time
predictions projetado para responder em
pelo menos 100ms
• 200 transações por segundo
Amazon Machine Learning
• Durabilidade e Disponibilidade
• Sem janela de manutençao
• Desenhado para multiplas AZ’s
• Escalabilidade e Elasticidade
• Modelo de treino de ate100GB
• Multiplo jobs simultâneos
• Interfaces
• Origem de dados a partir do S3, RDS e
Redshift
• Intereção ML via console, SDKs, e ML
API
• Anti-padrões
• Grandes Data Sets > 100GB
• Sequência de predição ou tasks não
supervisionada
Orientado a eventos,
computaçao 100% gerenciada
Sem gestão de infra-estrutura
Escalabilidade automática
AWS Lambda
AWS Lambda
• Padrões de uso
• Procesamento de arquivos em tempo real
• Extract, Transform, Load (ETL)
• Performance
• Processamento de eventos em milliseconds
• Modelos de custo
• Pague pelo que usar
• Sem gerênciamento de instâncias, pague
apenas pelo serviço
• Lambda free tier incluí 1Milhão de
requisições gratuitas
AWS Lambda
• Durabilidade e Disponibilidade
• Sem janelas de manutenção ou
downtime agendado
• Funções Async são executadas até 3
times caso falhem
• Escalabilidade e Elasticidade
• Alta concorrência de execuções
simultânea
• AWS Lambda Aloca dinamicamente
capacidade para executar os eventos.
• Interfaces
• Lambda suportas Java, Node.js, e
Python
• Execução por evento ou agendas
• Anti-padrões
• Execuções longas de aplicações
• Aplicações Stateful no Lambda
Instale um cluster de Elasticsearch em
minutos
Integrado com Logstash and Kibana
Escale o seu cluster Elasticsearch
perfeitamente
Amazon
Elasticsearch
Service
Amazon Elasticsearch
• Padrões de uso
• Análise de logs
• Análise de stream de dados e/ou updates de
outros serviços AWS
• Prover uma busca rica e uma boa experiência de
uso/navegação
• Monitorar o uso de aplicações mobile
• Performance
• Depende de multiplos fatores, incluindo tipo de
instância, workload, index, número de shards no
cluster, replicas de leitura
• Configurações de disco – instance storage ou EBS
storage
• Modelos de custo
• Pague pelo que usar
• Pague somente pela instância de elasticsearch e
disco utilizado
Amazon Elasticsearch
• Durabilidade e Disponibilidade
• Zone Awareness
• Snapshots automático e manual.
• Escalabilidade e Elasticidade
• Adicione e remova instâncias
• Altere os volumes EBS conforme
crescimento
• Interfaces
• AWS Console
• API’s
• SDK’s
• Kibana and Logstash (ELK Stack)
• Anti-padrões
• OLTP
• Workloads que precisam de mais de 5TB de
armazenamento
Elasticsearch + Logstash + Kibana =
real-time analytics & visualization
Construa visualizações
Performance para processamento ad-hoc
Compartilhamento de dasboards(storyboards)
Acesso nativo com as principais
plataformas mobile
Amazon QuickSight
Introdução Amazon QuickSight
Serviço em Cloud de Business Intelligence com 1/10th
do custo de um software de BI tradicional
 Sem esforço de TI. Sem modelagem dimensional
 Auto-discovery de fonte de dados (AWS)
 Rapido, processamento paralelo, Calculos em
memória
 100% gerenciado
Available in Preview
aws.amazon.com/quicksight
Aumente ou diminua conforme
necessidade.
Pague somente pelo que usar.
Multipla opções.
Construa sua própria aplicação big
data.
Amazon EC2
Abordagem AWS
• Flexivel. Use a melhor ferramenta para cada tarefa
• Estrutura de dados, latência, alta capacidade de rede, padrões
de acesso.
• Escalável. Imutável (Tarefa única)
• Execuções Batch/velocidade (Camadas)
• Mínimo de administração. Serviços AWS gerenciados
• Sem ou com administração mínima
• Baixo custo. Big data ≠ big cost
Scenario 1: Enterprise Data Warehouse
Scenario 2: Capture e analise dados de sensores
Scenario 3: Análise de sentimento de rede social
Big Data
Cenários
Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data
Sources
Amazon
S3
Amazon
EMR
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
Cenário 2: Capture e analise dados de sensores
Data
Sources
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
Amazon
Kinesis
Enabled
App
Amazon
Kinesis
Enabled
App
Amazon
DynamoDB
Reposting
Dashboard
Customer
Access
Amazon
Kinesis
1
2 3 4 5
6 7 8 9
Cenário 3: Análise de sentimento Rede social
Social
Media Data
Amazon
EC2
Amazon
Lambda
Amazon
ML
Amazon
Kinesis
Amazon
S3
Amazon
SNS
1 2 4 5 6
3 7
Próximos passos
• Assine o feed do AWS Big Data Blog
blogs.aws.amazon.com/bigdata
• Leia mais sobre o assunto, tutoriais, guias e laboratórios
aws.amazon.com/big-data
• Registre-se para os próximos Webinars
aws.amazon.com/about-aws/events/monthlywebinarseries

Webinar: Introdução a Big data

  • 1.
    © 2015, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Thiago Paulino, Solutions Architect 03 Março, 2016 Introdução a Big Data Opções de analytics na AWS & Casos de uso
  • 2.
    Conteúdo • Introdução deBig Data em AWS • Big Data Analytics Opções na AWS • Padrões de uso e anti-padrões • Performance & Custos • Durabilidade & Escalabilidade • Interfaces • Construindo soluções Big Data – Abordagem AWS • Cenários de exemplo
  • 3.
    Big Data naAWS Disponibilidade Imediata. Deploy instantâneo. Sem compra de hardware, sem infra-estrutura para manter e escalar. Seguro e confiável. Desenhado para atender requisitos rigorosos de segurança. Auditoria continua, incluindo certificações : ISO 27001, FedRAMP, DoD CSM, and PCI DSS. Capilaridade de serviços. Mais de 50 serviços e centenas de funcionalidades para suportar virtualmente qualquer workload de big data. Centenas de parceiros e soluções. Obtenha ajuda de nossos parceiros de consultoria ou escolha entre centenas de ferramentas em nosso marktplace
  • 4.
    Real-time Amazon Kinesis Firehose ObjectStorage Amazon S3 RDBMS Amazon RDS NoSQL DynamoDB Hadoop Ecosystem Amazon EMR Real-time AWS Lambda Amazon Kinesis Analytics Data Warehousing Amazon Redshift Machine Learning Amazon Machine Learning Business Intelligence & Data Visualization Amazon QuickSight Real-time Amazon Kinesis Streams Elastic Search Analytics Amazon ElasticSearch Coleta Armazenamento Análise & Processamento Visualização Data Import Amazon Import/Export Snowball IoT Amazon IoT Ampla capacidade e integração
  • 5.
    Petabyte (capacidade) Processamento paralelo Relacionaldata warehouse Gerenciado, zero admin Menos de $1,000/TB/Year Rápido Barato Simples Amazon Redshift
  • 6.
    Amazon Redshift • Padrõesde uso • Dados de vendas • Dado históricos • Dados de jogos • Dados de redes sociais • Dados de campanha de publicidade • Performance • Processamento paralelo massivo • Armazenamento colunar • Compressão de dados • Mapeamento • Discos diretamente conectados • Modelo de custo • Sem investimento inicial ou contratos • Backup gratuíto (storage equivalente a 100% do storage provisionado) Com armazenamento colunar, você acessa apenas o dado que você precisa.
  • 7.
    Amazon Redshift • Escalabilidade& Elasticidade • Aumentar ou Diminuir - Número ou tipo de node com alguns clicks • Durabilidade e disponibilidade • Replicação • Backup • Automated recovery para falhas de discos & nodes • Interfaces • JDBC/ODBC interface com ferramentas de BI/ETL • Amazon S3 ou DynamoDB • Anti-padrões • Pequenos datasets • OLTP • Dados não estruturados • Blob Data 10 GigE (HPC) Ingestion Backup Restore JDBC/ODBC
  • 8.
    streaming de dados Processamentoem tempo real Armazene terabytes de dados por hora Amazon Kinesis
  • 9.
    Amazon Kinesis Streams •Padrões de uso – Streaming de dados, ingestão e processamento • Data analytics em tempo real • Ingestão de dados e processamento ex. logs • Métricas e reports em tempo real • Performance • Throughput baseado em shards • Modelo de custo • Sem investimento inicial ou contratos • Pague pelo que usar • Custo hora por shard • Cobrança por 1 million de transações PUT
  • 10.
    Amazon Kinesis Streams •Escalabilidade e Elasticidade • Aumente o número de shards • Durabilidade e Disponibilidade • Replicação • Cursor preservation • Interfaces • Input – data in • Output – data out • Kinesis Firehose • Anti-padrões • Pequenas taxas de transferência • Armazenamento de longo prazo
  • 11.
    Inicie cluster emminutos Pague por hora e economize com instâncias spot MapReduce, Apache Spark, Presto Amazon EMR
  • 12.
    Amazon EMR • Padrõesde uso • Processamento de log and analytics • Grande ETL e movimentacao de dados • Risk modeling and threat analytics • Sucesso de publicidade and click stream analytics • Genoma • Análise preditiva • Ad-hoc data mining and analytics • Performance • Tipo de instância • Número de instâncias • Cost model • Pague pelas horas de execução • EC2 instance e EMR
  • 13.
    Amazon EMR • Escalabilidadee Elasticidade • Resize de cluster • Adicione instâncias core ou task • Durabilidade e Disponibilidade • Tolerância a falha slave node (HDFS) • Backup com S3 para resiliência do master node • Interfaces • Hive, Pig, Spark, Hbase, Impala, Hunk, Presto, etc.. • Anti-padrões • Pequenos data sets • ACID (Atomicity, Consistency, Isolation and Durability)
  • 14.
    NoSQL database totalmente gerenciado Umdígito de Millisecond de latência para escalar Suporte a documento e chave-valor Amazon DynamoDB
  • 15.
    Amazon DynamoDB • Padrõesde uso • Mobile apps, jogos, digital ad serving, votaçao em tempo real, rede de sensores, ingestão de logs • Controle de acesso a conteudo web, carrinho de compras para e-commerce • Gerenciamento de sessões web • Performance • SSD • Provisione throughput por tabela • Escalabilidade e Elasticidade • Sem limite de dados armazenados • Aumentar ou diminuir a capacidade de leitura e escrita por tabela • Modelo de custo • Pague pelo que usar • Provisione throughput (por hora) • Indexe dados armazenados (por GB por mês) • Data transfer in or out (por GB por mês)  Provisioned read/write performance per table.  Predictable high performance scaled via console or API
  • 16.
    Amazon DynamoDB • Durabilidadee Disponibilidade • Três Availability Zones (AZ) • Interfaces • AWS Console • API’s • SDK’s • Anti-padrões • Applicação de bancos de dados relacional • Joins e/ou transações complexas • BLOB data • Muitos dados com pouco I/O AZ-A AZ-B AZ-C
  • 17.
    Serviço gerenciado projetadopara tornar mais fácil para os desenvolvedores o uso de machine learning Baseado na mesma tecnologia ML usado há anos por cientistas de dados internos da Amazon Amazon Machine Learning é altamente escalavel e utiliza padrões de ML. (Análise preditiva) Amazon Machine Learning
  • 18.
    Amazon Machine Learning •Padrões de uso • Alertas de transações suspeitas • Personalize application content • Predição de atividade do usuário • Analise rede social • Modelo de custo • Pague pelo que usar • Sem gerenciamento de instâncias, apenas serviço • Performance • Predições em tempo real Real-time predictions projetado para responder em pelo menos 100ms • 200 transações por segundo
  • 19.
    Amazon Machine Learning •Durabilidade e Disponibilidade • Sem janela de manutençao • Desenhado para multiplas AZ’s • Escalabilidade e Elasticidade • Modelo de treino de ate100GB • Multiplo jobs simultâneos • Interfaces • Origem de dados a partir do S3, RDS e Redshift • Intereção ML via console, SDKs, e ML API • Anti-padrões • Grandes Data Sets > 100GB • Sequência de predição ou tasks não supervisionada
  • 20.
    Orientado a eventos, computaçao100% gerenciada Sem gestão de infra-estrutura Escalabilidade automática AWS Lambda
  • 21.
    AWS Lambda • Padrõesde uso • Procesamento de arquivos em tempo real • Extract, Transform, Load (ETL) • Performance • Processamento de eventos em milliseconds • Modelos de custo • Pague pelo que usar • Sem gerênciamento de instâncias, pague apenas pelo serviço • Lambda free tier incluí 1Milhão de requisições gratuitas
  • 22.
    AWS Lambda • Durabilidadee Disponibilidade • Sem janelas de manutenção ou downtime agendado • Funções Async são executadas até 3 times caso falhem • Escalabilidade e Elasticidade • Alta concorrência de execuções simultânea • AWS Lambda Aloca dinamicamente capacidade para executar os eventos. • Interfaces • Lambda suportas Java, Node.js, e Python • Execução por evento ou agendas • Anti-padrões • Execuções longas de aplicações • Aplicações Stateful no Lambda
  • 23.
    Instale um clusterde Elasticsearch em minutos Integrado com Logstash and Kibana Escale o seu cluster Elasticsearch perfeitamente Amazon Elasticsearch Service
  • 24.
    Amazon Elasticsearch • Padrõesde uso • Análise de logs • Análise de stream de dados e/ou updates de outros serviços AWS • Prover uma busca rica e uma boa experiência de uso/navegação • Monitorar o uso de aplicações mobile • Performance • Depende de multiplos fatores, incluindo tipo de instância, workload, index, número de shards no cluster, replicas de leitura • Configurações de disco – instance storage ou EBS storage • Modelos de custo • Pague pelo que usar • Pague somente pela instância de elasticsearch e disco utilizado
  • 25.
    Amazon Elasticsearch • Durabilidadee Disponibilidade • Zone Awareness • Snapshots automático e manual. • Escalabilidade e Elasticidade • Adicione e remova instâncias • Altere os volumes EBS conforme crescimento • Interfaces • AWS Console • API’s • SDK’s • Kibana and Logstash (ELK Stack) • Anti-padrões • OLTP • Workloads que precisam de mais de 5TB de armazenamento Elasticsearch + Logstash + Kibana = real-time analytics & visualization
  • 26.
    Construa visualizações Performance paraprocessamento ad-hoc Compartilhamento de dasboards(storyboards) Acesso nativo com as principais plataformas mobile Amazon QuickSight
  • 27.
    Introdução Amazon QuickSight Serviçoem Cloud de Business Intelligence com 1/10th do custo de um software de BI tradicional  Sem esforço de TI. Sem modelagem dimensional  Auto-discovery de fonte de dados (AWS)  Rapido, processamento paralelo, Calculos em memória  100% gerenciado Available in Preview aws.amazon.com/quicksight
  • 28.
    Aumente ou diminuaconforme necessidade. Pague somente pelo que usar. Multipla opções. Construa sua própria aplicação big data. Amazon EC2
  • 29.
    Abordagem AWS • Flexivel.Use a melhor ferramenta para cada tarefa • Estrutura de dados, latência, alta capacidade de rede, padrões de acesso. • Escalável. Imutável (Tarefa única) • Execuções Batch/velocidade (Camadas) • Mínimo de administração. Serviços AWS gerenciados • Sem ou com administração mínima • Baixo custo. Big data ≠ big cost
  • 30.
    Scenario 1: EnterpriseData Warehouse Scenario 2: Capture e analise dados de sensores Scenario 3: Análise de sentimento de rede social Big Data Cenários
  • 31.
    Cenário 1: EnterpriseData Warehouse Data Warehouse Architecture Data Sources Amazon S3 Amazon EMR Amazon S3 Amazon Redshift Amazon QuickSight
  • 32.
    Cenário 2: Capturee analise dados de sensores Data Sources Amazon S3 Amazon Redshift Amazon QuickSight Amazon Kinesis Enabled App Amazon Kinesis Enabled App Amazon DynamoDB Reposting Dashboard Customer Access Amazon Kinesis 1 2 3 4 5 6 7 8 9
  • 33.
    Cenário 3: Análisede sentimento Rede social Social Media Data Amazon EC2 Amazon Lambda Amazon ML Amazon Kinesis Amazon S3 Amazon SNS 1 2 4 5 6 3 7
  • 34.
    Próximos passos • Assineo feed do AWS Big Data Blog blogs.aws.amazon.com/bigdata • Leia mais sobre o assunto, tutoriais, guias e laboratórios aws.amazon.com/big-data • Registre-se para os próximos Webinars aws.amazon.com/about-aws/events/monthlywebinarseries

Notas do Editor

  • #4 Follow Up Email
  • #9 Amazon https://www.youtube.com/watch?v=P4KPPvEb_QI Generates weblogs @ 2TB/day, growing 67% YoY Oracle RAC legacy system Scan rate: 1 week of data/hour Hit RAC node limit of 32 nodes More data => Slower queries Migrated to Redshift Scan rate: 15 months of data (2.25 trillion rows) in 14 min Scaled to a 101 node DS1.8XL cluster – Petabytes More than 10X performance 21B rows joined with 10B rows in under 2 hours from days security, HasOffers loads 60M rows per day in 2 min intervals, Desk: high concurrency user facing portal (read/write cluster), Amazon.com/NTT PB scale. Pinterest saw 50-100x speed ups when moved 300TB from Hadoop to Redshift. Nokia saw 50% reduction in costs. https://www.youtube.com/watch?v=O4wAH5FQjS8
  • #12 30 Million Ad opportunities per month.
  • #15 Yelp uses Amazon S3 to store daily logs and photos, generating around 1.2TB of logs per day. The company also uses Amazon EMR to power approximately 20 separate batch scripts, most of those processing the logs. Features powered by Amazon Elastic MapReduce include: Yelp developers advise others working with AWS to use the boto API as well as mrjob to ensure full utilization of Amazon Elastic MapReduce job flows. Yelp runs approximately 250 Amazon Elastic MapReduce jobs per day, processing 30TB of data and is grateful for AWS Support that helped with their Hadoop application development.
  • #18 Dropcam - Dropcam runs video streaming and storage servers on Amazon EC2 and Amazon S3, and uses Amazon DynamoDB to scale and maintain throughput. “DynamoDB grows with the number of cameras that are connected to the service,” says Nelson. “Throughput is very steady as cameras come online. By using DynamoDB, we reduced delivery time for video events to less than 50 milliseconds,” says Nelson.
  • #20 Dropcam - Dropcam runs video streaming and storage servers on Amazon EC2 and Amazon S3, and uses Amazon DynamoDB to scale and maintain throughput. “DynamoDB grows with the number of cameras that are connected to the service,” says Nelson. “Throughput is very steady as cameras come online. By using DynamoDB, we reduced delivery time for video events to less than 50 milliseconds,” says Nelson.
  • #23 Build Fax - Uses Amazon Machine Learning to provide roof-age and job-cost estimations for insurers and builders, with property-specific values that don’t need to rely on broad, ZIP code-level estimates. Models that previously took six months or longer to create are now complete in four weeks or less. Creates opportunities for new data analytics services that BuildFax can offer to customers, such as text analysis in Amazon ML to estimate job costs with 80 percent accuracy.
  • #26 VidRoll - AWS Lambda enables NoOps, allowing us to start and stay at scale without having to worry about infrastructure. As an exponential organization, it is critical that our developers focus on innovation. Lambda frees us from ever having to code for issues like concurrency, distributed file systems and other ‘success problems’ that typically present themselves when systems need to scale. We save time and money with Lambda.
  • #27 Amazon Elasticsearch service allows you to easily and securely deploy and scale an ELK stack in minutes. Integration with Logstash is tightly coupled and a Kibana instance is automatically configured for you. The service automatically detects and replaces failed Elasticsearch nodes, reducing the overhead associated with self-managed infrastructure and Elasticsearch software.
  • #29 https://aws.amazon.com/solutions/case-studies/major-league-baseball-mlbam/ Major League Baseball Advanced Media, L.P, which operates MLB.com, uses Elasticsearch extensively on its advanced game day statistics application. “Elasticsearch allows us to easily and quickly build bleeding edge big data and analytics applications using the ELK stack.” said Sean Curtis, Architect at MLB.com. “By offering direct access to the Elasticsearch API while offloading administrative tasks, Amazon Swift gives us the manageability, flexibility and control we need.”
  • #33 Before we go into solving the Big architecture, I want to introduce some “tried and test” architecture principles. Here at AWS we believe you should be using the right tool for the job – “instead of using a big swiss army knife for using a screw dreive, it will be best to use a screw drive - this is especially important for big data architectures. We’ll talk about this more. Decoupled architecture http://whatis.techtarget.com/definition/decoupled-architecture - In general, a decoupled architecture is a framework for complex work that allows components to remain completely autonomous and unaware of each other…this has been tried and battle test. Managed services – this is relatively now - Should I install Cassandra or MongoDB or CouchDB on AWS. You obviously can. Sometimes there are good reasons for doing this. Many customers still do this. Netflix is a great example. They run a multi-region Cassandra and are a poster child for how to do this. But for most customers, delegating this task to AWS makes more sense….you are better of spending your time on building features for your customers rather than building highly scalable distributed systems. Lambda Architecture -