Seu primeiro aplicativo de Big Data

•

5 gostaram•5,870 visualizações

Este documento apresenta uma solução de big data utilizando vários serviços da AWS, como Kinesis, EMR, Redshift e Quicksight. A solução coleta dados de várias fontes, os processa utilizando Spark no EMR, armazena os resultados no S3 e carrega no data warehouse Redshift para análises. O caso de uso apresentado é a análise de malha aérea para uma empresa de transporte aéreo.

Tecnologia

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Alex Coqueiro
Gerente de Arquitetura para o Setor Público
Amazon Web Services
Junho, 2016
Seu Primeiro Aplicativo
de Big Data
@alexbcbr
Luis Guerrero
Gerente de Engenharia
Viva Real
#AWSSummit
#bigdata

Complexidade em função de uma grande variedade
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra Amazon
CloudSearch
Amazon
Machine
Learning
Amazon
QuickSightAmazon
ElasticSearch

Ingestão Processamento Análise
Armazenamento
Dados
Respostas

Ingestão
InformaçõesTransacionais
Processamento
Armazenamento Análise Visualização
Caso de Uso – Análise de Malha Aérea

Tipos de dados para a ingestão
Transacionais
• RDBMS
Arquivos
• Click-stream logs
• Texto livre
Stream
• IoT devices
• Tweets
Database
Cloud
Storage
Stream
Storage

Amazon Kinesis Firehose
Criaremos um stream com o Amazon Kinesis Firehose, para
os dados que serão coletados dos sistemas de origem
aws firehose create-delivery-stream
--delivery-stream-name STREAM-NAME
--s3-destination-configuration config.json
--region us-east-1

Ingestão de dados no Kinesis Firehose
Faremos uma ingestão baseado em dados que estão sendo
coletados de um sistema transacional
aws firehose put-record
--delivery-stream-name STREAM-NAME
--record Data=”JOAO DA SILVA,CLE,MCO,14”

AMAZON ELASTIC MAP
REDUCE
HADOOP AS A SERVICE

Amazon EMR
Lançaremos um cluster de 3 nós em Amazon EMR com
Spark:
m3.xlarge
YOUR-AWS-SSH-KEY

Spark
• Motor para processamento de
dados em larga escala
• Suporte a aplicações escritas
em Java, Scala, Python ou R
• Combina SQL, streaming e
análises complexas

Desenvolvendo Spark/Python no Amazon EMR
## Interagindo com serviços como Amazon S3 via API (boto) ##
BUCKET-NAME
## Criando contexto no SPARK ##
PYTHON-APP

Desenvolvendo Spark/Python no Amazon EMR
## Processamento da Lógica de Negócio ##
BUCKET_NAME
## Gravando resultados processados no S3 em formato compactado ##
BUCKET_NAME

Lançar Apps no Cluster Spark do Amazon EMR
Usamos SSH para conectar no cluster:
ssh -o TCPKeepAlive=yes -o ServerAliveInterval=30
-L 8001:localhost:18080
YOUR-AWS-SSH-KEY hadoop@YOUR-EMR-HOSTNAME
Iniciando o Spark shell:
spark-submit --master yarn-client PYTHON-APP.py

Ingestão Processamento Análise
Armazenamento
Dados
Respostas
SQL

AMAZON
REDSHIFT
PETA-BYTE SCALE DATAWAREHOUSE

Amazon Redshift

CHOOSE-A-REDSHIFT-PASSWORD

Carregar os dados no Amazon Redshift
Comando “COPY” carrega dados em paralelo
COPY voos
FROM 's3://YOUR-S3-BUCKET/voos-log-processado'
CREDENTIALS
'aws_access_key_id=YOUR-IAM-ACCESS_KEY;
aws_secret_access_key=YOUR-IAM-SECRET-KEY'
DELIMITER ’,' IGNOREHEADER 0, REMOVEQUOTES,
MAXERROR 0
GZIP;

Conectando no Amazon Redshift
# usando o PostgreSQL CLI
YOUR-REDSHIFT-ENDPOINT
Ou usando uma ferramenta JDBC ou ODBC SQL client com
suporte a drivers em PostgreSQL 8.x ou nativamente com
suporte ao Amazon Redshift
• Aginity Workbench for Amazon Redshift
• SQL Workbench/J
• DBVisualizer

Queries no Amazon Redshift
-- Número de registros
-- Quem transporta mais passageiros ?
-- Quem transporta mais passageiros com milhas ?

AMAZON
QUICKSIGHT
CLOUD-POWERED BUSINESS INTELLIGENCE

Amazon
Kinesis
InformaçõesTransacionais
Amazon
EMR
Amazon S3
Amazon
Redshift
Amazon
Quicksight
O que vimos …
Map Reduce
Parallel
Copy
SQL Query

Experiência da Viva Real
Luis Guerrero
Gerente de Engenharia
©2016, Amazon Web Services, Inc. or its affiliates. All rights reserved

Aprenda mais AWS big data com
nossos especialistas
blogs.aws.amazon.com/bigdata

Muito Obrigado
Alex Coqueiro
Gerente de Arquitetura para o Setor Público
@alexbcbr#bigdata #AWSSummit

Mais conteúdo relacionado

Mais procurados

Introduçao à Internet das Coisas com AWS IoT Amazon Web Services LATAM

Tendências de Big DataAmazon Web Services LATAM

Building blocks #4 - Rede de entrega de conteúdo (CDN) na AWSAmazon Web Services LATAM

Fazendo seu DR na AWS de maneira práticaAmazon Web Services LATAM

Deep dive com Amazon AuroraAmazon Web Services LATAM

Armazenamento para uma estratégia híbridaAmazon Web Services LATAM

Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM

Raising the bar #2 - Explorando o poder do banco de dados com Amazon AuroraAmazon Web Services LATAM

Building blocks #1 - Primeiros passos na Amazon Web ServicesAmazon Web Services LATAM

Fazendo seu DR na AWSAmazon Web Services LATAM

Construindo seu Data Lake na AWSAmazon Web Services LATAM

Iniciando com Amazon AuroraAmazon Web Services LATAM

Arquitetura Serverless e AWS Lambda - Demo SessionAmazon Web Services LATAM

Rodando SAP na AWSAmazon Web Services LATAM

Escalando para os primeiros 10 milhoes de usuariosAmazon Web Services LATAM

Path to the Future #1 - Tendências de Big DataAmazon Web Services LATAM

Migrando seu workload de Big Data para o Amazon EMRAmazon Web Services LATAM

Infraestrutura como códigoAmazon Web Services LATAM

Blue Green Deployments com Elastic Beanstalk - Demo SessionAmazon Web Services LATAM

Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...Amazon Web Services LATAM

Mais procurados (20)

Introduçao à Internet das Coisas com AWS IoT

Tendências de Big Data

Building blocks #4 - Rede de entrega de conteúdo (CDN) na AWS

Fazendo seu DR na AWS de maneira prática

Deep dive com Amazon Aurora

Armazenamento para uma estratégia híbrida

Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift

Raising the bar #2 - Explorando o poder do banco de dados com Amazon Aurora

Building blocks #1 - Primeiros passos na Amazon Web Services

Fazendo seu DR na AWS

Construindo seu Data Lake na AWS

Iniciando com Amazon Aurora

Arquitetura Serverless e AWS Lambda - Demo Session

Rodando SAP na AWS

Escalando para os primeiros 10 milhoes de usuarios

Path to the Future #1 - Tendências de Big Data

Migrando seu workload de Big Data para o Amazon EMR

Infraestrutura como código

Blue Green Deployments com Elastic Beanstalk - Demo Session

Usando Amazon CloudFront para aumentar performance, disponibilidade e cache n...

Semelhante a Seu primeiro aplicativo de Big Data

Como construir sua primeira aplicação de Big Data na AWSAmazon Web Services LATAM

Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM

Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Amazon Web Services LATAM

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services

Passo a passo para criar seu desktop virtual na nuvemAmazon Web Services LATAM

Construindo Data Lakes e Analytics na AWSAmazon Web Services LATAM

Twelve-Factor serverless applications - MAD302 - São Paulo AWS SummitAmazon Web Services

Escalabilidade para sua solução na Nuvem da AWS de um para centenas de milhõe...Amazon Web Services LATAM

Visualizando dados de Big Data com Amazon QuickSightAmazon Web Services LATAM

Performing real-time ETL into data lakes - ADB202 - São Paulo AWS SummitAmazon Web Services

Primeira aplicacao big dataAmazon Web Services LATAM

AWS storage solutions The right tool for the right job, plus new features - S...Amazon Web Services

AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM

Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...Amazon Web Services

Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Amazon Web Services LATAM

Aws summit arquitetura big data-v1.2Amazon Web Services LATAM

Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services

Escalando com segurança na AWSAmazon Web Services LATAM

Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM

Semelhante a Seu primeiro aplicativo de Big Data (20)

Como construir sua primeira aplicação de Big Data na AWS

Construindo um Data Warehouse moderno com Amazon Redshift

Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit

Passo a passo para criar seu desktop virtual na nuvem

Construindo Data Lakes e Analytics na AWS

Twelve-Factor serverless applications - MAD302 - São Paulo AWS Summit

Escalabilidade para sua solução na Nuvem da AWS de um para centenas de milhõe...

Visualizando dados de Big Data com Amazon QuickSight

Performing real-time ETL into data lakes - ADB202 - São Paulo AWS Summit

Primeira aplicacao big data

AWS storage solutions The right tool for the right job, plus new features - S...

AWS para terceiro setor - Sessão 1 - Introdução à nuvem

Sessão Avançada: Armazenamento Híbrido na Nuvem com AWS Storage Gateway - CM...

Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...

Aws summit arquitetura big data-v1.2

Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...

Escalando com segurança na AWS

Os benefícios de migrar seus workloads de Big Data para a AWS

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM

AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM

Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM

Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM

Cómo empezar con Amazon EKSAmazon Web Services LATAM

Como começar com Amazon EKSAmazon Web Services LATAM

Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM

Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM

Ransomware: Estratégias de MitigaçãoAmazon Web Services LATAM

Ransomware: Estratégias de MitigaciónAmazon Web Services LATAM

Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM

Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM

Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM

Simplifique su BI con AWSAmazon Web Services LATAM

Simplifique o seu BI com a AWSAmazon Web Services LATAM

Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM

Bases de datos NoSQL en AWSAmazon Web Services LATAM

Bancos de dados NoSQL na AWSAmazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 2 - Armazenamento e Backup

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.

AWS para terceiro setor - Sessão 2 - Armazenamento e Backup

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.

Automatice el proceso de entrega con CI/CD en AWS

Automatize seu processo de entrega de software com CI/CD na AWS

Cómo empezar con Amazon EKS

Como começar com Amazon EKS

Ransomware: como recuperar os seus dados na nuvem AWS

Ransomware: cómo recuperar sus datos en la nube de AWS

Ransomware: Estratégias de Mitigação

Ransomware: Estratégias de Mitigación

Aprenda a migrar y transferir datos al usar la nube de AWS

Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS

Cómo mover a un almacenamiento de archivos administrados

Simplifique su BI con AWS

Simplifique o seu BI com a AWS

Los beneficios de migrar sus cargas de trabajo de big data a AWS

Bases de datos NoSQL en AWS

Bancos de dados NoSQL na AWS

Seu primeiro aplicativo de Big Data

1. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Alex Coqueiro Gerente de Arquitetura para o Setor Público Amazon Web Services Junho, 2016 Seu Primeiro Aplicativo de Big Data @alexbcbr Luis Guerrero Gerente de Engenharia Viva Real #AWSSummit #bigdata

3. grande complexidade

4. Complexidade em função de uma grande variedade Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra Amazon CloudSearch Amazon Machine Learning Amazon QuickSightAmazon ElasticSearch

6. Ingestão Processamento Análise Armazenamento Dados Respostas

7. Ingestão InformaçõesTransacionais Processamento Armazenamento Análise Visualização Caso de Uso – Análise de Malha Aérea

8. Ingestão Processamento Análise Armazenamento Dados Respostas

9. AMAZON S3 SIMPLE STORAGE SERVICE

10. Amazon S3 YOUR-BUCKET-NAME

11. Ingestão Processamento Análise Armazenamento Dados Respostas

12. AMAZON KINESIS REAL TIME DATA STREAMING

13. Tipos de dados para a ingestão Transacionais • RDBMS Arquivos • Click-stream logs • Texto livre Stream • IoT devices • Tweets Database Cloud Storage Stream Storage

14. Amazon Kinesis Firehose Criaremos um stream com o Amazon Kinesis Firehose, para os dados que serão coletados dos sistemas de origem aws firehose create-delivery-stream --delivery-stream-name STREAM-NAME --s3-destination-configuration config.json --region us-east-1

15. Exemplo do arquivo de log

16. Ingestão de dados no Kinesis Firehose Faremos uma ingestão baseado em dados que estão sendo coletados de um sistema transacional aws firehose put-record --delivery-stream-name STREAM-NAME --record Data=”JOAO DA SILVA,CLE,MCO,14”

17. Ingestão Processamento Análise Armazenamento Dados Respostas

18. AMAZON ELASTIC MAP REDUCE HADOOP AS A SERVICE

19. Amazon EMR Lançaremos um cluster de 3 nós em Amazon EMR com Spark: m3.xlarge YOUR-AWS-SSH-KEY

20. Spark • Motor para processamento de dados em larga escala • Suporte a aplicações escritas em Java, Scala, Python ou R • Combina SQL, streaming e análises complexas

21. Desenvolvendo Spark/Python no Amazon EMR ## Interagindo com serviços como Amazon S3 via API (boto) ## BUCKET-NAME ## Criando contexto no SPARK ## PYTHON-APP

22. Desenvolvendo Spark/Python no Amazon EMR ## Processamento da Lógica de Negócio ## BUCKET_NAME ## Gravando resultados processados no S3 em formato compactado ## BUCKET_NAME

23. Lançar Apps no Cluster Spark do Amazon EMR Usamos SSH para conectar no cluster: ssh -o TCPKeepAlive=yes -o ServerAliveInterval=30 -L 8001:localhost:18080 YOUR-AWS-SSH-KEY hadoop@YOUR-EMR-HOSTNAME Iniciando o Spark shell: spark-submit --master yarn-client PYTHON-APP.py

24. Ingestão Processamento Análise Armazenamento Dados Respostas SQL

25. AMAZON REDSHIFT PETA-BYTE SCALE DATAWAREHOUSE

26. Amazon Redshift CHOOSE-A-REDSHIFT-PASSWORD

27. Criar uma tabela no Amazon Redshift

28. Mas eu quero visualizar os dados ?

29. Exemplo do arquivo de saída

30. Carregar os dados no Amazon Redshift Comando “COPY” carrega dados em paralelo COPY voos FROM 's3://YOUR-S3-BUCKET/voos-log-processado' CREDENTIALS 'aws_access_key_id=YOUR-IAM-ACCESS_KEY; aws_secret_access_key=YOUR-IAM-SECRET-KEY' DELIMITER ’,' IGNOREHEADER 0, REMOVEQUOTES, MAXERROR 0 GZIP;

31. Conectando no Amazon Redshift # usando o PostgreSQL CLI YOUR-REDSHIFT-ENDPOINT Ou usando uma ferramenta JDBC ou ODBC SQL client com suporte a drivers em PostgreSQL 8.x ou nativamente com suporte ao Amazon Redshift • Aginity Workbench for Amazon Redshift • SQL Workbench/J • DBVisualizer

32. Queries no Amazon Redshift -- Número de registros -- Quem transporta mais passageiros ? -- Quem transporta mais passageiros com milhas ?

33. AMAZON QUICKSIGHT CLOUD-POWERED BUSINESS INTELLIGENCE

34.

35. Amazon Kinesis InformaçõesTransacionais Amazon EMR Amazon S3 Amazon Redshift Amazon Quicksight O que vimos … Map Reduce Parallel Copy SQL Query

37. Serviços da AWS

38. Nosso Problema

39. A Solução

40. Aprenda mais AWS big data com nossos especialistas blogs.aws.amazon.com/bigdata

41. Muito Obrigado Alex Coqueiro Gerente de Arquitetura para o Setor Público @alexbcbr#bigdata #AWSSummit