Arquitetura Lambda na AWS

•Transferir como PPTX, PDF•

4 gostaram•272 visualizações

O documento discute arquitetura de dados na AWS, incluindo como mover dados de MySQL para Redshift, as vantagens do EMR, S3 e processamento por batch. É fornecido um resumo da solução atual e recomendações como aproveitar melhor os serviços da AWS para análise de dados.

Dados e análise

Arquitetura na AWS
Carlos Eduardo F. Barreto
Data Engineer @ GuiaBolso
carlos.eduardo@guiabolso.com.br

O papel do engenheiro de dados
“Enable others to answer questions on dataset
within latency constraints” – Marz, N.
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

Apenas para relembrar
http://lambda-architecture.net/

A pergunta inicial era...
 Como podemos mover os dados do MySQL
para o Redshift da Amazon?
 Outras foram surgindo no meio do caminho:
 O Redshift é bom até que ponto?
 Seguir o modelo de dados do dev é o melhor
caminho?
 Por que o Sqoop?

A AWS é como uma caixa de Lego
http://www.pcguia.pt/wp-content/uploads/2014/03/lego.jpg

Minhas recomendações
 Use EMR para não perder tempo com infra;
 Esteja atento ao github da AWS, muita coisa lá
vai te ajudar;
 Salve todo raw data e transformações no S3 e
não tenha medo de dados duplicados;
 Inicie com bash/cron e não tenha vergonha
disto;
 Não force tecnologias que você AINDA não
precisa;
 99% dos problemas são resolvidos em batch.

Evoluindo a solução inicial
 CDC via binlog e envio de eventos para o
Kinesis;
 Sumarizando mais dados e menos 'as is';
 Melhorando a coleta de logs de extração;
 Usando novas estruturas para análise de
dados, ex.: Elasticsearch e DynamoDB;
 Usando novas formas de visualizar os dados e
gerar insights, ex.: Tableau, Kibana e
Quicksight.

Mais conteúdo relacionado

Semelhante a Arquitetura Lambda na AWS

NoSQL: Uma análise crítica no TDC 2014pichiliani

Bancos de Dados no Azure - ArquiteturasRubens Guimarães - MTAC MVP

Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara

QCon 2011Ismael

Postgres + Azure = Transformando dificuldades em oportunidades Marcelo Krüger

TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...tdc-globalcode

Como lidar com 1, 10, 100 e 1024 GB no seu banco de dadospichiliani

Ingestão de DadosAlexandre Nicolau .·.

NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisCarlo Pires

[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil

Java no Google App Engine - TDC2011Frederico Maia Arantes

Agenda CMG Brasil 2014Joao Galdino Mello de Souza

DataTechDay4 - Carlos OeirasCarlos Augusto Oeiras

Internet das coisas - Uma Abordagem PráticaGustavo Ferreira Palma

Palestra nosqlChristiano Anderson

Computação em NuvemJoão Paulo Preti

TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode

Webinar projetos e ti - business intelligence - como fazerProjetos e TI

Amazon Aws - Tecnologias e BeneficiosYros

Technology Radar_ThoughtWorks_Vol_22Hudson Augusto

Semelhante a Arquitetura Lambda na AWS (20)

NoSQL: Uma análise crítica no TDC 2014

Bancos de Dados no Azure - Arquiteturas

Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica

QCon 2011

Postgres + Azure = Transformando dificuldades em oportunidades

TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...

Como lidar com 1, 10, 100 e 1024 GB no seu banco de dados

Ingestão de Dados

NoSQL x SQL: Bancos de Dados em Nuvens Computacionais

[DTC21] André Marques - Jornada do Engenheiro de Dados

Java no Google App Engine - TDC2011

Agenda CMG Brasil 2014

DataTechDay4 - Carlos Oeiras

Internet das coisas - Uma Abordagem Prática

Palestra nosql

Computação em Nuvem

TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...

Webinar projetos e ti - business intelligence - como fazer

Amazon Aws - Tecnologias e Beneficios

Technology Radar_ThoughtWorks_Vol_22

Arquitetura Lambda na AWS

1. Arquitetura na AWS Carlos Eduardo F. Barreto Data Engineer @ GuiaBolso carlos.eduardo@guiabolso.com.br

2. O papel do engenheiro de dados “Enable others to answer questions on dataset within latency constraints” – Marz, N. http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

3. Apenas para relembrar http://lambda-architecture.net/

4. A pergunta inicial era...  Como podemos mover os dados do MySQL para o Redshift da Amazon?  Outras foram surgindo no meio do caminho:  O Redshift é bom até que ponto?  Seguir o modelo de dados do dev é o melhor caminho?  Por que o Sqoop?

5. A AWS é como uma caixa de Lego http://www.pcguia.pt/wp-content/uploads/2014/03/lego.jpg

6. A solução atual

7. Minhas recomendações  Use EMR para não perder tempo com infra;  Esteja atento ao github da AWS, muita coisa lá vai te ajudar;  Salve todo raw data e transformações no S3 e não tenha medo de dados duplicados;  Inicie com bash/cron e não tenha vergonha disto;  Não force tecnologias que você AINDA não precisa;  99% dos problemas são resolvidos em batch.

8. Evoluindo a solução inicial  CDC via binlog e envio de eventos para o Kinesis;  Sumarizando mais dados e menos 'as is';  Melhorando a coleta de logs de extração;  Usando novas estruturas para análise de dados, ex.: Elasticsearch e DynamoDB;  Usando novas formas de visualizar os dados e gerar insights, ex.: Tableau, Kibana e Quicksight.

9. Obrigado! Perguntas?

Arquitetura Lambda na AWS

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Arquitetura Lambda na AWS

Semelhante a Arquitetura Lambda na AWS (20)

Arquitetura Lambda na AWS