SlideShare uma empresa Scribd logo
1 de 9
Arquitetura na AWS
Carlos Eduardo F. Barreto
Data Engineer @ GuiaBolso
carlos.eduardo@guiabolso.com.br
O papel do engenheiro de dados
“Enable others to answer questions on dataset
within latency constraints” – Marz, N.
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
Apenas para relembrar
http://lambda-architecture.net/
A pergunta inicial era...
 Como podemos mover os dados do MySQL
para o Redshift da Amazon?
 Outras foram surgindo no meio do caminho:
 O Redshift é bom até que ponto?
 Seguir o modelo de dados do dev é o melhor
caminho?
 Por que o Sqoop?
A AWS é como uma caixa de Lego
http://www.pcguia.pt/wp-content/uploads/2014/03/lego.jpg
A solução atual
Minhas recomendações
 Use EMR para não perder tempo com infra;
 Esteja atento ao github da AWS, muita coisa lá
vai te ajudar;
 Salve todo raw data e transformações no S3 e
não tenha medo de dados duplicados;
 Inicie com bash/cron e não tenha vergonha
disto;
 Não force tecnologias que você AINDA não
precisa;
 99% dos problemas são resolvidos em batch.
Evoluindo a solução inicial
 CDC via binlog e envio de eventos para o
Kinesis;
 Sumarizando mais dados e menos 'as is';
 Melhorando a coleta de logs de extração;
 Usando novas estruturas para análise de
dados, ex.: Elasticsearch e DynamoDB;
 Usando novas formas de visualizar os dados e
gerar insights, ex.: Tableau, Kibana e
Quicksight.
Obrigado!
Perguntas?

Mais conteúdo relacionado

Semelhante a Arquitetura Lambda na AWS

NoSQL: Uma análise crítica no TDC 2014
NoSQL: Uma análise crítica no TDC 2014NoSQL: Uma análise crítica no TDC 2014
NoSQL: Uma análise crítica no TDC 2014pichiliani
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
QCon 2011
QCon 2011QCon 2011
QCon 2011Ismael
 
Postgres + Azure = Transformando dificuldades em oportunidades
Postgres + Azure = Transformando dificuldades em oportunidades Postgres + Azure = Transformando dificuldades em oportunidades
Postgres + Azure = Transformando dificuldades em oportunidades Marcelo Krüger
 
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...tdc-globalcode
 
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dados
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dadosComo lidar com 1, 10, 100 e 1024 GB no seu banco de dados
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dadospichiliani
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisCarlo Pires
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Internet das coisas - Uma Abordagem Prática
Internet das coisas - Uma Abordagem PráticaInternet das coisas - Uma Abordagem Prática
Internet das coisas - Uma Abordagem PráticaGustavo Ferreira Palma
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
 
Webinar projetos e ti - business intelligence - como fazer
Webinar   projetos e ti - business intelligence - como fazerWebinar   projetos e ti - business intelligence - como fazer
Webinar projetos e ti - business intelligence - como fazerProjetos e TI
 
Amazon Aws - Tecnologias e Beneficios
Amazon Aws - Tecnologias e BeneficiosAmazon Aws - Tecnologias e Beneficios
Amazon Aws - Tecnologias e BeneficiosYros
 
Technology Radar_ThoughtWorks_Vol_22
Technology Radar_ThoughtWorks_Vol_22Technology Radar_ThoughtWorks_Vol_22
Technology Radar_ThoughtWorks_Vol_22Hudson Augusto
 

Semelhante a Arquitetura Lambda na AWS (20)

NoSQL: Uma análise crítica no TDC 2014
NoSQL: Uma análise crítica no TDC 2014NoSQL: Uma análise crítica no TDC 2014
NoSQL: Uma análise crítica no TDC 2014
 
Bancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - ArquiteturasBancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - Arquiteturas
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
QCon 2011
QCon 2011QCon 2011
QCon 2011
 
Postgres + Azure = Transformando dificuldades em oportunidades
Postgres + Azure = Transformando dificuldades em oportunidades Postgres + Azure = Transformando dificuldades em oportunidades
Postgres + Azure = Transformando dificuldades em oportunidades
 
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...
TDC2018FLN | Trilha Cloud - Postgres + Azure = Transformando dificuldades em ...
 
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dados
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dadosComo lidar com 1, 10, 100 e 1024 GB no seu banco de dados
Como lidar com 1, 10, 100 e 1024 GB no seu banco de dados
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Java no Google App Engine - TDC2011
Java no Google App Engine - TDC2011Java no Google App Engine - TDC2011
Java no Google App Engine - TDC2011
 
Agenda CMG Brasil 2014
Agenda CMG Brasil 2014Agenda CMG Brasil 2014
Agenda CMG Brasil 2014
 
DataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos OeirasDataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos Oeiras
 
Internet das coisas - Uma Abordagem Prática
Internet das coisas - Uma Abordagem PráticaInternet das coisas - Uma Abordagem Prática
Internet das coisas - Uma Abordagem Prática
 
Palestra nosql
Palestra nosqlPalestra nosql
Palestra nosql
 
Computação em Nuvem
Computação em NuvemComputação em Nuvem
Computação em Nuvem
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
 
Webinar projetos e ti - business intelligence - como fazer
Webinar   projetos e ti - business intelligence - como fazerWebinar   projetos e ti - business intelligence - como fazer
Webinar projetos e ti - business intelligence - como fazer
 
Amazon Aws - Tecnologias e Beneficios
Amazon Aws - Tecnologias e BeneficiosAmazon Aws - Tecnologias e Beneficios
Amazon Aws - Tecnologias e Beneficios
 
Technology Radar_ThoughtWorks_Vol_22
Technology Radar_ThoughtWorks_Vol_22Technology Radar_ThoughtWorks_Vol_22
Technology Radar_ThoughtWorks_Vol_22
 

Arquitetura Lambda na AWS

  • 1. Arquitetura na AWS Carlos Eduardo F. Barreto Data Engineer @ GuiaBolso carlos.eduardo@guiabolso.com.br
  • 2. O papel do engenheiro de dados “Enable others to answer questions on dataset within latency constraints” – Marz, N. http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
  • 4. A pergunta inicial era...  Como podemos mover os dados do MySQL para o Redshift da Amazon?  Outras foram surgindo no meio do caminho:  O Redshift é bom até que ponto?  Seguir o modelo de dados do dev é o melhor caminho?  Por que o Sqoop?
  • 5. A AWS é como uma caixa de Lego http://www.pcguia.pt/wp-content/uploads/2014/03/lego.jpg
  • 7. Minhas recomendações  Use EMR para não perder tempo com infra;  Esteja atento ao github da AWS, muita coisa lá vai te ajudar;  Salve todo raw data e transformações no S3 e não tenha medo de dados duplicados;  Inicie com bash/cron e não tenha vergonha disto;  Não force tecnologias que você AINDA não precisa;  99% dos problemas são resolvidos em batch.
  • 8. Evoluindo a solução inicial  CDC via binlog e envio de eventos para o Kinesis;  Sumarizando mais dados e menos 'as is';  Melhorando a coleta de logs de extração;  Usando novas estruturas para análise de dados, ex.: Elasticsearch e DynamoDB;  Usando novas formas de visualizar os dados e gerar insights, ex.: Tableau, Kibana e Quicksight.