SlideShare uma empresa Scribd logo
1 de 25
Coisas interessantes para saber quando
começar a processar dados em
streaming
algumas vivências de projeto
Quem sou eu?
Expectativas? Temos!!
vamos falar!
✔ domínio de negócio
✔ valor de negócio
✔ soluções possíveis (não únicas)
✔ monitoramento
✔ recuperação de dados
✔ serviços da AWS
✔ alternativas para deploy
não vamos falar
✖ segurança
✖ performance
✖ Spark ou Flink?
✖ código
Processamento de dados de
sensores. Como fazemos?
em batch
Pipeline de Detecção de
Falhas
Serviços
Auxiliares
ETL
S3 Bucket
Serviços
Auxiliares
Era uma vez o tão esperado
"vê se rola" (MVP)
em batch e streaming
Serviços
Auxiliares
ETL
S3 Bucket
Serviços
Auxiliares
Streaming Pipeline
S3 Bucket
Pipeline de Detecção de
Falhas
Mas e se a gente falhar?
Pipeline de
Dados Resiliente
✔ escalabilidade
✔ disponibilidade
✔ rápida recuperação de
falhas
Cenários:
1. reprocessamento de dados
2. estratégia de deploy
fonte: https://i.gifer.com/3vwT.gif
Reprocessamento
de dados
Contexto
Contexto:
● streaming dados que são enviados
atualmente de uma em uma hora;
Pontos de Atenção:
● restrição de escalabilidade no Kinesis;
● limite de leitura de dados do Kinesis;
Reprocessamento
de dados
Solução Atual
● mecanismo de
reprocessamento das Lambdas
● backup dos dados puros
● monitoramento via Splunk e
CloudWatch
● reprocessamento dos dados via
postagem
Streaming Pipeline
Reprocessamento
de dados
Outras Soluções
● Dead Letter Queues (DLQ)
fonte: https://cdn-images-1.medium.com/max/1600/1*RrSXb7Kiep3OX5KIMVoqBg.png
Estratégia de
Deploy
Contexto
● todas as Lambdas se
encontram em um mesmo
projeto;
● pipeline de dados principal em
um cluster Spark
Estratégia de
Deploy
Solução Atual
● monitoramento
Estratégia de
Deploy
Soluções Futuras
● Blue Green deployment
● Spark checkpoint
fonte: https://martinfowler.com/bliki/images/blueGreenDeployment/blue_green_deployments.png
Pontos de
Atenção
● Arquitetura evolutiva
● Logs, logs e mais logs
● Engenharia do Caos
Lições
Aprendidas
✓ MVP é MVP
✓ entenda as necessidades do
contexto atual
✓ entenda as limitações da equipe
✓ irão ser geradas dívidas técnicas,
mas tudo bem
Literaturas
Referências
gerador de ppt:
http://lulapptgenerator.top
implantação blue green:
https://martinfowler.com/bliki/BlueGreenD
eployment.html
atualizando aplicações spark:
https://spark.apache.org/docs/latest/strea
ming-programming-
guide.html#upgrading-application-code
ícones AWS:
https://aws.amazon.com/architecture/i
cons/
resiliência em microserviços:
https://www.infoq.com/br/presentation
s/resiliencia-com-microservices-cache-
distribuido-feedback-e-tuning
3 Pro Tips for Developers using AWS
Lambda with Kinesis Streams:
https://read.acloud.guru/aws-lambda-
3-pro-tips-for-working-with-kinesis-
streams-8f6182a03113
The world beyond batch: Streaming
101
https://www.oreilly.com/ideas/the-
world-beyond-batch-streaming-101
Referências
Understanding Retry Behavior:
https://docs.aws.amazon.com/lambda/late
st/dg/retries-on-errors.html
Building Microservices: Designing Fine-
Grained Systems:
https://samnewman.io/books/building_mic
roservices/
Dead letter queue:
https://en.wikipedia.org/wiki/Dead_letter_
queue
Building Reliable Reprocessing and
Dead Letter Queues with Kafka
https://eng.uber.com/reliable-
reprocessing/
Splunk e Jenkins ícone
ic8.link/49188 ; ic8.link/49188
Princípios do caos
https://principlesofchaos.org/
Data Pipeline Design Considerations
https://bostata.com/post/data_pipeline
_design_considerations/
Radar Tecnológico
https://www.thoughtworks.com/pt/rad
ar
https://www.facebook.com/TWTechTal
ksRecife/
Obrigada :)
Para sugestões, feedbacks e dúvidas:
mirelythaisa@gmail.com

Mais conteúdo relacionado

Semelhante a Coisas interessantes para saber quando começar a processar dados em streaming

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringFelipe Klerk Signorini
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...tdc-globalcode
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemAmazon Web Services LATAM
 
Conhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSConhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
 

Semelhante a Coisas interessantes para saber quando começar a processar dados em streaming (20)

Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
 
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at -...
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvem
 
Conhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSConhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWS
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Mudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dadosMudança de paradigma no monitoramento de banco de dados
Mudança de paradigma no monitoramento de banco de dados
 

Coisas interessantes para saber quando começar a processar dados em streaming

Notas do Editor

  1. Adicionar dados do email de limitação do Kinesis