TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at - Processamento de dados em alta escala com Node.js e AWS Lambda

Processando dados em alta escala
com Node.js e AWS Lambda

O desafio - Como sincronizar dados com o Twitter?
● Por que sincronizar?

O desafio - Como sincronizar dados com o Twitter?
● Por que sincronizar?
○ #arrependimento (#ou #não?)

O desafio
Não mostrar dados deletados (ou bloqueados) do
Twitter em nosso produto

O problema é...
Em um dia não podemos sincronizar a base de um
mês com a API do Twitter, como faremos isso em
real-time?

O problema é...
● Captura de dados (na época):
○ ~ 18 milhões de tweets/mês
○ ~ 300 milhões de registros/mês
● Checagem de tweets (via Twitter API /statuses/lookup):
○ 8 milhões de tweets/dia

A solução
Escutar todos os deletes do Twitter no mundo !

É possível...
É só ter capacidade para checar este volume de dados via a api de
real-time do Twitter:
50 mil registros / minuto
~ 834 registros / segundo
72 M registros / dia

É possível… será?
Como fazer isso com uma base histórica de
mais de 4 TB e mais de 300 bilhões de
registros?

Listener
(Node.js)
Scup Core
Read
Replica
DB
Escrita
Compliance
(Node.js)
Indexador
(Elastic Search)
Uma primeira solução !

Uma primeira solução!
● Listener:
○ ter uma máquina "parruda" para suportar a conexão do Twitter
○ utilizar o PM2 para gerenciar o app em Node.js
● Compliance:
○ uma api em Node.js usando Express
○ utilizar um Elastic Search pré-existente com os dados necessários
indexados para aliviar a carga no Scup Core (e no banco)

Comentamos sobre os picos de acesso ao
Twitter?

Listener
(Node.js)
Scup Core
Read
Replica
DB
Escrita
Compliance
(Node.js)
Indexador
(Elastic Search)
Momento de pico:
Uma primeira solução ! #sqn ("Ué o ES não segurava?")
x 10

Características necessárias
● Escalabilidade
○
● Tolerância a erros
○
● Elasticidade (+)
○

● Escalabilidade
○ devemos suportar o volume de dados
○
○

● Escalabilidade
○ erros ocasionais não devem impactar o todo
○

● Escalabilidade
○ erros ocasionais não devem impactar o todo
○ queremos utilizar os recursos certos na hora certa

Listener
(Node.js)
Scup Core
Read
Replica
DB
Escrita
Compliance
(Node.js)
Indexador
(Elastic Search)
Onde elas não estão ok?

Indexador
(Elastic Search)
Compliance
(Node.js)

SQS
Indexador
(Elastic Search)
Compliance
(Node.js)

AWS SQS (Simple Queue Service)
• Engine de filas da Amazon
• Permite que cada leitor "reserve" os dados lidos por um período de tempo
• Possui mecanismo de "dead letter" caso algum erro de leitura ocorra com frequência
Produtor SQS Consumidor

SQSKinesis
Indexador
(Elastic Search)
Compliance
(Node.js)

AWS Kinesis Streams
• Engine de processamento de Streams em Tempo Real
• Semelhante ao Apache Kafka, uma "fila" que pode ter múltiplos leitores
• Leitura de dados rápida (cerca de 300 ms)
Produtor
Kinesis Stream
Shard 1
Shard 2
...
AWS Lambda
KCL Apps
Outros
consumidores

AWS Lambda
• Executa funções sem servidores ("Serverless", "Function as a Service")
• Acionamento através de eventos, escalando a medida que eles são disparados
• Atualmente suporta Node.js (4.3.2 e 6.10.2), Python (3 e 2.7), Java 8 e C# (.Net Core 1.0.1)
Evento Função Resultado

AWS Lambda e AWS Kinesis
É possível definir o número de registros a ser lido por um único lambda
Caso haja erro na leitura, o ponteiro do Kinesis congelará nos registros com erro até os
dados serem lidos corretamente ou expirarem (1 ou 7 dias)
Produtor
Kinesis Stream
Shard 1
Shard 2
...
AWS Lambda 1
AWS Lambda 2
AWS Lambda ...

SQS
Kinesis
Compliance
(Node.js)
Kinesis
Kinesis
Kinesis
Kinesis
Indexador
(Elastic Search)

Características da solução
● Escalabilidade e Elasticidade
○ ajustamos a capacidade de leitura em função dos shards do Kinesis
○ mais ativação de Lambdas em razão ao volume de dados
○ o Lambda tem mecanismos de retries em caso de erro (por exemplo,
timeouts de queries)

Listener
(Node.js)
SQS Scup Core
Read
Replica
DB
Escrita
Kinesis Compliance
(Node.js)
Indexador
(Elastic Search)
Solução final

Listener
(Node.js)
SQS Scup Core
Read
Replica
DB
Escrita
Kinesis Compliance
(Node.js)
Indexador
(Elastic Search)
Momento de pico ?
Solução final

Muito obrigado !
danielbpdias@gmail.com
https://github.com/danielbdias
https://www.slideshare.net/DanielDias10
https://github.com/danielbdias/nodebr-meetup-lambda-kinesis-demo

Dúvidas ?
danielbpdias@gmail.com
https://github.com/danielbdias
https://www.slideshare.net/DanielDias10
https://github.com/danielbdias/nodebr-meetup-lambda-kinesis-demo

Open source @ Sprinklr
Conheça os nossos projetos em https://github.com/scup
● Speck - Entidades de domínio com validações reativas
● Nodebase - boilerplates de NodeJS da Sprinklr
● Speck Sequelize Repository - modelos de repositório de acesso a dados
com o Speck

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at - Processamento de dados em alta escala com Node.js e AWS Lambda

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (7)

Semelhante a TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at - Processamento de dados em alta escala com Node.js e AWS Lambda

Semelhante a TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at - Processamento de dados em alta escala com Node.js e AWS Lambda (20)

Mais de tdc-globalcode

Mais de tdc-globalcode (20)

Último

Último (20)

TDC2017 | São Paulo - Trilha NODEJS How we figured out we had a SRE team at - Processamento de dados em alta escala com Node.js e AWS Lambda