Kafka streams

Bruno Horta
KAFKA STREAMS
Introdução e demonstração
www.linkedin.com/in/brunohorta

SOURCE CODE
https://github.com/brunohorta82/Spike-Kafka-Streams-Wordcount

O que é Kafka
Streams?
É uma biblioteca de alto nível
que permite processamento e
transformação de dados de
forma simpliﬁcada.
Transformação de Dados
Enriquecimento de Dados
Monitorização e Alertas
Deteção de Fraude

Características
Uma Stream Kafka é uma simples aplicação em Java.
• Não precisa de ser executada num cluster diferente.

• É escalável de forma elástica e implementa mecanismos de recuperação
perante falhas.

• Garantia do processamento único da mensagem (Exactly Once).

• As mensagens são processadas de forma sequencial.

Arquitectura
Kafka Cluster
Broker
Broker
Broker
Sources
Sink
Connectors
1
4
3
Transformação e processamento de dados
Stream App 1
Stream App 2
1
5

Disponível a partir da
versão Kafka 0.10. (2016)
Versão estável na versão
0.11 (2017)

Stream
Word count App
DEMO
Word count
Producer TOPIC: words
TOPIC: word-count-output
Consumer TOPIC: words

KStreams
• Todos os dados recebidos são inseridos

• É inﬁnita

• Pode ser comparada a um sistema de LOG

• Está sempre a aguardar a chegada de novos
dados
TOPIC(key,value)
Time
(leiria,20)
(porto,10)
(leiria,20)
(leiria,20)
(porto,10)
(leiria,15)
(leiria,15)
(leiria,20)
(porto,10)

KTables
• Dados com a mesma chave são atualizados

• Se um valor for null o registo é removido

• Pode ser comparada a uma tabela

• Permite processamento paralelo (apenas em
tópicos com “log compacted”)

• —conﬁg cleanup.policy=compact
TOPIC(key,value)
Time
(leiria,20)
(porto,10)
(leiria,20)
(leiria,20)
(porto,10)
(leiria,15) (leiria,15)
(porto,10)
INSERT
UPDATE
(porto,null)
porto is deleted
DELETE

KTable / KStream
Stateless Statefull
O resultado da transformação apenas depende 
do ponto em que se encontra o processo.
O resultado da transformação depende 
de informação externa.
Exemplo: “multiplicar um valor por 2”,  
a operação não necessita do valor anterior.
• 1 => 2

• 400 => 800
Exemplo: “contar palavras”,  
a operação necessita de conhecer o que aconteceu no passado.
• kafka => 1

• kafka => 2

Re-particionamento!
Acontece sempre que uma operação altera a chave
Map FlatMap SelectKey
Caso não seja necessário alterar a chave deve ser utilizado:
MapValues FlatMapValues
O re-particionamento acontece em background, no entanto tem um impacto considerável na performance
devido ao elevado número de escrita/leitura dentro do Kafka.

JOIN
Sempre que é realizado um Join entre KStreams e/ou KTables é gerada uma nova KStream ou KTable.
J
https://docs.conﬂuent.io/current/streams/developer-guide/dsl-api.html

JOIN
GlobalKTable
• Se os dados de uma KTable forem razoavelmente pequenos, podem ser
partilhados globalmente pelos clusters utilizando uma GlobalKTable.

• A GlobalKTable permite joins com qualquer stream ou table mesmo não
estando na mesma partição.

• Os dados são mantidos e acessíveis por todas as Aplicações Kafka Stream.

• Como desvantagem a informação é gravada em disco e requer espaço extra.

INNER JOIN
customer-tables - customer-purchase
DEMO
Customer Event Enricher
Producer TOPIC: customer-table
TOPIC: customer-purchases-enriched-inner-join

Consumer TOPIC: customer-table
Producer TOPIC: customer-purchases
GlobalKTable
Consumer TOPIC: customer-purchases
KStream
J
*apenas clientes que ﬁzeram compras e têm a ﬁcha de cliente preenchida.

LEFT JOIN
customer-tables - customer-purchase
DEMO
Customer Event Enricher
Producer TOPIC: customer-table
TOPIC: customer-purchases-enriched-left-join
Consumer TOPIC: customer-table
Producer TOPIC: customer-purchases
GlobalKTable
Consumer TOPIC: customer-purchases
KStream
J
*todos os cliente que ﬁzeram compras

CRAZY APP
Questões
Producer TOPIC: questions
TOPIC: try-my-best
knowledge
Experience
J

Kafka streams

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (7)

Semelhante a Kafka streams

Semelhante a Kafka streams (20)

Mais de Bruno Horta

Mais de Bruno Horta (6)

Kafka streams