Esse e-book mostra como simplificar a infraestrutura de tecnologia com o uso do Kafka. Mostra algumas ideias de como simplificar e também um case de uso do Kafka.
Conferência SC 2024 | De vilão a herói: como o frete vai salvar as suas vendas
Inove simplificando a infraestrutura com Kafka
1. Simplifique a infraestrutura de
dados para responder aos
eventos de forma eficaz com
Kafka
SIMPLIFIQUE!
www.techrom.co
2. E se sua empresa respondesse aos eventos em tempo real,
o que poderia trazer de vantagem? Vender mais? Evitar uma
transação fraudulenta ou uma repercussão negativa sobre seu
produto? Tomar uma ação rápida frente a concorrência?
Antecipar a uma tendência de demanda?
Grande parte das empresas têm tido o desafio de simplificar a
infraestrutura de tecnologia e eliminar as barreiras de
interoperabilidade entre tecnologias para acessar os dados de
forma rápida, atender as demandas das áreas de negócios,
responder aos eventos do mercado (ex.: entrada de novos
concorrentes, mudanças regulatórias, comportamento dos
consumidores, etc.) e facilitar a integração com outras tecnologias.
Neste sentido, a tecnologia de data streaming como o Kafka vem
ganhando a adoção uma vez que contribui para suprir a
necessidade de simplificação da arquitetura de tecnologia.
Quais são os atributos que fazem com que a tecnologia data
streaming simplifique a infraestrutura de tecnologia?
• Integração com várias fontes de dados: o fato do Kafka
permitir conexão com diversas fontes de dados, facilita
integração tornando um datahub e ciente e consistente
para utilizar com BI, machine learning, IoT, gestão de
microservices entre outros serviços.
• Eliminando a barreira de
interoperabilidade
• Facilitando a integração várias
fontes de dados
• Abolindo o uso de banco de
dados incidental na arquitetura de
dados
• Alterando o foco de request-
driven para event-driven
SIMPLIFICANDO
INOVE
3. • Armazenamento: além de fazer a função
primária de mensageria, o Kafka armazena os logs
possibilitando o reprocessamento (replay), quando
necessário, e garantindo a persistência dos dados. Ou
seja, o Kafka faz com que a empresa torne o data
pipeline eficaz.
• Banco de dados: como tornar o banco de dados
streaming? Através do uso da ferramenta KSQL, da
fabricante americana Confluent e criadora do Kafka,
que facilita a busca (query) por dados em tempo real,
simplifica a junção (join) de tabelas, agregação
(aggregation) de informações, seleção (select) granular
de dados entre outras necessidades que são bastante
comuns no dia dia dos administradores de bancos de
dados, proporcionando o aumento de produtividade e
agilidade para a análise e geração de métricas. Em
resumo, o Kafka torna o banco de dados orientado ao
log e não à tabela.
• Escalabilidade: Com o crescimento exponencial do
volume de dados atrelado a necessidade de utilização
novas tecnologias como inteligência artificial, deep
learning, etc., é imprescindível ter uma ferramenta
resiliente para atender as demandas. O Kafka permite a
elasticidade que o negócio exige com a facilidade de
conexão outras tecnologias.
Dados representados via tabelas estáticas x Dados representados via eventos
Arquitetura de uma plataforma orientada a evento em streaming
4. • Foco em evento: um modelo tem
crescido é da arquitetura de dados voltada a eventos
(event-driven). Ao invés da aplicação fazer a requisição
no banco de dados (request-driven) para consultar
determinada informação e, dependendo do resultado,
disparar requisições para outros sistemas, o modelo
voltado a eventos é preparado para entender contextos,
por meio de tópicos, que disparará alertas simultâneos
para outros sistemas de acordo com o ocorrido. Com
isso, o negócio poderá explorar oportunidades de
forma ativa.
• Gestão de multi-cloud ou híbrido: a tendência de uso
do serviço computacional na nuvem (cloud-computing)
ao redor do mundo tem evoluído e algumas empresas
têm optado em utilizar mais de um provedor de serviço
computacional na nuvem para ter a flexibilidade de
movimentação dos dados, com também usado parte do
processamento no datacenter interno e parte na nuvem
(modelo híbrido). Neste cenário, a utilização do serviço
gerenciado da Confluent Cloud trará os benefícios
como a simplicidade na movimentação dos dados de
um provedor para outro, realização do processamento
dos dados que estão entre o datacenter interno e a
nuvem, eliminação do custo com a gestão do ambiente
Kafka e a liberdade para gerir os dados independente
do provedor do serviço de nuvem.
• Alto volume de processamento: o Kafka permite o
processamento de bilhões de dados com baixa latência.
Além de processar grande volume de dados, também
adiciona inteligência no data pipeline como reprocessa,
pesquisa dados, realiza cálculo transforma os dados
entre outras possibilidades.
• Log é o rei: O Kafka é orientado à log dos dados. Isto
significa que todos as evidências serão imutáveis,
centralizadas em um único ponto de contato para a
segurança dos dados. Para efeito da Lei Geral de
Proteção dos Dados (LGPD), é fundamental o
armazenamento de todos os logs gerados para atender
os requisitos da lei.
• Ingestão de dados capturados por sensores: Com a
rede 5G e a proliferação dos sensores inteligentes (IoT),
a geração de dados aumentará brutalmente, o que
necessitará de tecnologia para captar e processar
grandes volumes de dados. O Kafka, via Confluent, tem
o protocolo Message Queue Telemetry Transport
(MQTT) para processar milhões de dados em
milissegundos.
5. Atualmente, a tecnologia Kafka é a segunda mais
visitada e ativa do Projeto Apache. Além disso, mais de
100 mil organizações ao redor do mundo tem usado o
Apache Kafka devido a robustez, resiliência e
confiabilidade da tecnologia.
Algumas empresas que têm adotado a tecnologia Kafka
6. Por onde começar a
simplificação?
Por conta das demandas que foram surgindo ao longo do
tempo, as empresas foram incrementando novos
componentes na sua infraestrutura ampliando a
complexidade de gestão além do custo para manter o
ambiente operando.
Alguns itens poderão ser eliminados com o uso da
tecnologia Kafka como:
• Banco de dados incidental: para atender aplicações
periféricas, algumas empresas usam o banco de dados
incidental não impactar o banco de dados
principal. Com isso, aumenta a complexidade de gestão
além do custo com licenciamento dependendo do caso.
Com o Kafka, cria-se um datahub principal para
disponibilizar os dados com todas as aplicações sem
gerar impacto em performance ou segurança.
• Ferramenta de mensageria: As ferramentas de
mensagerias antigas atendiam as demandas no passado.
Contudo, com a necessidade atual de resiliência para
atender as novas demandas como reprocessamento de
dados, escalabilidade e transformação dos dados, as
ferramentas de mensagerias não
. Através do Kafka, as empresas
passam a ter a versatilidade que precisam além de ter
um data pipeline eficiente.
7. • Ferramenta de replicação: As empresas que tenham
ambientes híbridos, isto é, parte dos dados no data
center interno e parte em cloud, necessitam utilizar
alguma ferramenta para gerenciar esses ambientes e,
dependendo do cenário, podem torná-los complexos e
caros. Através do recurso chamado Replicator, da
Confluent, é possível estabelecer uma ponte entre os
dois ambientes para processar e atualizar as bases de
dados de forma simple e sem custo adicional, caso a
empresa use o Kafka nos dois ambientes.
Complexidade na gestão do ambiente impactando em custos da operação
8. • Ferramentas de ETL e HDFS: Tanto o ETL quanto o
HDFS são boas ferramentas e desempenharam bem
seus propósitos no passado. Entretanto, é cada vez mais
importante, em alguns até mandatório, fazer o
processamento em tempo real, ampliar as conexões
com novas fontes de dados, reprocessar dados e
realizar transformações. Além disso, o custo para a
manutenção destas ferramentas são altos. Com o Kafka,
é possível processar em streaming integrando com
diversas fontes de dados, reprocessando quando
necessário e transformando os dados com baixo custo.
• Ferramenta de gestão multi-cloud: Com o intuito de
ter liberdade e flexibilidade de movimentação de
dados entre provedores de cloud, algumas empresas
têm utilizado ferramentas para a gestão multi-cloud.
Dependendo do fabricante, são ferramentas com custo
alto de aquisição e de manutenção. Através do serviço
gerenciado de cloud da Confluent, é possível gerenciar
os dados entre nuvens de forma simples e com baixo
custo de manutenção.
Com o uso do Replicator, da Confluent, é possível criar uma ponte entre os ambientes
on-premises e cloud
O foco do event-driven é entender o contexto para configurar os tópicos do Kafka
9. Estudo de caso com
Kafka
Uma empresa americana do segmento industrial adotou a
tecnologia Apache Kafka para endereçar os seguintes
problemas:
• Ineficiência para responder as novas demandas do
negócio. O fato de ter diversos silos de dados, a
empresa demorava, em média, até 24 meses para
realizar o deploy de novos serviços
• Necessidade de modernizar as ferramentas de ETL e
Hadoop para processar grandes volumes de dados.
• Criação de um data lake eficiente e a abstração do log
do banco de dados.
A empresa contratou a Confluent, empresa americana
criadora da tecnologia Kafka, para redefinir a nova
arquitetura de dados.
10. Com a implementação do Kafka, a empresa obteve os
seguintes resultados:
• Redução do tempo de deploy de novos serviço em dois
terços;
• Flexibilidade para utilizar o Kafka para várias casos de
usos;
• Retorno sobre o investimento feito de 201%
• Payback do investimento feito foi de 6 meses.
Estudo feito pela consultoria americana Forrester sobre ROI com o uso da plataforma Confluent
11. Referências
• https://www.confluent.io/resources/total-economic-impact-confluent-platform - Estudo consultoria Forrester
• https://www.youtube.com/watch?v=KFUqUpz762U - Palestra Jay Kreps - Kafka Summit San Francisco 2019
• https://www.youtube.com/watch?v=wXXGUcnPgGQ&feature=youtu.be - MeetUp promovido pela Techrom na Digital
House Out/2019
• https://www.youtube.com/watch?v=I32hmY4diFY - Palestra Neha Narkhede sobre ETL
• https://www.youtube.com/watch?v=YvVf97xeYkw - Palestra Neha Narkhede - Kafka Summit London 2019
• https://www.youtube.com/watch?v=XMXCZSJR1iM - Palestra Jun Rao - Kafka Summit San Francisco 2019
• https://www.confluent.io/blog/ksql-whats-new-in-5-2 - Sobre KSQL
A Techrom é uma startup focada em data streaming com base na tecnologia
Apache Kafka. É parceira da Confluent e Elastic no Brasil.
www.techrom.co - rom@techrom.co