O documento descreve a estratégia da SOMA/Hering para mover 2 bilhões de dados para uma represa de dados na nuvem em 24 horas utilizando a tecnologia Apache Kafka. A empresa criou um "Integration Hub" para desacoplar sistemas legados e integrar dados de forma escalável, segura e sem impactar os sistemas originais. Isso permitiu a migração de dados de 5 bancos e 42 tabelas para o data lake na nuvem.
Congresso Grocery & Drinks | Transformando o e-commerce alimentar por meio do...
Fórum E-Commerce Brasil | Movendo 2 bilhões de dados em 24 horas - A estratégia Data Driven SOMA/Hering
1. TECNOLOGIA & INOVAÇÃO
Movendo 2 bilhões de
dados em 24 horas
A estratégia data driven SOMA/Hering
Marcelo Costa
Head of Architecture
2. TECNOLOGIA & INOVAÇÃO
Relatórios de
Inteligência
Comercial
B2B Marketplace Logística Compras
Dashboards da
Indústria
E estes são alguns dos produtos digitais que integramos diariamente na companhia:
O Grupo Soma/Hering movimenta
mais de 100 milhões de dados
por dia.
280.000
TPS
3. No final de 2021, Criamos uma represa de
dados que inicialmente armazenava dados
de alguns poucos sistemas na companhia.
• ~18 tabelas
• ~50 milhões de registros
• ~500 mensagens/segundo
• 300 MBPs Internet Link
A Nossa Jornada
Q4 2021
+72h
para mover dados
de Blumenau para a
Nuvem de Analytics
Interligar todos os nossos sistemas não
importando a tecnologia que estivesse
em uso sem impactar o ecossistema.
Como realizar a transposição de dados
para a represa em Alta Velocidade e
ainda sim, não impactar o dia a dia de
nossos sistemas?
Desafios
tecnológicos
Q1 2022
Estratégia de
Transposição
Q2 2022
O conceito de Aquífero
A nossa estratégia foi a de "bombear" os
dados vindos dos “rios subterrâneos” sem
interferir no funcionamento do legado.
Aplicamos uma técnica de
Desacoplamento dos Legados com o
Apache Kafka e o seu ecossistema como
habilitador.
Desacoplamento
dos Legados
Sistemas legados convivendo com os
novos sistemas de forma transparente,
escalável e segura sem que ocorram
alterações invasivas.
Uma Arquitetura de DESACOPLAMENTO,
capaz de INTEGRAR sistemas LEGADOS,
como o SAP ECC e sistemas da indústria
construídos sob Oracle Forms, com NOVOS
SISTEMAS CONSTRUÍDOS EM NUVEM.
TECNOLOGIA & INOVAÇÃO
4. Integration Hub — Arquitetura
INTEGRATION HUB
RETAIL
BLUMENAU
INDÚSTRIA
ERP
INTEGRATION HUB
CLOUD
2 Way
communication
Near Realtime
Data
One Way communication
REGRAS DE NEGÓCIO
CLOUD
PORTAL INTEGRATION HUB
CLOUD
LOJAS
CONSUMIDORES
wisesale
quem conhece, vende
MarketPlace
HERING
B2B
Dados brutos
Agregações em
nível de negócio
DATALAKE ANALYTICS
Bronze Silver Gold
Filtrado, limpo e
transformado
GCP
5. Integration Hub — Componentes
Kafka Connect
(Debezium, JDBC)
Kafka Broker
Java jCo (SAP)
Esteira DevOps
Observability
(Elastic, LogStash, Beats)
Portal Integration Hub
(React, DLQ, Retry)
RFC HTTP SYNC (SAP)
Processo de FallBack
(MongoDB, GO Lang)
API Gateway
(Kong no Core)
Mirror Maker
TECNOLOGIA & INOVAÇÃO
6. Integration Hub — Infraestrutura
TECNOLOGIA & INOVAÇÃO
On-Premises em Blumenau
No Google Cloud
Kafka Broker
Cluster com 3 nós
39 GB de memória em cada nó
8 vCPU em cada nó
1 Tera de Storage para o Cluster
Kafka Connect
Cluster com 5 nós
35 GB de memória em cada nó
4 vCPU em cada nó
300 Gigabyte de storage para o Cluster
Kafka Broker
Cluster com 3 nós
16 GB de memória em cada nó
8 vCPU em cada nó
1 Tera de storage para o Cluster
Kafka Connect
Cluster com 5 nós
8 GB de memória em cada nó
2 vCPU em cada nó
300 Gigabyte de storage para o Cluster
7. Impacto do CDC nos Bancos de Dados
Banco de Dados SQL Server
Sem impactos no ambiente
Maio 2022 Maio 2023
Outubro 2022
Outubro 2022
8. Impacto do CDC nos Bancos de Dados
Banco de Dados Oracle
Sem impactos no ambiente
9. Alguns números
TAXA MÉDIA DE TRANSFERÊNCIA DE DADOS
Integration Hub
nasceu aqui
112 MIL
mensagens/segundo
34 MIL
mensagens/segundo
500
mensagens/segundo
-12h
Transbordando
dados de Blumenau
para a Nuvem
2021 Q4 2022 Q1 2022 Q2
190 MIL
mensagens/segundo
265 MIL
mensagens/segundo
+393 Tabelas
8 Banco de Dados
2022 Q3/Q4 2023 Q1 2023 Q2
11. OnPage Integration Hub
Produtos Impactados (valor ativado)
• OTO (Informações de comportamento e interação)
• Novo B2B
• Analytics CRM
• Integração com o SAP
• Marketplace Mercado Livre
• Dados da Indústria
• Dados de Inteligência Comercial
B2C
B2B
Indústria
Sistemas
Corporativos
Domínios impactados
Q1, Q2, Q3 e Q4
2022
5 Bancos de Dados
42 Tabelas
52 Milhões de
Registros no Lake
Integration Hub v1 e v2
Dados da Indústria
Dados Comerciais
B2B
Q1 2023
8 Bancos de Dados
289 Tabelas
2.1 Bilhões de
Registros no Lake
Integration Hub
v3
Q2 2023
8 Databases
393 Tabelas
5 Bilhões de
Registros no Lake
FallBack
Integration Hub
v4
Inteligência
Comercial
Q4 2021
Início do
Datalake
TECNOLOGIA & INOVAÇÃO
12. Benefícios alcançados
Conectividade
com parceiros
Uma estratégia de API
que nos permite
acoplar facilmente
Segurança da
Informação
Isolamento dos
sistemas importantes
por meio de camadas
Velocidade na
entrega
Componentes
técnicos que aceleram
a entrega de valor
para o negócio
Reuso
Uma estrutura que
permite o uso e reuso
atendendo várias
abordagens
Desacoplamento
Regras de negócio do
grupo em poder do
grupo sem depender
de terceiros
TECNOLOGIA & INOVAÇÃO
13. Movendo 2 bilhões de
dados em 24 horas
A estratégia data driven SOMA/Hering
TECNOLOGIA & INOVAÇÃO
Marcelo Costa
Head of Architecture
Notas do Editor
Dados que são gerados em nossos vários sistemas e empresas do grupo, sejam legados ou mesmo os novos criados em nuvem.