3. Sumário executivo
O Big Data surgiu com a promessa de transformar as
empresas. As arquiteturas de dados existentes, no entanto,
têm limitações que as impedem de entregar o valor de
negócio esperado. Como resultado, as empresas vivem uma
crise de confiança nos dados.
O foco em domínios e produtos de dados nos permite
evitar esse padrão de silos e criar valor de negócio.
Tendo isso em mente, a ThoughtWorks desenvolveu uma
abordagem orientada por domínio e com raízes na mudança
organizacional, chamada Data Mesh, ou malha de dados.
Essa abordagem representa uma verdadeira mudança de
paradigma — e uma oportunidade de obter êxito na criação
de uma organização orientada por dados.
3
DATA MESH: UMA MUDANÇA DE PARADIGMA
4. Introdução
Até alguns anos atrás, a mineração de dados era o assunto mais
comentado no universo de tecnologia e negócios. As empresas
estavam ansiosas para acessar mais e mais dados. Em pouco
tempo, a questão passou a ser: o que fazer com tudo isso?
Muitas apostavam que o aprendizado de máquina e a inteligência
artificial seriam suficientes para transformar todos esses bits em
informações valiosas para a tomada de decisões.
O que de fato aconteceu? As abordagens tradicionais para geração
de insights de Big Data frustraram diferentes partes interessadas
dos negócios. Os motivos incluem problemas na qualidade dos
dados, dificuldade para encontrar talentos de engenharia de
dados, times de plataforma de dados sobrecarregados e projetos
de infraestrutura de dados caros e intermináveis.
Neste material dedicado a lideranças executivas, analisamos o
conceito de Data Mesh, ou malha de dados — um novo paradigma
baseado em princípios sólidos de engenharia de software.
Implementar uma nova arquitetura de dados exige, no entanto,
um esforço considerável. Então, por que não simplesmente
otimizar as abordagens existentes?
As duas principais abordagens de gerenciamento de dados que
observamos hoje se baseiam nas tecnologias de data warehouse
ou data lake. Data warehouses geralmente armazenam dados
estruturados em formatos consultáveis. Um data lake (ou lago de
dados) em sua forma mais simples, armazena dados brutos de
várias fontes.
4
DATA MESH: UMA MUDANÇA DE PARADIGMA
5. Com essa abordagem, os dados podem reter qualquer esquema
ditado pelo sistema de origem até o momento de conduzir uma
análise.
Uma malha de dados, por outro lado, é uma abordagem de
arquitetura de dados descentralizada, que aplica aos dados os
seguintes princípios da arquitetura de TI:
1. arquitetura distribuída orientada por domínio
2. mentalidade de produto
3. plataformas de infraestrutura de autoatendimento
4. governança federada
Dessa forma, as empresas estão criando o que chamamos de
produtos de dados — ofertas especializadas descentralizadas que
se concentram em um domínio e alinham propriedade e consumo
de dados. Trabalhando em conjunto, esses produtos de dados
demonstram um efeito de rede, habilitando um ciclo contínuo de
dados, análise e ação e, consequentemente, um fluxo contínuo de
valor de negócio.
Mas as arquiteturas de dados existentes também são capazes
de coletar e analisar dados. Então, por que estão falhando em
desbloquear o real potencial dos dados?
5
DATA MESH: UMA MUDANÇA DE PARADIGMA
7. Os sintomas da disfunção do
Big Data
Organizações com problemas na qualidade e no valor dos
dados exibem um conjunto comum de modos de falha:
Na ThoughtWorks, observamos os desdobramentos em nossa
prática diária de consultoria. Ainda que os investimentos em
Big Data e inteligência artificial continuem a crescer, a confiança
no valor de negócio desses investimentos está, na verdade,
diminuindo.
Falha na decolagem
Os casos de uso previstos
para os dados não decolam
Falha para escalar consumo
A organização não consegue
acompanhar as necessidades de
um número crescente de agentes
consumidores de dados
Falha para escalar fontes
À medida que mais dados
tornam-se disponíveis dentro e
fora da empresa, as fontes não
são integradas com a mesma
velocidade que se multiplicam
Falha na materialização do
valor dos dados
A falta de alinhamento entre
agentes produtores e agentes
consumidores de dados dificulta
ou impossibilita a criação de valor
7
DATA MESH: UMA MUDANÇA DE PARADIGMA
8. De acordo com um estudo da NewVantage Partners, as iniciativas
de Big Data continuam impondo desafios para a maioria das
empresas. A pesquisa indica que apenas 24% conseguiram de fato
adotar uma cultura de dados. No entanto, o problema não reside
exatamente na tecnologia. Mais de 90% das lideranças citam
pessoas e processos como obstáculos para a transformação de
suas organizações por meio de dados.
Por que as arquiteturas existentes não estão conseguindo
habilitar a transformação?
As dificuldades que as organizações enfrentam para implementar
data warehouses e data lakes têm origens semelhantes, mas
ocorrem em pontos diferentes.
O objetivo de um data warehouse é prover armazenamento de
dados estruturados com poder computacional integrado para
Ausência
de resultados concretos
Ampliação
de investimentos em
Big Data/IA
2018 2019
2018 2019
66%
19%
8
DATA MESH: UMA MUDANÇA DE PARADIGMA
9. atender a todas as necessidades da organização. No entanto,
quanto maior a empresa, menos realista isso se torna. Até mesmo
o mais simples dos domínios exigirá vários contextos delimitados
e os modelos de dados correspondentes. A sobrecarga de
tecnologias de data warehouse dificulta a adaptação a esses
contextos. Mesmo no melhor dos cenários (um único modelo de
dados é viável), a qualidade dos dados ainda pode ser prejudicada.
Os mesmos dados costumam ser mantidos por diferentes
sistemas em uma organização de TI. Os times de engenharia de
dados centrais podem encontrar dificuldades para escolher a
melhor opção para extração. Além disso, os cenários de análise
podem variar em relação ao nível de qualidade de dados exigido.
Tanto em um data warehouse quanto em um modelo de lago
de dados, a qualidade dos dados é determinada por ações que
ocorrem muito antes de que agentes consumidores de dados
entrem em ação. Talvez ainda mais crucial seja o fato de que os
indivíduos encarregados de produzir dados e os indivíduos que
consomem esses mesmos dados pertençam a setores distintos.
Um grande silo e um gargalo intransponível
Tanto data warehouses quanto data lakes criam o equivalente
a um silo gigantesco que contém petabytes de dados.
Evidentemente, essas arquiteturas são projetadas para habilitar
o acesso a todos os dados do negócio. Mas, ao contrário do que
acontece com outros silos, o problema aqui não é o bloqueio dos
dados por restrições técnicas. A questão é organizacional. Ou seja,
os times que operam esses repositórios de dados monolíticos
devem ser compostos por indivíduos hiperespecializados em
engenharia de dados.
9
DATA MESH: UMA MUDANÇA DE PARADIGMA
10. Talentos em engenharia de dados são difíceis de encontrar e caros
de contratar. Recrutar as pessoas certas para criar e administrar
um lago de dados representa um enorme obstáculo. Mas mesmo
que uma empresa seja capaz de recrutar talentos para construir
e operar seu lago de dados, os problemas não param por aí. Esse
grupo de profissionais terá que obter dados de pessoas e times
que têm pouco incentivo da organização para compartilhar apenas
dados corretos, confiáveis e relevantes.
Uma vez que os dados são adquiridos, o time de engenharia de
dados fica com a tarefa nada invejável de torná-los úteis para o
restante da organização. Sem nenhum conhecimento de domínio
ou input de um número crescente de agentes consumidores de
dados para orientar o processo.
Centralizados | Monolíticos
Dados onipresentes Plano de inovação
Big Data | IA
Plataforma
10
DATA MESH: UMA MUDANÇA DE PARADIGMA
11. Uma mudança de paradigma
que vai além da tecnologia
Para remediar a situação, é preciso abandonar o paradigma atual
orientado por sistema. Se não o fizermos, a desconexão entre
quem produz e quem consome os dados permanecerá, assim
como o silo, o gargalo no recrutamento e os modos de falha.
Em vez de seguir vendo os dados como subprodutos de outras
funções do negócio, é hora de reconhecer que os dados sempre
foram um produto por si só. Com essa nova perspectiva, podemos
superar os sistemas monolíticos e pipelines lineares, dando lugar
a uma compreensão de dados orientados a agentes consumidores
específicas, determinando não apenas a estrutura da arquitetura
de apoio, como também a estrutura da própria organização.
Pilares da abordagem de Data Mesh
Dados como
produto
Infraestrutura
dedadosde
autoatendimento
comoplataforma
Governaça
federada
Descentralização
orientada por
domínio
Cientistas de dados costumam gastar 80% ou mais de seu tempo
com descoberta e extração de dados. Mas e se as atividades de
negócio fossem desenhadas considerando os dados desde o
início? E se cientistas de dados se envolvessem integralmente em
todo o ciclo de vida dos dados?
11
DATA MESH: UMA MUDANÇA DE PARADIGMA
12. A transição para produtos de dados orientados por domínio
A escolha do domínio (em vez de um monólito) como princípio
orientador para Big Data, permite combinar expertise de domínio
com as capacidades tecnológicas necessárias para criar valor de
negócio. Vistos pelas lentes do domínio, os dados podem se tornar
um portfólio de produtos distintos. Qualquer produto de sucesso
deve encantar seu público consumidor, neste caso, a organização
de forma abrangente: analistas de dados ou qualquer pessoa que
precise trabalhar com dados.
Como criar produtos que encantam? Aproveitando a riqueza de
conhecimento que a mentalidade de produto oferece. Além disso,
quando as organizações estabelecem times de dados distribuídos
com experiência de domínio embutida, elimina-se a maior parte
dos atritos em torno da extração, limpeza e análise de dados.
Decomposição de dados em torno de domínios
Distribuição de propriedade
Domínios alinhados
com a origem
dos dados
Domínios alinhados
com dados agregados
compartilhados
Domínios alinhados
com o consumo
12
DATA MESH: UMA MUDANÇA DE PARADIGMA
13. Como definir sucesso para os dados
Para que a abordagem descentralizada e orientada por domínio
funcione, vários pré-requisitos devem ser atendidos. Um produto
de dados precisa ser:
Assim que essas qualidades forem alcançadas, o modelo terá
capacidade de escala.
A verdadeira métrica de sucesso de qualquer produto de dados
sempre é a satisfação de quem consome os dados. Também pode
fazer sentido definir o sucesso do produto em termos objetivos
e mensuráveis. Para esse fim, é possível fornecer documentação
e publicar métricas de qualidade. Um indicador de desempenho
óbvio a se rastrear, por exemplo, seria o tempo necessário para
cientistas de dados encontrarem e usarem dados relevantes.
Conectando dados interoperáveis em um ciclo de inteligência
Um dos principais recursos da malha de dados é seu modelo de
governança federado, que atinge a interoperabilidade por meio
da padronização. Somente dados interoperáveis permitem que as
análises envolvendo vários produtos de dados gerem insights e
Compartilhável e
disponível para descoberta
Autodescritivo
Endereçável
Confiável
Interoperável
Seguro
13
DATA MESH: UMA MUDANÇA DE PARADIGMA
14. ações com valor. Estes, por sua vez, influenciam o ciclo de dados
seguinte, estabelecendo um ciclo conectado de inteligência.
Execução por meio de iterações de inteligência conectada
Execução por meio de iterações de inteligência conectada
Dados
Ações
Inteligência
Infraestrutura de dados
como plataforma
Governança global
| Padrões abertos
Caso de cliente: varejista líder de vendas pela Internet na
Alemanha começa a construir sua própria malha de dados
Um site de comércio eletrônico líder de vendas na Alemanha
recentemente contratou a ThoughtWorks para ajudar na
implementação de pequenos pedaços da malha de dados para
domínios específicos, como rastreamento web e LTV de clientes. O
projeto resultou em vários insights importantes.
14
DATA MESH: UMA MUDANÇA DE PARADIGMA
15. Uma percepção fundamental foi a seguinte: quem produz os
dados deve se sentir responsável pelos mesmos. Decisões
conscientes sobre quais dados devem ser armazenados precisam
ser feitas, porque extrair e transformar dados que nunca serão
usados só gera custos desnecessários. Depois de decidir quais
dados oferecer às partes interessadas, os novos times orientados
por domínio tornam-se responsáveis por manter e servir usuários.
Dessa forma, a qualidade dos dados passa a funcionar como um
contrato entre quem produz e quem consome os dados.
Ao migrar da propriedade centralizada de dados para um modelo
descentralizado, a empresa viu uma solução para seu gargalo
de engenharia de dados, mas a solução era essencialmente
organizacional. Antes, ninguém tinha propriedade total dos dados
por domínio. Os novos produtos de dados são alinhados à origem.
A propriedade agora permanece dentro do domínio durante todo
o ciclo de vida do produto de dados.
E as infraestruturas existentes?
Ao introduzir o conceito de malha de dados, uma preocupação
que encontramos é que isso poderia tornar obsoletos os
investimentos recentes, como um lago de dados. Outra é que, em
um sistema distribuído, cada produto de dados exigiria sua própria
infraestrutura separada.
A malha de dados resolve esses problemas, oferecendo uma
infraestrutura de dados como plataforma. Em vez de exigir que
cada time de domínio crie sua própria plataforma de dados, a
infraestrutura necessária é fornecida a partir de uma plataforma
de autoatendimento.
15
DATA MESH: UMA MUDANÇA DE PARADIGMA
16. Isso dá aos times um alto grau de autonomia, ao mesmo tempo
que permite a integração de ativos centrais, como um catálogo de
dados existente.
Infraestrutura de dados | ML
como plataforma
Habilitando autonomia
Complexidade técnica abstrata em uma
infraestrutura de dados de autoatendimento
Implementação e mudança organizacional
Na malha de dados, quem produz e quem consome dados deve
trabalhar em conjunto tanto quanto possível. Do ponto de vista
organizacional, a situação ideal é quando o mesmo time produz e
consume os mesmos dados, unindo responsabilidade pelos dados
com capacidade de uso. Frequentemente, no entanto, as muitas
funções dos times de produção de dados exigem uma divisão
entre dois times, de produção e consumo, que permanecem em
comunicação direta.
16
DATA MESH: UMA MUDANÇA DE PARADIGMA
17. Portanto, não é apenas a stack de tecnologia que deve mudar.
Responsabilidades e estruturas também devem mudar para a
implementação da malha de dados. E esse processo de mudança
requer adesão dos níveis mais altos da organização.
Essa mudança transformacional pode ser alcançada de forma
incremental, movendo-se em direção à implementação por partes
pequenas. Na fase intermediária, antes que uma plataforma de
infraestrutura como serviço seja concluída, os times se formam
em torno dos domínios, usando um data warehouse ou data lake
como fonte intermediária, se necessário.
E sim, a criação da plataforma de infraestrutura como serviço
exige exatamente as mesmas habilidades de engenharia de dados
que frequentemente tornam-se gargalos em um data warehouse
ou arquitetura de lago de dados. Uma vez que a plataforma tenha
sido estabelecida, entretanto, ela separa o conhecimento de
domínio da infraestrutura. Profissionais de engenharia de dados
não precisam mais mergulhar no conhecimento do domínio
para realizar seu trabalho, aliviando a pressão que os sistemas
monolíticos criam.
17
DATA MESH: UMA MUDANÇA DE PARADIGMA
18. Conclusão
Implementar abordagens tradicionais de gerenciamento de
dados muitas vezes pode parecer algo como correr para apagar
incêndios, ou seja, tentar resolver problemas de qualidade
com mais controle de qualidade, tentar resolver gargalos da
plataforma de dados com mais profissionais de engenharia de
dados, tentar suportar um crescimento de fontes de dados com
uma infraestrutura mais sólida. A parte boa da abordagem de
Data Mesh é que ela nos ensina a olhar para o problema de uma
perspectiva totalmente diferente. Configurada da maneira correta,
uma malha de dados fica melhor à medida que há mais fontes de
dados e mais agentes consumidores de dados. Em vez de criar
mais e mais problemas, uma malha de dados libera mais insights
de negócio quando a colaboração em torno dos dados é ampliada.
A implementação de uma nova arquitetura de dados pode
ser um marco decisivo para o crescimento de uma empresa
ou para uma jornada profissional. Abordar Big Data como um
problema que pode ser resolvido apenas com tecnologia acaba
limitando o valor que as estratégias existentes podem gerar. O
sucesso depende, em vez disso, da adaptação das estruturas
organizacionais para alinhar os incentivos de quem produz os
dados com quem consome os dados. A mentalidade de produto
nos fornece as ferramentas para criar produtos de dados
excepcionais que podem desbloquear o verdadeiro potencial
das iniciativas de Big Data. A implementação da malha de dados
não requer uma migração big bang. Você não precisa abandonar
seu lago de dados existente. Em vez disso, a adoção pode
acontecer progressivamente por partes pequenas, com cada uma
contribuindo com insights para a próxima etapa.
18
DATA MESH: UMA MUDANÇA DE PARADIGMA
19. Talvez sua empresa tenha encontrado dificuldades de escala de
fontes de dados após a migração de um data warehouse para um
data lake. Você pode simplesmente estar procurando um caminho
mais rápido para o ROI de dados ou uma vantagem competitiva.
Qualquer que seja o cenário que você esteja enfrentando, uma
maneira comprovada de obter resultados mais rapidamente é
trazer especialistas com experiência na arquitetura de dados
específica que você procura implementar.
A ThoughtWorks trabalhou com várias empresas em suas
implementações de Data Mesh. Uma observação que se provou
universal é: quanto mais cedo uma organização adota a malha de
dados, mais rápido ela pode começar a gerar mais valor a partir de
seus dados. Embora a maioria dos departamentos de TI já possua
grande parte da experiência necessária para implementar uma
malha de dados, as parcerias externas podem acelerar e orientar o
processo com melhores práticas e expertise.
19
DATA MESH: UMA MUDANÇA DE PARADIGMA
20. Referências
Dehghani, Zhamak. 2019. “How to Move Beyond a Monolithic
Data Lake to a Distributed Data Mesh.” martinFowler.com
http://martinfowler.com/articles/data-monolith-to-mesh.html
Dehghani, Zhamak. 2020. “Data Mesh Principals and Logical
Architecture.” martinFowler.com
https://martinfowler.com/articles/data-mesh-principles.html
Fowler, Martin. 2015. “DataLake.” martinFowler.com
https://martinfowler.com/bliki/DataLake.html
New Vantage Partners, 2021. “Big Data and AI Executive
Survey 2021.” newvantage.com
http://c6abb8db-514c-4f5b-b5a1-fc710f1e464e.filesusr.com/ugd/
e5361a_76709448ddc6490981f0cbea42d51508.pdf
Wider, Arif. Nov. 16, 2020. “Data mesh: it’s not just about tech,
it’s about ownership and communication” thoughtworks.com
http://www.thoughtworks.com/insights/blog/data-mesh-its-not-
about-tech-its-about-ownership-and-communication
Pallozzi, Daniel. Dec. 13, 2018 “The end of data gluttony:
Principles to rejuvenate your data strategy” thoughtworks.com
https://www.thoughtworks.com/perspectives/edition2-data-article
20
DATA MESH: UMA MUDANÇA DE PARADIGMA
21. thoughtworks.com
Sobre a ThoughtWorks
Somos uma consultoria global de software e uma comunidade de
indivíduos apaixonados por tecnologia, formada por mais de 8 mil
pessoas, distribuídas por 48 escritórios em 17 países. Em nossos
mais de 25 anos de história, ajudamos clientes a resolver problemas
complexos de negócio, usando a tecnologia como diferencial.
Quando a mudança é única constante,
nós preparamos organizações para o imprevisível.
Para saber mais, visite: thoughtworks.com