1) O documento discute 5 tendências para a gestão de dados corporativos, incluindo o uso crescente de Data Fabric, a ampliação do uso de Ciência de Dados nas decisões de negócios, e as ideias emergentes de Data Mesh.
2) Também aborda a necessidade de autoatendimento de dados para usuários de negócios e a especialização e ampliação da análise de dados.
3) A conclusão é que as tendências atuais se concentram em melhorar a qualidade dos dados, a agilidade das decisões e a gestão
2. Tendência 1
O Data Fabric se torna a base de estratégias de dados
corporativos
3. 3
Arquiteturas monolíticas são o futuro?
▪ Centralize todos os dados em um único
sistema
▪ Exemplos : Data Warehouse, Data Lake,
Data LakeHouse
▪ Conceito muito atraente para sua
simplicidade para gerenciar acesso,
segurança e governança
▪ Infelizmente, essa ideia também tem muitas
desvantagens.
4. 4
Os dados distribuídos não desaparecem
▪ Arquiteturas centralizadas foram elaboradas desde os anos 90.
No entanto, elas nunca eliminaram completamente os silos de
informação.
▪ Por que?
▪ Organizações são entidades distribuídas: diferentes unidades de
negócios tomam decisões diferentes que se adaptam às suas
necessidades
▪ Diferentes sistemas de gerenciamento de dados processam e
armazenam dados de diferentes maneiras. Um sistema não é
válido para tudo.
▪ As tecnologias evoluem rapidamente. Os DWs dos anos 2000, o
Hadoop de 2010, etc. são plataformas "legados" hoje.
▪ Nas grandes corporações, há, em média, mais de 400 fontes de
dados que são usadas na análise de dados (20% mais de 1000)
Fonte: IDG, 2021
5. Múltiplas necessidades – múltiplos sistemas
“Inerente à arquitetura LDW é o reconhecimento de que um único nível de
persistência de dados e tipo de processamento é inadequado para atender ao
escopo completo das demandas modernas de dados e análises”
The Practical Logical Data Warehouse (Dec 2020) by Henry Cook, Rick Greenwald and Adam Ronthal
6. 6
Processos lentos e rígidos
▪ Todos os dados precisam ser copiados para o sistema final
▪ Sistemas analíticos existentes especializados não são reutilizados
(por exemplo, data marts, sistemas de análise de risco, etc.)
▪ Alterações em requisitos de escopo precisam de alterações nos
fluxos finais de cópia e recriação de dados
7. 7
Uma arquitetura distribuída pode ser a solução?
• Como vimos, hoje não é realista ou viável usar um
único sistema para todas as análises de dados.
• Precisamos de colaboração em vez de competição
• No entanto, o uso de vários sistemas leva ao aumento
da complexidade do sistema, tornando-o mais
complexo para os usuários finais usarem.
• Perca agilidade ou param de usar dados-chave
• Segurança e governança de dados em um sistema
distribuído também é mais complexa
• Uma arquitetura lógica e distribuída poderia resolver
esses problemas?
DATA
QUESTIONS
Known Unknown
Known
Unknown
Innovation
and Exploration
Expanding
Understanding
and Investigating
Establishing
Value
Foundational
Core
8. 8
Arquiteturas distribuídas e lógicas
▪ Distribuídos: Os dados residem em vários
sistemas e locais
▪ Hoje, os dados têm volumes muito grandes e
uma natureza distribuída.
▪ Ambientes de nuvem e híbridos on-prem/cloud
aumentaram ainda mais a distribuição.
▪ Lógico: o consumo de dados é feito através de
uma camada semântica, dissociada da
localização e tecnologia de sistemas físicos
▪ Ponto unificado para definir semântica,
segurança e governança sobre dados
distribuídos.
▪ Abre as portas para mudanças de infraestrutura
sem impacto no consumo (por exemplo,
migração de nuvem)
9. 9
Data Fabric
• Um Data Fabric consiste na combinação de camadas
semânticas, processos de integração de dados e serviços
orientados e otimizados para a entrega de dados aos seus
consumidores.
• É baseado em uma combinação …
• Múltiplos sistemas de gerenciamento de dados.
• Diferentes estilos de integração (ETL, ELT, data-prep,
streaming, federação, etc.)
• Metadados de atividade que alimentam processos de
IA que automatizam e recomendam atividades de
gerenciamento
• O resultado: acessar e compartilhar dados de forma ágil,
informada e, em alguns casos, totalmente automatizada
10. 10
O cerne da questão é ser capaz de consolidar muitas fontes de dados
diversas de forma eficiente, permitindo que dados confiáveis sejam
entregues de todas as fontes de dados relevantes para todos os
consumidores de dados relevantes através de uma camada comum.
Source: Demystifying the Data Fabric, Gartner, September 2020
O Data fabric se concentra em automatizar a integração de processos,
transformação, preparação, curadoria, segurança, governança e
orquestração para permitir análises e insights rapidamente para o
sucesso dos negócios.
Source: Enterprise Data Fabric Wave, Forrester, June 2020
11. 11
O papel da Plataforma Denodo no Data Fabric
PLATFORM
AI/ML
Data
Catalog
Advanced
Semantic
Connectivity/Query Optimization/Caching
MPP/Smart
Query
Acceleration
Security/G
overnance
Query
Optimization
DATA VIRTUALIZATION
Self-service Data Discovery
Discover - Explore - Document
SQL/MDX Access Data as a service
RESTful / OData / GraphQL / GeoJSON
Denodo Proprietary and Confidential
Data Engineers
Administration &
Operations
Business User
& BI Analyst Data Scientist
Application
Developers
13. 13
Data Science – Um pouco de história
• Data Science é um termo genérico que engloba várias técnicas de
processamento de dados, que tem recebido muita atenção da
mídia nos últimos anos.
• No entanto, a análise de dados tem sido o trabalho de cientistas,
analistas e matemáticos.
• Na verdade, o termo ciência de dados foi usado pela primeira vez
no Japão em 1996 em uma conferência organizada pela
Federação Internacional de Sociedades de Classificação. (IFCS)
• Se você gosta de história: “A Very Short History of Data Science”
• https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-
history-of-data-science/#53641eb955cf
14. 14
Data Science – Um pouco de história
• A New York Times Magazine publicou um artigo
muito popular em 2012: Como as empresas
aprendem seus segredos.
• Conta a história de um dos primeiros "cientistas de
dados" a trabalhar no varejo (na cadeia Target), que
começou a analisar dados históricos de seus cartões
de fidelidade para melhorar a retenção de clientes
por meio de cupons personalizados.
• https://www.nytimes.com/2012/02/19/magazine/s
hopping-habits.html
• Talvez seja o primeiro exemplo de popularização do
termo em mídia não especializada.
15. 15
Data Science – Breve História
• No mesmo ano, a Harvard Business Review declarou "Cientista de Dados"
como o "Trabalho mais sexy do século 21".
▪ https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
• Hoje, muitas universidades possuem estudos especializados em Ciência de
Dados e é uma profissão consolidada.
• O termo é usado como extensão de conceitos como análise de negócios,
business intelligence, modelagem preditiva e análise estatística.
• É a base de muitos processos, como análise de riscos e recomendações no
e-commerce
• Mas também tem sido uma fonte de frustração e projetos mal sucedidos.
16. 16
A hierarquia das necessidades do cientista de dados
Tarefas na parte inferior da
pirâmide precisam de boas
práticas de gerenciamento de
dados e conhecimento do
problema do negócio
Isso nem sempre é levado em
conta no lançamento dessas
iniciativas, que em muitos
casos falham e não
conseguem entregar os
resultados desejados.
Source:
https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007
17. 17
Presente e Futuro da Ciência de Dados de Negócios
• Felizmente, após o boom inicial, a Ciência de
Dados amadureceu como disciplina.
• Ferramentas, processos e boas práticas estão
começando a valer a pena.
• Os projetos começam com expectativas realistas e
metas claras.
• Arquiteturas como o Data Fabric e os avanços em
DataOps e Self-service ML, aproximaram o uso da
IA dos processos cotidianos, com mais garantias
de sucesso do que há alguns anos.
19. 19
O que é uma Data Mesh?
▪ Data Mesh é um novo paradigma para a gestão de dados.
▪ Proposta pela consultoria ThoughtWorks em 2019.
▪ Propõe passar de uma infraestrutura centralizada de dados,
gerenciada por uma única equipe, para uma organização
mais distribuída.
▪ Diferentes unidades de negócios (domínios) são
responsáveis por criar, gerenciar e expor seus próprios
"Produtos de Dados" para o resto da organização.
▪ Os produtos de dados devem ser fáceis de usar,
documentados e acessíveis ao resto da organização.
20. 20
Que problemas está tentando resolver?
1. Falta de conhecimento empresarial de dados em equipes
centralizadas.
1. Equipes centralizadas não estão em contato com o negócio.
2. No entanto, eles são responsáveis pelo gerenciamento de dados e processos
que nem sempre entendem.
2. Falta de flexibilidade de repositórios centralizados.
1. A infraestrutura de dados é diversificada e muda com frequência.
2. Um único sistema não é adequado para todos os tipos de projetos (por
exemplo, Analítico vs Operacional)
3. Falta de agilidade e resposta à mudança.
1. Gestão de fluxos de integração e carga não é muito ágil.
2. Equipes centralizadas acabam por ser gargalo.
21. 21
Como?
• As unidades de negócios (domínios) são responsáveis por
gerenciar e expor seus próprios dados.
• As unidades de negócios conhecem seus dados melhor do que
ninguém.
• Dá-lhes autonomia para usar suas ferramentas e sistemas para a
criação desses dados..
• O resultado é menos iterações para obter os dados desejados.
• Elimina dependências de infraestrutura centralizadas.
• Isso elimina gargalos.
• Introduz novos conceitos para mitigar riscos como criação de
silos, duplicação de esforços, falta de governança ou
interoperabilidade.
• No entanto, deixa o processo de implementação muito aberto.
22. 22
Data Mesh na prática
• Data mesh uma mudança no processo e responsabilidades que gerenciam os dados
• Mas não é uma arquitetura, deixa os detalhes da implementação abertos.
• Vários fornecedores propuseram implementações usando diferentes tecnologias.
• Data Lakes com diferentes zonas para cada domínio.
• Microsserviços gerenciados inteiramente por domínios.
• Etc.
• Pessoalmente, acredito que as ideias do Data Fabric e o uso de tecnologias como o
Denodo são perfeitamente adequadas como base para a implementação das ideias
da malha de dados.
• Eles combinam os benefícios da criação de "produtos de dados" por domínios
descentralizados, com a aplicação de governança, segurança e interoperabilidade unificada
23. Tendência 4
Os dados de autoatendimento por usuários de
negócios se tornam um requisito básico para acelerar
a tomada de decisões
24. 24
Onde estão meus dados?
Web Content
Big Data Application
Graph Database
Relational
Databases
Cloud Storage
(S3, ADLS, GCS)
JSON/XML Files
SaaS Applications
Flat Files
Data Warehouse
Excel
Spreadsheets
?
25. 25
Data Marketplace
Cloud Storage
(S3, ADLS, GCS)
SaaS Applications Relational
Databases
JSON/XML Files
Flat Files
Data Warehouse
Excel
Spreadsheets Graph Database
Unified Access Data Catalog
Big Data Application
Data
Governance
26. 26
Benefícios para os usuários de negócios
Mais agilidade
▪ Mais simples, se ficar oculta a complexidade das fontes
Mais confiança nos dados.
▪ Documentação, linhagem e governança integrada.
▪ Pré-visualização incorporada.
Reutilização.
▪ Reduz duplicação de esforço e proliferação descontrolada de
folhas do Excel
27. 27
Benefícios para as equipes de TI
▪ Segurança Centralizada
▪ Acesso seguro e gerenciado a todos os dados.
▪ Integração com IdPs, SSO e AD.
▪ Auditoria fácil.
▪ Maior controle e flexibilidade.
▪ A dissociação entre acesso e execução permite
alterações nos sistemas de dados sem interromper
ou interromper processos de negócios.
▪ Exemplo, migração para nuvem.
▪ Menor custo
▪ Reduz a dependência para criar e gerenciar novos
fluxos de dados
29. 29
Análise de Dados hiper-especializada
• Consiste na aplicação de análises modernas e técnicas de IA em processos de
pequeno e pequeno alcance.
• O resultado é a criação de experiências hiper-personalizadas para o cliente, em
muitos casos em tempo real ou quase real.
• Por exemplo, a aplicação de técnicas de análise de sentimentos nos comentários
de um produto, para complementar técnicas manuais baseadas em classificações.
• Seu escopo ainda é pequeno, pois esses projetos podem consumir tantos recursos
quanto análises internas com maior impacto nos negócios.
• Mas com a simplificação e crescimento das técnicas de IA e ML, espera-se que elas
se proliferem no futuro.
30. 30
Análise de dados estendida
• Do outro lado do espectro, temos análises amplas (wide
analytics)
• Siga a tendência do Big Data e aborda o uso de mais e mais
dados de natureza mais diversificada nas análises do dia-a-dia
• Por exemplo, dados geoespaciais, internet das coisas (IoT) e
outros dados não estruturados
• Essas técnicas já são utilizadas em processos científicos, como
previsões de risco de incêndio, mas têm aplicações muito
interessantes em setores como seguros, análise de risco
financeiro, etc.
32. 32
Conclusões
• Como vimos, as tendências atuais para a gestão de
dados se concentram em três eixos:
1. Tomada de decisão baseada em dados de maior qualidade
2. Maior agilidade na geração de decisões: autoatendimento,
automação, etc..
3. Melhor gestão de processos: segurança, governança de
dados, etc.
• Para suportar essas demandas, tanto o software
quanto as arquiteturas e processos estão mudando.
• Na Denodo, estamos comprometidos com uma
arquitetura lógica e distribuída como a melhor receita
para preparar sua estratégia para o futuro.
35. 35
Comece hoje.
Experimente o Denodo com um teste
gratuito de 30 dias em marketplaces
SUPORTE
Fórum da comunidade e Engenheiro de
Vendas Remoto
OPORTUNIDADE
30 minutos de consulta gratuita com
um especialista em nuvem Denodo
denodo.link/drive22
36. 36
Discovery Session: Data Management com
Virtualização de Dados
5 de julho
Participe desta sessão on-line de 1,5 hora
para descobrir o que é a virtualização de
dados, como ela funciona e os benefícios
que pode trazer para sua organização
https://bit.ly/3GV1Hc2
37. 37
Denodo Global Cloud Survey Report 2022
A adoção da nuvem continua sua rápida
escalada, com base no interesse
sustentado nas tecnologias de nuvem, à
medida que as mudanças impulsionadas
pela pandemia no consumo e na entrega
de dados se tornam padrão
https://bit.ly/3Q4lpXe
38. O Denodo é novamente escolhido
pelos clientes no Gartner Peer
Insights™ "Voz do Cliente" 2022 sobre
ferramentas de integração de dados
LEIA O RELATÓRIO:
denodo.link/peer22
The Gartner Peer Insights Customers’ Choice badge is a trademark and service mark of
Gartner, Inc., and/or its affiliates, and is used herein with permission. All rights reserved.
Gartner Peer Insights Customers’ Choice constitute the subjective opinions of individual
end-user reviews, ratings, and data applied against a documented methodology; they
neither represent the views of, nor constitute an endorsement by, Gartner or its affiliates.