Watch full webinar here: https://bit.ly/3md3YW4
Você é um dos céticos sobre o desempenho em tempo real da Virtualização de Dados? Se sim, junte-se a nós para esta sessão de webinar para que possamos demonstrar o verdadeiro valor e desempenho desta moderna tecnologia de integração de dados e tenha dito: "Uau".
A virtualização de dados é uma ferramenta que permite a integração de dados de vários locais, em vários formatos e através de diferentes latências. Muitas vezes ouvimos dizer que, por causa disso, ela deve sofrer atrasos e problemas de desempenho. Na verdade, é um dos mitos mais comuns que temos que abordar, por isso decidimos acabar com ele.
Aqui está o que vamos cobrir:
- A virtualização de dados não é só performática, mas também impulsiona o desempenho.
- Uma case real sobre um de nossos clientes e como eles estão otimizando o desempenho em sua organização.
- Uma rápida demonstração para mostrar a rapidez com que se pode executar uma consulta de múltiplas fontes usando a virtualização de dados.
GenAI y el futuro de la gestión de datos: mitos y realidades
Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?
1. W E B I N A R E M P O R T U G U Ê S
A virtualização dos dados pode
sustentar o desempenho com
consultas complexas?
Evandro Pacolla
Sales Engineer
Denodo
2. Agenda
1. Origens do Mito da Performance
2. Vamos aos fatos
3. Ver para crer
4. Q&A
5. Next Steps
3. 3
Mito #1:
A virtualização de dados não
pode ser performática com
grandes conjuntos de dados
e consultas complexas.
5. 5
Os primeiros ‘Federadores’ tiveram desempenho ruim
Os servidores da Federação de Dados não fizeram jus a sua propaganda
• As primeiras formas de virtualização de dados foram servidores da Data Federation
• e.x. IBM InfoSphere Federation Server
• Eles tinham conectividade limitada e processamento limitado de consultas
• Não conseguia lidar com consultas complexas ou dependia da recuperação de todos os dados
para processamento
• Às vezes, erroneamente posicionado como uma alternativa a um Data Warehouse
• Comparações de desempenho não foram favoráveis
• Como resultado, a Federação de Dados tem uma fama ruim
• A Federação de Dados é usada como comparação pejorativa com a Virtualização de Dados
6. 6
Desempenho ruim comparado com o quê?
Contra o quê você está comparando o desempenho de virtualização de dados?
• Comparando com um Data Warehouse?
• Isso pressupõe que todos os dados estão no Data Warehouse... É esse o caso?
• Você levou em conta o tempo, o custo e a latência introduzidos copiando todos os dados
para o Data Warehouse?
• Comparando-se com aplicativos customizados? Ou ferramentas BI (também
conhecida como ‘Data Blending')?
• Às vezes, apenas uma falta de compreensão da tecnologia de virtualização de
dados
• Assumindo que a Virtualização de Dados é uma ‘ simples federação'
8. 8
Comparação de Desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
• Testes extensivos usando consultas do teste padrão TPC-DS*.
• Compare o desempenho de uma abordagem federada no Denodo com um sistema
MPP onde todos os dados foram replicados via ETL.
Customer Dim.
2 M rows
Sales Facts
290 M rows
Items Dim.
400 K rows
* TPC-DS is the de-facto industry standard benchmark for measuring the performance of decision support solutions, including Big Data systems.
vs.
Sales Facts
290 M rows
Items Dim.
400 K rows
Customer Dim.
2 M rows
9. 9
Resultados de comparação de desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
Descrição da consulta
Linhas
Resutados Tempo Netezza
Tempo Denodo
(Federated Oracle,
Netezza & SQL Server)
Técnica de Otimização
(selecionado automaticamente)
Vendas totais por cliente 1,99 M 20.9 sec. 21.4 sec. Full aggregation push-down
Vendas totais por cliente e ano entre
2000 e 2004
5,51 M 52.3 sec. 59.0 sec Full aggregation push-down
Vendas totais por marca de item 31,35 K 4.7 sec. 5.0 sec. Partial aggregation push-down
Vendas por item onde preço de
venda é menor que o preço atual de
lista
17,05 K 3.5 sec. 5.2 sec On the fly data movement
10. 10
Plataforma Denodo – Camadas de Otimização de Desempenho
Quatro camadas de otimização de desempenho
1. Reescrita e Delegação de Consulta
• Delegar o processamento para onde os dados estão, minimizar a quantidade de dados que
passam pela rede
• Automático, mas com controles
2. Aceleração da consulta MPP
• Delegar o processamento para um Cluster de MPP
3. Cache
• Mover dados em um cache local para melhoria de desempenho
4. Filtro e Controle de acesso aos dados
• Gerenciamento da carga de trabalho nas Fontes de Dados evitando consultas desnecessárias
11. 11
Plataforma Denodo – Pipeline de Otimização de Consultas
Analise Query
• Mapeia entidades de consulta (tabelas, campos) e traduz para os campos físicos
• Recupera recursos de execução e restrições para visualizações envolvidas na
consulta
Otimizador
estático
• Delegação de Query
• Reescrita de SQL (remove filtros redundantes, Execução duplicada, reorganiza joins
inner ao inves de outer, transformation push-up, star-schema rewritings, etc.)
• Data movement query plans
Otimizador
Dinâmico
• Otimização clássica baseada em custos usando estatísticas de distribuição de dados,
índices, taxas de transferência, etc., gerando planos de consulta e selecionando o
melhor plano
• Escolhe o Join e Ordem das consultas baseado em estatística do banco
Execução
• Cria as chamadas para os sistemas subjacentes em seus protocolos e dialetos
correspondentes (SQL, MDX, chamadas WS, etc.)
12. 12
Otimização estática vs. Dinâmica
• Otimização estática:
• Com base em transformações SQL.
• Reescreve a consulta de forma mais ideal.
• Remove redundâncias, sub-trees inativos, etc.
• Delegação de Push-down:
• Otimizar a consulta enviado sub-queries para as fontes de dados resolverem, trazendo
dados o mais pronto possível.
• Otimização dinâmica:
• Use estatísticas e índices para estimar custos de planos alternativos de execução.
• Seleciona o melhor método e ordem para o Join.
13. 13
Plataforma Denodo – Técnicas de Otimização de Consultas
• Otimização avançada de consulta:
• Delegação de Query.
• Planos de query baseados em restrição de custos e origem.
• Reescrita automática de Query.
• Otimização de Joins.
• Movimento de Dados.
• Processamento multi-thread assíncrono.
• Escalabilidade linear.
14. 14
Plataforma Denodo – Aceleração da consulta MPP
Utilizando a potência de um motor MPP já instalado
• A Plataforma Denodo suporta o uso do cluster MPP para acelerar consultas
• Hive, Spark, Impala, Presto
• Operações que podem ser paralelamente podem ser movidas para cluster MPP
• e.x. GROUP BY aggregations
• Dados são copiados para cluster e operação é delegada para processamento
• Dados copiados em formato Parquet
• Resultados devolvidos à Plataforma Denodo
• Não requer nenhum comando especial do usuário
15. 15
Aceleração da consulta Denodo MPP
4.8M rows
(sales by customer)
Current Sales
60 M rows
1. Partial Aggregation
push down
Maximiza o processamento de
origem
reduz trafego pela rede 3. Transferência de dados sob
demanda
Denodo gera automaticamente
e carregar arquivos Parquet
4. Integração com dados locais
O motor detecta quando os dados
é armazenado em cache ou vem de um
tabela local já no MPP
2. Integrado com otimizador
Com base na estimativa do volume de dados e
o custo dessas operações particulares,
o CBO pode decidir mover tudo ou parte
da árvore de execução para o MPP
5. Execução paralela rápida
Suporte para Spark, Presto and Impala
para processamento analítico rápido em
soluções baratas baseadas em Hadoop
Hist. Sales
215 M rows
Customer
2 M rows
join
group by State
and Year
System Execution Time Optimization Techniques
Others ~ 39 min Simple federation
No MPP 3.4 min Aggregation push-down
With MPP 47 sec Aggregation push-down + MPP integration (Impala 4 nodes)
Group by Customer
key and Date key
Date Dim
73K rows
17. 17
Cenário 1 – Otimização de Query
Vendas de uma loja por ano
Cenário:
• Dados atuais de vendas (últimos 12 meses)
no DW
• Archiving de dados no Hadoop para
economia no armazenamento
• Os dados da loja estão em Banco de dados
• Dimensão da data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões
de linhas
join
group by Store
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Store
401 rows (RDBMS)
join
Date
73K rows (EDW)
18. 18
Cenário 2 – Aceleração da consulta por Movimentação
Média de Compras de Clientes por
Estado e Ano
Cenário:
• Dados atuais de vendas (últimos 12 meses) no
DW
• Archiving de dados no Hadoop para economia no
armazenamento
• Os dados dos clientes estão no Banco
• Dimensão de data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões de
linhas
join
group by State
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Customer
2 million rows (RDBMS)
join
Date
73K rows (EDW)
20. 20
Virtualização de dados e desempenho
Quebrando o Mito
• Quatro camadas de otimização de desempenho
• A Plataforma Denodo tem um otimizador de consulta sofisticado para processar consultas.
• Usa técnicas avançadas para aproveitar o poder das bases de dados (quando possível)
• Delegação de consultas para MPP
• Aproveite o poder do cluster MPP para processamento pesado
• Cache para acelerar fontes de dados mais lentas
• Gerenciador de recursos para otimizar consultas com SLAs rigorosos
• O desempenho é comparável ao acesso a dados em um único armazenamento de dados
• Grandes conjuntos de dados... consultas complexas... desempenho ainda é excelente
21. 21
Mito #1:
A virtualização de dados
não pode ser executada
com grandes conjuntos de
dados e consultas
complexas.