Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?

W E B I N A R E M P O R T U G U Ê S
A virtualização dos dados pode
sustentar o desempenho com
consultas complexas?
Evandro Pacolla
Sales Engineer
Denodo

Agenda
1. Origens do Mito da Performance
2. Vamos aos fatos
3. Ver para crer
4. Q&A
5. Next Steps

3
Mito #1:
A virtualização de dados não
pode ser performática com
grandes conjuntos de dados
e consultas complexas.

Origens do Mito da Performance

5
Os primeiros ‘Federadores’ tiveram desempenho ruim
Os servidores da Federação de Dados não fizeram jus a sua propaganda
• As primeiras formas de virtualização de dados foram servidores da Data Federation
• e.x. IBM InfoSphere Federation Server
• Eles tinham conectividade limitada e processamento limitado de consultas
• Não conseguia lidar com consultas complexas ou dependia da recuperação de todos os dados
para processamento
• Às vezes, erroneamente posicionado como uma alternativa a um Data Warehouse
• Comparações de desempenho não foram favoráveis
• Como resultado, a Federação de Dados tem uma fama ruim
• A Federação de Dados é usada como comparação pejorativa com a Virtualização de Dados

6
Desempenho ruim comparado com o quê?
Contra o quê você está comparando o desempenho de virtualização de dados?
• Comparando com um Data Warehouse?
• Isso pressupõe que todos os dados estão no Data Warehouse... É esse o caso?
• Você levou em conta o tempo, o custo e a latência introduzidos copiando todos os dados
para o Data Warehouse?
• Comparando-se com aplicativos customizados? Ou ferramentas BI (também
conhecida como ‘Data Blending')?
• Às vezes, apenas uma falta de compreensão da tecnologia de virtualização de
dados
• Assumindo que a Virtualização de Dados é uma ‘ simples federação'

8
Comparação de Desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
• Testes extensivos usando consultas do teste padrão TPC-DS*.
• Compare o desempenho de uma abordagem federada no Denodo com um sistema
MPP onde todos os dados foram replicados via ETL.
Customer Dim.
2 M rows
Sales Facts
290 M rows
Items Dim.
400 K rows
* TPC-DS is the de-facto industry standard benchmark for measuring the performance of decision support solutions, including Big Data systems.
vs.
Sales Facts
290 M rows
Items Dim.
400 K rows
Customer Dim.
2 M rows

9
Resultados de comparação de desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
Descrição da consulta
Linhas
Resutados Tempo Netezza
Tempo Denodo
(Federated Oracle,
Netezza & SQL Server)
Técnica de Otimização
(selecionado automaticamente)
Vendas totais por cliente 1,99 M 20.9 sec. 21.4 sec. Full aggregation push-down
Vendas totais por cliente e ano entre
2000 e 2004
5,51 M 52.3 sec. 59.0 sec Full aggregation push-down
Vendas totais por marca de item 31,35 K 4.7 sec. 5.0 sec. Partial aggregation push-down
Vendas por item onde preço de
venda é menor que o preço atual de
lista
17,05 K 3.5 sec. 5.2 sec On the fly data movement

10
Plataforma Denodo – Camadas de Otimização de Desempenho
Quatro camadas de otimização de desempenho
1. Reescrita e Delegação de Consulta
• Delegar o processamento para onde os dados estão, minimizar a quantidade de dados que
passam pela rede
• Automático, mas com controles
2. Aceleração da consulta MPP
• Delegar o processamento para um Cluster de MPP
3. Cache
• Mover dados em um cache local para melhoria de desempenho
4. Filtro e Controle de acesso aos dados
• Gerenciamento da carga de trabalho nas Fontes de Dados evitando consultas desnecessárias

11
Plataforma Denodo – Pipeline de Otimização de Consultas
Analise Query
• Mapeia entidades de consulta (tabelas, campos) e traduz para os campos físicos
• Recupera recursos de execução e restrições para visualizações envolvidas na
consulta
Otimizador
estático
• Delegação de Query
• Reescrita de SQL (remove filtros redundantes, Execução duplicada, reorganiza joins
inner ao inves de outer, transformation push-up, star-schema rewritings, etc.)
• Data movement query plans
Otimizador
Dinâmico
• Otimização clássica baseada em custos usando estatísticas de distribuição de dados,
índices, taxas de transferência, etc., gerando planos de consulta e selecionando o
melhor plano
• Escolhe o Join e Ordem das consultas baseado em estatística do banco
Execução
• Cria as chamadas para os sistemas subjacentes em seus protocolos e dialetos
correspondentes (SQL, MDX, chamadas WS, etc.)

12
Otimização estática vs. Dinâmica
• Otimização estática:
• Com base em transformações SQL.
• Reescreve a consulta de forma mais ideal.
• Remove redundâncias, sub-trees inativos, etc.
• Delegação de Push-down:
• Otimizar a consulta enviado sub-queries para as fontes de dados resolverem, trazendo
dados o mais pronto possível.
• Otimização dinâmica:
• Use estatísticas e índices para estimar custos de planos alternativos de execução.
• Seleciona o melhor método e ordem para o Join.

13
Plataforma Denodo – Técnicas de Otimização de Consultas
• Otimização avançada de consulta:
• Delegação de Query.
• Planos de query baseados em restrição de custos e origem.
• Reescrita automática de Query.
• Otimização de Joins.
• Movimento de Dados.
• Processamento multi-thread assíncrono.
• Escalabilidade linear.

14
Plataforma Denodo – Aceleração da consulta MPP
Utilizando a potência de um motor MPP já instalado
• A Plataforma Denodo suporta o uso do cluster MPP para acelerar consultas
• Hive, Spark, Impala, Presto
• Operações que podem ser paralelamente podem ser movidas para cluster MPP
• e.x. GROUP BY aggregations
• Dados são copiados para cluster e operação é delegada para processamento
• Dados copiados em formato Parquet
• Resultados devolvidos à Plataforma Denodo
• Não requer nenhum comando especial do usuário

15
Aceleração da consulta Denodo MPP
4.8M rows
(sales by customer)
Current Sales
60 M rows
1. Partial Aggregation
push down
Maximiza o processamento de
origem
reduz trafego pela rede 3. Transferência de dados sob
demanda
Denodo gera automaticamente
e carregar arquivos Parquet
4. Integração com dados locais
O motor detecta quando os dados
é armazenado em cache ou vem de um
tabela local já no MPP
2. Integrado com otimizador
Com base na estimativa do volume de dados e
o custo dessas operações particulares,
o CBO pode decidir mover tudo ou parte
da árvore de execução para o MPP
5. Execução paralela rápida
Suporte para Spark, Presto and Impala
para processamento analítico rápido em
soluções baratas baseadas em Hadoop
Hist. Sales
215 M rows
Customer
2 M rows
join
group by State
and Year
System Execution Time Optimization Techniques
Others ~ 39 min Simple federation
No MPP 3.4 min Aggregation push-down
With MPP 47 sec Aggregation push-down + MPP integration (Impala 4 nodes)
Group by Customer
key and Date key
Date Dim
73K rows

17
Cenário 1 – Otimização de Query
Vendas de uma loja por ano
Cenário:
• Dados atuais de vendas (últimos 12 meses)
no DW
• Archiving de dados no Hadoop para
economia no armazenamento
• Os dados da loja estão em Banco de dados
• Dimensão da data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões
de linhas
join
group by Store
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Store
401 rows (RDBMS)
join
Date
73K rows (EDW)

18
Cenário 2 – Aceleração da consulta por Movimentação
Média de Compras de Clientes por
Estado e Ano
Cenário:
• Dados atuais de vendas (últimos 12 meses) no
DW
• Archiving de dados no Hadoop para economia no
armazenamento
• Os dados dos clientes estão no Banco
• Dimensão de data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões de
linhas
join
group by State
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Customer
2 million rows (RDBMS)
join
Date
73K rows (EDW)

20
Virtualização de dados e desempenho
Quebrando o Mito
• Quatro camadas de otimização de desempenho
• A Plataforma Denodo tem um otimizador de consulta sofisticado para processar consultas.
• Usa técnicas avançadas para aproveitar o poder das bases de dados (quando possível)
• Delegação de consultas para MPP
• Aproveite o poder do cluster MPP para processamento pesado
• Cache para acelerar fontes de dados mais lentas
• Gerenciador de recursos para otimizar consultas com SLAs rigorosos
• O desempenho é comparável ao acesso a dados em um único armazenamento de dados
• Grandes conjuntos de dados... consultas complexas... desempenho ainda é excelente

21
Mito #1:
A virtualização de dados
não pode ser executada
com grandes conjuntos de
dados e consultas
complexas.

23
Next Steps
Access Denodo Platform in the Cloud!
Take a Test Drive today!
www.denodo.com/TestDrive
GET STARTED TODAY

Obrigado!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?

Semelhante a Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas? (20)

Mais de Denodo

Mais de Denodo (20)

Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?