SlideShare uma empresa Scribd logo
1 de 24
Baixar para ler offline
W E B I N A R E M P O R T U G U Ê S
A virtualização dos dados pode
sustentar o desempenho com
consultas complexas?
Evandro Pacolla
Sales Engineer
Denodo
Agenda
1. Origens do Mito da Performance
2. Vamos aos fatos
3. Ver para crer
4. Q&A
5. Next Steps
3
Mito #1:
A virtualização de dados não
pode ser performática com
grandes conjuntos de dados
e consultas complexas.
Origens do Mito da Performance
5
Os primeiros ‘Federadores’ tiveram desempenho ruim
Os servidores da Federação de Dados não fizeram jus a sua propaganda
• As primeiras formas de virtualização de dados foram servidores da Data Federation
• e.x. IBM InfoSphere Federation Server
• Eles tinham conectividade limitada e processamento limitado de consultas
• Não conseguia lidar com consultas complexas ou dependia da recuperação de todos os dados
para processamento
• Às vezes, erroneamente posicionado como uma alternativa a um Data Warehouse
• Comparações de desempenho não foram favoráveis
• Como resultado, a Federação de Dados tem uma fama ruim
• A Federação de Dados é usada como comparação pejorativa com a Virtualização de Dados
6
Desempenho ruim comparado com o quê?
Contra o quê você está comparando o desempenho de virtualização de dados?
• Comparando com um Data Warehouse?
• Isso pressupõe que todos os dados estão no Data Warehouse... É esse o caso?
• Você levou em conta o tempo, o custo e a latência introduzidos copiando todos os dados
para o Data Warehouse?
• Comparando-se com aplicativos customizados? Ou ferramentas BI (também
conhecida como ‘Data Blending')?
• Às vezes, apenas uma falta de compreensão da tecnologia de virtualização de
dados
• Assumindo que a Virtualização de Dados é uma ‘ simples federação'
Vamos aos Fatos
8
Comparação de Desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
• Testes extensivos usando consultas do teste padrão TPC-DS*.
• Compare o desempenho de uma abordagem federada no Denodo com um sistema
MPP onde todos os dados foram replicados via ETL.
Customer Dim.
2 M rows
Sales Facts
290 M rows
Items Dim.
400 K rows
* TPC-DS is the de-facto industry standard benchmark for measuring the performance of decision support solutions, including Big Data systems.
vs.
Sales Facts
290 M rows
Items Dim.
400 K rows
Customer Dim.
2 M rows
9
Resultados de comparação de desempenho
Depósito de Dados Lógico vs. Data Warehouse Físico
Descrição da consulta
Linhas
Resutados Tempo Netezza
Tempo Denodo
(Federated Oracle,
Netezza & SQL Server)
Técnica de Otimização
(selecionado automaticamente)
Vendas totais por cliente 1,99 M 20.9 sec. 21.4 sec. Full aggregation push-down
Vendas totais por cliente e ano entre
2000 e 2004
5,51 M 52.3 sec. 59.0 sec Full aggregation push-down
Vendas totais por marca de item 31,35 K 4.7 sec. 5.0 sec. Partial aggregation push-down
Vendas por item onde preço de
venda é menor que o preço atual de
lista
17,05 K 3.5 sec. 5.2 sec On the fly data movement
10
Plataforma Denodo – Camadas de Otimização de Desempenho
Quatro camadas de otimização de desempenho
1. Reescrita e Delegação de Consulta
• Delegar o processamento para onde os dados estão, minimizar a quantidade de dados que
passam pela rede
• Automático, mas com controles
2. Aceleração da consulta MPP
• Delegar o processamento para um Cluster de MPP
3. Cache
• Mover dados em um cache local para melhoria de desempenho
4. Filtro e Controle de acesso aos dados
• Gerenciamento da carga de trabalho nas Fontes de Dados evitando consultas desnecessárias
11
Plataforma Denodo – Pipeline de Otimização de Consultas
Analise Query
• Mapeia entidades de consulta (tabelas, campos) e traduz para os campos físicos
• Recupera recursos de execução e restrições para visualizações envolvidas na
consulta
Otimizador
estático
• Delegação de Query
• Reescrita de SQL (remove filtros redundantes, Execução duplicada, reorganiza joins
inner ao inves de outer, transformation push-up, star-schema rewritings, etc.)
• Data movement query plans
Otimizador
Dinâmico
• Otimização clássica baseada em custos usando estatísticas de distribuição de dados,
índices, taxas de transferência, etc., gerando planos de consulta e selecionando o
melhor plano
• Escolhe o Join e Ordem das consultas baseado em estatística do banco
Execução
• Cria as chamadas para os sistemas subjacentes em seus protocolos e dialetos
correspondentes (SQL, MDX, chamadas WS, etc.)
12
Otimização estática vs. Dinâmica
• Otimização estática:
• Com base em transformações SQL.
• Reescreve a consulta de forma mais ideal.
• Remove redundâncias, sub-trees inativos, etc.
• Delegação de Push-down:
• Otimizar a consulta enviado sub-queries para as fontes de dados resolverem, trazendo
dados o mais pronto possível.
• Otimização dinâmica:
• Use estatísticas e índices para estimar custos de planos alternativos de execução.
• Seleciona o melhor método e ordem para o Join.
13
Plataforma Denodo – Técnicas de Otimização de Consultas
• Otimização avançada de consulta:
• Delegação de Query.
• Planos de query baseados em restrição de custos e origem.
• Reescrita automática de Query.
• Otimização de Joins.
• Movimento de Dados.
• Processamento multi-thread assíncrono.
• Escalabilidade linear.
14
Plataforma Denodo – Aceleração da consulta MPP
Utilizando a potência de um motor MPP já instalado
• A Plataforma Denodo suporta o uso do cluster MPP para acelerar consultas
• Hive, Spark, Impala, Presto
• Operações que podem ser paralelamente podem ser movidas para cluster MPP
• e.x. GROUP BY aggregations
• Dados são copiados para cluster e operação é delegada para processamento
• Dados copiados em formato Parquet
• Resultados devolvidos à Plataforma Denodo
• Não requer nenhum comando especial do usuário
15
Aceleração da consulta Denodo MPP
4.8M rows
(sales by customer)
Current Sales
60 M rows
1. Partial Aggregation
push down
Maximiza o processamento de
origem
reduz trafego pela rede 3. Transferência de dados sob
demanda
Denodo gera automaticamente
e carregar arquivos Parquet
4. Integração com dados locais
O motor detecta quando os dados
é armazenado em cache ou vem de um
tabela local já no MPP
2. Integrado com otimizador
Com base na estimativa do volume de dados e
o custo dessas operações particulares,
o CBO pode decidir mover tudo ou parte
da árvore de execução para o MPP
5. Execução paralela rápida
Suporte para Spark, Presto and Impala
para processamento analítico rápido em
soluções baratas baseadas em Hadoop
Hist. Sales
215 M rows
Customer
2 M rows
join
group by State
and Year
System Execution Time Optimization Techniques
Others ~ 39 min Simple federation
No MPP 3.4 min Aggregation push-down
With MPP 47 sec Aggregation push-down + MPP integration (Impala 4 nodes)
Group by Customer
key and Date key
Date Dim
73K rows
Vendo para crer
17
Cenário 1 – Otimização de Query
Vendas de uma loja por ano
Cenário:
• Dados atuais de vendas (últimos 12 meses)
no DW
• Archiving de dados no Hadoop para
economia no armazenamento
• Os dados da loja estão em Banco de dados
• Dimensão da data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões
de linhas
join
group by Store
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Store
401 rows (RDBMS)
join
Date
73K rows (EDW)
18
Cenário 2 – Aceleração da consulta por Movimentação
Média de Compras de Clientes por
Estado e Ano
Cenário:
• Dados atuais de vendas (últimos 12 meses) no
DW
• Archiving de dados no Hadoop para economia no
armazenamento
• Os dados dos clientes estão no Banco
• Dimensão de data no DW
Volumes de dados muito grandes:
• Tabelas de vendas têm dezenas de milhões de
linhas
join
group by State
and Year
union
Current Sales
3 million rows
Historical Sales
28 million rows
Customer
2 million rows (RDBMS)
join
Date
73K rows (EDW)
Resumo e Conclusões
20
Virtualização de dados e desempenho
Quebrando o Mito
• Quatro camadas de otimização de desempenho
• A Plataforma Denodo tem um otimizador de consulta sofisticado para processar consultas.
• Usa técnicas avançadas para aproveitar o poder das bases de dados (quando possível)
• Delegação de consultas para MPP
• Aproveite o poder do cluster MPP para processamento pesado
• Cache para acelerar fontes de dados mais lentas
• Gerenciador de recursos para otimizar consultas com SLAs rigorosos
• O desempenho é comparável ao acesso a dados em um único armazenamento de dados
• Grandes conjuntos de dados... consultas complexas... desempenho ainda é excelente
21
Mito #1:
A virtualização de dados
não pode ser executada
com grandes conjuntos de
dados e consultas
complexas.
Q&A
23
Next Steps
Access Denodo Platform in the Cloud!
Take a Test Drive today!
www.denodo.com/TestDrive
GET STARTED TODAY
Obrigado!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Mais conteúdo relacionado

Mais procurados

Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoThiago Santiago
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big dataiseltech
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018everis
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2WSO2
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
 

Mais procurados (19)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
Palantir
PalantirPalantir
Palantir
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big data
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
 
BigData
BigDataBigData
BigData
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 

Semelhante a Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?

Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
TimesTen In-Memory Database
TimesTen In-Memory DatabaseTimesTen In-Memory Database
TimesTen In-Memory DatabaseAndre Danelon
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduceKarla Okada
 
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...Ricardo Ferreira
 
Banco de dados na nuvem e isso é possível
Banco de dados na nuvem e isso é possívelBanco de dados na nuvem e isso é possível
Banco de dados na nuvem e isso é possívelMarcos Freccia
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídosluanrjesus
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...CPqD
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
 
Arquitetura de Cluster do Google
Arquitetura de Cluster do GoogleArquitetura de Cluster do Google
Arquitetura de Cluster do GoogleRafael Barbolo
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Marcos William Valentini
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Marcos William Valentini
 
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MERRodrigo Kiyoshi Saito
 

Semelhante a Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas? (20)

Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
TimesTen In-Memory Database
TimesTen In-Memory DatabaseTimesTen In-Memory Database
TimesTen In-Memory Database
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Padrões de Design para MapReduce
Padrões de Design para MapReducePadrões de Design para MapReduce
Padrões de Design para MapReduce
 
Sql Server
Sql ServerSql Server
Sql Server
 
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...
Patterns & Best Practices para uma Arquitetura de Software Baseada em In-Memo...
 
Banco de dados na nuvem e isso é possível
Banco de dados na nuvem e isso é possívelBanco de dados na nuvem e isso é possível
Banco de dados na nuvem e isso é possível
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
 
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
Projeto InterVoIP - Arquitetura - I Workshop CPqD de Inovação Tecnológica em ...
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
 
Arquitetura de Cluster do Google
Arquitetura de Cluster do GoogleArquitetura de Cluster do Google
Arquitetura de Cluster do Google
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
 
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
2019-2 - BD I - Aula 02 - Camadas de aplicação a Banco de Dados e Introd MER
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Apostila Oracle 10g
Apostila Oracle 10gApostila Oracle 10g
Apostila Oracle 10g
 
Inovacao em-escala-final
Inovacao em-escala-finalInovacao em-escala-final
Inovacao em-escala-final
 

Mais de Denodo

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoDenodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerDenodo
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?Denodo
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeDenodo
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Denodo
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationDenodo
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Denodo
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardDenodo
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Denodo
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Denodo
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?Denodo
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsDenodo
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityDenodo
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesDenodo
 

Mais de Denodo (20)

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in Denodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services Layer
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business Landscape
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory Compliance
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me Anything
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usability
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidades
 

Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com consultas complexas?

  • 1. W E B I N A R E M P O R T U G U Ê S A virtualização dos dados pode sustentar o desempenho com consultas complexas? Evandro Pacolla Sales Engineer Denodo
  • 2. Agenda 1. Origens do Mito da Performance 2. Vamos aos fatos 3. Ver para crer 4. Q&A 5. Next Steps
  • 3. 3 Mito #1: A virtualização de dados não pode ser performática com grandes conjuntos de dados e consultas complexas.
  • 4. Origens do Mito da Performance
  • 5. 5 Os primeiros ‘Federadores’ tiveram desempenho ruim Os servidores da Federação de Dados não fizeram jus a sua propaganda • As primeiras formas de virtualização de dados foram servidores da Data Federation • e.x. IBM InfoSphere Federation Server • Eles tinham conectividade limitada e processamento limitado de consultas • Não conseguia lidar com consultas complexas ou dependia da recuperação de todos os dados para processamento • Às vezes, erroneamente posicionado como uma alternativa a um Data Warehouse • Comparações de desempenho não foram favoráveis • Como resultado, a Federação de Dados tem uma fama ruim • A Federação de Dados é usada como comparação pejorativa com a Virtualização de Dados
  • 6. 6 Desempenho ruim comparado com o quê? Contra o quê você está comparando o desempenho de virtualização de dados? • Comparando com um Data Warehouse? • Isso pressupõe que todos os dados estão no Data Warehouse... É esse o caso? • Você levou em conta o tempo, o custo e a latência introduzidos copiando todos os dados para o Data Warehouse? • Comparando-se com aplicativos customizados? Ou ferramentas BI (também conhecida como ‘Data Blending')? • Às vezes, apenas uma falta de compreensão da tecnologia de virtualização de dados • Assumindo que a Virtualização de Dados é uma ‘ simples federação'
  • 8. 8 Comparação de Desempenho Depósito de Dados Lógico vs. Data Warehouse Físico • Testes extensivos usando consultas do teste padrão TPC-DS*. • Compare o desempenho de uma abordagem federada no Denodo com um sistema MPP onde todos os dados foram replicados via ETL. Customer Dim. 2 M rows Sales Facts 290 M rows Items Dim. 400 K rows * TPC-DS is the de-facto industry standard benchmark for measuring the performance of decision support solutions, including Big Data systems. vs. Sales Facts 290 M rows Items Dim. 400 K rows Customer Dim. 2 M rows
  • 9. 9 Resultados de comparação de desempenho Depósito de Dados Lógico vs. Data Warehouse Físico Descrição da consulta Linhas Resutados Tempo Netezza Tempo Denodo (Federated Oracle, Netezza & SQL Server) Técnica de Otimização (selecionado automaticamente) Vendas totais por cliente 1,99 M 20.9 sec. 21.4 sec. Full aggregation push-down Vendas totais por cliente e ano entre 2000 e 2004 5,51 M 52.3 sec. 59.0 sec Full aggregation push-down Vendas totais por marca de item 31,35 K 4.7 sec. 5.0 sec. Partial aggregation push-down Vendas por item onde preço de venda é menor que o preço atual de lista 17,05 K 3.5 sec. 5.2 sec On the fly data movement
  • 10. 10 Plataforma Denodo – Camadas de Otimização de Desempenho Quatro camadas de otimização de desempenho 1. Reescrita e Delegação de Consulta • Delegar o processamento para onde os dados estão, minimizar a quantidade de dados que passam pela rede • Automático, mas com controles 2. Aceleração da consulta MPP • Delegar o processamento para um Cluster de MPP 3. Cache • Mover dados em um cache local para melhoria de desempenho 4. Filtro e Controle de acesso aos dados • Gerenciamento da carga de trabalho nas Fontes de Dados evitando consultas desnecessárias
  • 11. 11 Plataforma Denodo – Pipeline de Otimização de Consultas Analise Query • Mapeia entidades de consulta (tabelas, campos) e traduz para os campos físicos • Recupera recursos de execução e restrições para visualizações envolvidas na consulta Otimizador estático • Delegação de Query • Reescrita de SQL (remove filtros redundantes, Execução duplicada, reorganiza joins inner ao inves de outer, transformation push-up, star-schema rewritings, etc.) • Data movement query plans Otimizador Dinâmico • Otimização clássica baseada em custos usando estatísticas de distribuição de dados, índices, taxas de transferência, etc., gerando planos de consulta e selecionando o melhor plano • Escolhe o Join e Ordem das consultas baseado em estatística do banco Execução • Cria as chamadas para os sistemas subjacentes em seus protocolos e dialetos correspondentes (SQL, MDX, chamadas WS, etc.)
  • 12. 12 Otimização estática vs. Dinâmica • Otimização estática: • Com base em transformações SQL. • Reescreve a consulta de forma mais ideal. • Remove redundâncias, sub-trees inativos, etc. • Delegação de Push-down: • Otimizar a consulta enviado sub-queries para as fontes de dados resolverem, trazendo dados o mais pronto possível. • Otimização dinâmica: • Use estatísticas e índices para estimar custos de planos alternativos de execução. • Seleciona o melhor método e ordem para o Join.
  • 13. 13 Plataforma Denodo – Técnicas de Otimização de Consultas • Otimização avançada de consulta: • Delegação de Query. • Planos de query baseados em restrição de custos e origem. • Reescrita automática de Query. • Otimização de Joins. • Movimento de Dados. • Processamento multi-thread assíncrono. • Escalabilidade linear.
  • 14. 14 Plataforma Denodo – Aceleração da consulta MPP Utilizando a potência de um motor MPP já instalado • A Plataforma Denodo suporta o uso do cluster MPP para acelerar consultas • Hive, Spark, Impala, Presto • Operações que podem ser paralelamente podem ser movidas para cluster MPP • e.x. GROUP BY aggregations • Dados são copiados para cluster e operação é delegada para processamento • Dados copiados em formato Parquet • Resultados devolvidos à Plataforma Denodo • Não requer nenhum comando especial do usuário
  • 15. 15 Aceleração da consulta Denodo MPP 4.8M rows (sales by customer) Current Sales 60 M rows 1. Partial Aggregation push down Maximiza o processamento de origem reduz trafego pela rede 3. Transferência de dados sob demanda Denodo gera automaticamente e carregar arquivos Parquet 4. Integração com dados locais O motor detecta quando os dados é armazenado em cache ou vem de um tabela local já no MPP 2. Integrado com otimizador Com base na estimativa do volume de dados e o custo dessas operações particulares, o CBO pode decidir mover tudo ou parte da árvore de execução para o MPP 5. Execução paralela rápida Suporte para Spark, Presto and Impala para processamento analítico rápido em soluções baratas baseadas em Hadoop Hist. Sales 215 M rows Customer 2 M rows join group by State and Year System Execution Time Optimization Techniques Others ~ 39 min Simple federation No MPP 3.4 min Aggregation push-down With MPP 47 sec Aggregation push-down + MPP integration (Impala 4 nodes) Group by Customer key and Date key Date Dim 73K rows
  • 17. 17 Cenário 1 – Otimização de Query Vendas de uma loja por ano Cenário: • Dados atuais de vendas (últimos 12 meses) no DW • Archiving de dados no Hadoop para economia no armazenamento • Os dados da loja estão em Banco de dados • Dimensão da data no DW Volumes de dados muito grandes: • Tabelas de vendas têm dezenas de milhões de linhas join group by Store and Year union Current Sales 3 million rows Historical Sales 28 million rows Store 401 rows (RDBMS) join Date 73K rows (EDW)
  • 18. 18 Cenário 2 – Aceleração da consulta por Movimentação Média de Compras de Clientes por Estado e Ano Cenário: • Dados atuais de vendas (últimos 12 meses) no DW • Archiving de dados no Hadoop para economia no armazenamento • Os dados dos clientes estão no Banco • Dimensão de data no DW Volumes de dados muito grandes: • Tabelas de vendas têm dezenas de milhões de linhas join group by State and Year union Current Sales 3 million rows Historical Sales 28 million rows Customer 2 million rows (RDBMS) join Date 73K rows (EDW)
  • 20. 20 Virtualização de dados e desempenho Quebrando o Mito • Quatro camadas de otimização de desempenho • A Plataforma Denodo tem um otimizador de consulta sofisticado para processar consultas. • Usa técnicas avançadas para aproveitar o poder das bases de dados (quando possível) • Delegação de consultas para MPP • Aproveite o poder do cluster MPP para processamento pesado • Cache para acelerar fontes de dados mais lentas • Gerenciador de recursos para otimizar consultas com SLAs rigorosos • O desempenho é comparável ao acesso a dados em um único armazenamento de dados • Grandes conjuntos de dados... consultas complexas... desempenho ainda é excelente
  • 21. 21 Mito #1: A virtualização de dados não pode ser executada com grandes conjuntos de dados e consultas complexas.
  • 22. Q&A
  • 23. 23 Next Steps Access Denodo Platform in the Cloud! Take a Test Drive today! www.denodo.com/TestDrive GET STARTED TODAY
  • 24. Obrigado! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.