- O artigo compara o desempenho do processamento de consultas em bases de dados NoSQL e relacionais, utilizando ferramentas que seguem os modelos orientados a colunas e documentos, além do modelo relacional.
- São realizados testes experimentais utilizando duas bases de dados sintéticas contendo diferentes volumes de dados, comparando o desempenho de cada ferramenta para processar consultas OLAP.
- Os resultados indicam que a configuração FastBit + VFV apresentou os melhores resultados no desempenho do processamento de consultas, benef
Resenha de artigo - Query Processing over Data Warehouse using Relational Databases and NoSQL
1. MBA em Arquitetura de Soluções 1 Administração de SGDB e Modelagem de Dados
PÓS-GRADUAÇÃOPÓS-GRADUAÇÃO
MBA em Arquitetura de Soluções
Módulo Arquitetura de Informações
Query Processing Over Data Warehouse using relational
Databases and NoSQL
Constantino Junior
Felipe Caparell
Felipe Lima
Robson Moreira
Profa
Dra
Regina Cantele
Out/2013
2. MBA em Arquitetura de Soluções 2 Administração de SGDB e Modelagem de Dados
1. Introdução
1.1 Resenha do Artigo
1.2 Objetivo(s)
1.3 Contribuições do Artigo
1.4 Organização
2. Fundamentos: Data Warehouse
3. Fundamentos: NoSQL
4. Resultados
5. Conclusões
SUMÁRIOSUMÁRIO
3. MBA em Arquitetura de Soluções 3 Administração de SGDB e Modelagem de Dados
Comparar o desempenho do processamento de
consulta em bases NoSQL e relacionais
Exemplificar a aplicação de cada modelo
(NoSQL e relacional)
Apresentar os 3 tipos existentes de modelos
de dados NoSQL:
Chave-valor
Orientado a coluna
Orientado a documentos
• São comparadas ferramentas que seguem os modelos
orientados a colunas e documentos com o modelo
relacional
1.1 INTRODUÇÃO: RESENHA DE ARTIGO1.1 INTRODUÇÃO: RESENHA DE ARTIGO
4. MBA em Arquitetura de Soluções 4 Administração de SGDB e Modelagem de Dados
Motivação do artigo: Investigar e Comparar o
uso de modelos de dados NoSQL e
relacional, utilizando as principais técnicas
para otimização de processamento de
consultas OLAP sobre DW.
1.2 OBJETIVO(S)1.2 OBJETIVO(S)
5. MBA em Arquitetura de Soluções 5 Administração de SGDB e Modelagem de Dados
Comparação das técnicas de processamento de
consultas sobre DW em diferentes ferramentas
desenvolvidas seguindo modelos de bases de
dados NoSQL e relacional;
Realização de testes experimentais usando duas
bases de dados sintéticas contendo diferentes
volumes de dados para cada um dos modelos
orientados a colunas e a documentos, além de bases
de dados relacionais;
Identificação de cenários eficientes, usados nas
comparações nesse artigo, para o processamento
de consultas em DW, auxiliando a construção de
ferramentas OLAP para processar consultas com
baixo tempo de resposta.
1.3 CONTRIBUIÇÕES DO ARTIGO1.3 CONTRIBUIÇÕES DO ARTIGO
6. MBA em Arquitetura de Soluções 6 Administração de SGDB e Modelagem de Dados
O artigo está dividido em:
Seção 2: Apresentação dos conceitos fundamentais
Seção 3: Discussão dos resultados dos testes
Seção 4: Conclusão sobre os resultados obtidos
1.4 ORGANIZAÇÃO DO ARTIGO1.4 ORGANIZAÇÃO DO ARTIGO
7. MBA em Arquitetura de Soluções 7 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Integra informações de diversas fontes para a tomada de decisões
estratégicas.
Base de dados histórica, não volátil, e intrinsecamente volumosa.
São executadas Consultas Analíticas processadas por OLAP.
8. MBA em Arquitetura de Soluções 8 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Conceitualmente um DW é representado por meio de
um hipercubo de dados multidimensional
9. MBA em Arquitetura de Soluções 9 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
O projeto lógico de um DW pode utilizar o esquema
estrela ou o esquema floco de neve.
10. 0 MBA em Arquitetura de Soluções 10 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Ambos os esquemas são compostos por uma
tabela de fatos e por tabelas de dimensão
Tabela de fatos: armazena as medidas que
representam quantitativamente o negócio
analisado, além de manter chaves estrangeiras
para as tabelas de dimensão
Tabela de dimensão: fornece as características do
negócio e seus atributos podem formar hierarquias
11. 1 MBA em Arquitetura de Soluções 11 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Hierarquias de atributos permitem a agregação de
dados e consequentemente o processamento de
consultas drill-down e roll-up, amplamente usadas
em aplicações OLAP
O esquema floco de neve difere do esquema
estrela por normalizar as hierarquias contidas nas
tabelas de dimensão, aumentando assim o número
de junções.
12. 2 MBA em Arquitetura de Soluções 12 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Ferramentas OLAP
Processam Consultas Analíticas
Fornecem Visões Multidimensionais
Suportam Planejamento Estratégico
Para a tomada de decisão estratégica, um fator de
importância é o processamento eficiente de
consultas OLAP para reduzir o alto tempo de
resposta
13. 3 MBA em Arquitetura de Soluções 13 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Processamento no DW:
Junção Estrela - forma mais custosa para se
processar uma consulta em DW
Técnicas para melhorar o desempenho:
Fragmentação dos dados
Visão materializada
Estruturas de indexação
14. 4 MBA em Arquitetura de Soluções 14 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Fragmentação dos dados
Visão fragmentada verticalmente (VFV)
Conjunto mínimo de atributos necessários
VFV computa previamente junções envolvidas
entre as tabelas de dimensão e fatos
Consultas sobre VFV dispensam o uso de junções
15. 5 MBA em Arquitetura de Soluções 15 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Visão materializada (VM)
Conjunto mínimo de atributos
VM ocupa menos espaço de armazenamento que
uma VFV em operações de filtragem
A construção da VM computa previamente as
junções e agrupamentos entre as tabelas de
dimensão e fatos
Processa previamente agrupamentos e resultados
das funções de agregação sobre as medidas
VM reduz os dados armazenados devido ao seu
agrupamento
16. 6 MBA em Arquitetura de Soluções 16 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Estrutura de Indexação
Índice bitmap de junção
Composto por vetores de bits (valores 0 e 1)
Um vetor para cada valor distinto do domínio
Principal vantagem: realiza operações bit-a-bit
Criado sobre atributos das tabelas de dimensão
Objetivo: evitar a operação de junção das tabelas
de dimensão com a tabela de fatos
17. 7 MBA em Arquitetura de Soluções 17 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
NoSQL: desenvolvidos visando atender os
seguintes aspectos:
Alta concorrência na escrita e leitura de dados
Armazenamento e processamento de consultas
eficientes em grande volumes de dados
Alta escalabilidade e disponibilidade
Redução de custos e gerenciamento operacional
18. 8 MBA em Arquitetura de Soluções 18 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
No contexto de DW:
NoSQL se torna um mecanismo interessante:
Armazenamento
Processamento de consultas em grandes
volumes de dados
Principais modelos de bases de dados NoSQL:
Armazenamento chave-valor
Orientado a coluna
Orientado a documentos
19. 9 MBA em Arquitetura de Soluções 19 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Chave-valor:
Armazena dados estruturados como pares de
chaves e valores
Uma chave é um identificador para diversos valores
(podem ser expressos por índices hash)
Modelo de estrutura mais simples
Inserções de dados e consultas realizadas
intrinsecamente sobre as chaves
Alto Desempenho
Um modelo baseado somente em chave-valor é
inviável modelar um DW para processar consultas
ad-hoc
20. 0 MBA em Arquitetura de Soluções 20 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Orientado a colunas:
Armazena os dados em colunas de uma tabela
Diferente do modelo relacional, as tabelas não
possuem relacionamento e são armazenadas
separadamente
Cada coluna é exclusivamente independente em
cada tabela
As colunas podem ter índices padrões e formas
de compressão dos dados (melhorar o processamento
de consultas e o armazenamento)
LucidDB – SGBD orientado a colunas, criado para
ambiente Data Warehousing.
21. 1 MBA em Arquitetura de Soluções 21 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Orientado a documentos:
Armazena documentos
Geralmente JSON com uma chave associada
Utilizado o modelo chave-valor, associando a uma
chave um respectivo documento
Permite consulta e indexação dos valores
contidos nas chaves (documentos)
Consultas ad-hoc sobre atributos dos documentos
armazenados
22. 2 MBA em Arquitetura de Soluções 22 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Ferramentas Utilizadas:
FastBit e LucidDB (modelo orientado a coluna)
FastBit: resultados satisfatórios em processamento de consultas sobre DW ao
utilizar o índice bitmap de junção
LucidDB: projetado para o ambiente de data warehousing
MongoDB (modelo orientado a documentos)
MongoDB: software muito utilizado na indústria; armazena dados em JSON
PostgreSQL (SGBD) sistema gerenciador de banco de dados
relacional
Todos eles são softwares livres
23. 3 MBA em Arquitetura de Soluções 23 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
24. 4 MBA em Arquitetura de Soluções 24 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Ferramentas Utilizadas:
2 bases de dados (DW01 e DW10)
Construídas utilizando o Star Schema Benchmark
(SSB)
PC: processador Intel(R) Pentium(R) D com
frequência de 2,80Ghz, HD SATA de 320 GB com
7200 RPM, e 2 GB de memória principal.
SO: Fedora 16
Foi investigado o desempenho de cada ferramenta
para processar consultas OLAP sobre DW
25. 5 MBA em Arquitetura de Soluções 25 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Os testes foram realizados localmente para inibir a latência
da rede.
Todas as consultas do SSB foram executadas e o cache
limpo após a execução de cada consulta.
Cada consulta foi executada 5 vezes, e posteriormente
calculado o tempo de execução médio em segundos.
26. 6 MBA em Arquitetura de Soluções 26 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
27. 7 MBA em Arquitetura de Soluções 27 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O desempenho do MongoDB + DI foi o pior entre todas as
outras configurações com tempos médios proibitivos
MongoDB + VFV apresentou melhores tempos que a
configuração MongoDB + DI
As configurações que utilizaram a junção estrela (LucidDB
+ SJ e PostgreSQL + SJ) apresentaram também resultados
proibitivos
A configuração FastBit + VFV apresentou os melhores
resultados no desempenho do processamento de consultas
28. 8 MBA em Arquitetura de Soluções 28 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
índices bitmap de junção beneficiaram o tempo de
resposta no processamento de consultas
Apesar da configuração LucidDB + VFV utilizar índices
bitmap de junção, esta configuração não apresentou bons
resultados (justificada pela implementação dos referidos índices)
FastBit + VFV apresentou reduções de tempo de resposta
significativas em relação as outras configurações (mais
eficiente entre todas as configurações)
Índices bitmap de junção implementado pelo FastBit
melhoraram o desempenho para processar consultas sobre
DW
29. 9 MBA em Arquitetura de Soluções 29 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O tempo total de construções das configurações Postgres +
VFV, LucidDB + VFV, MongoDB + VFV e FastBit + VFV são
mostradas na Tabela abaixo (DW1)
30. 0 MBA em Arquitetura de Soluções 30 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Em relação ao espaço de armazenamento das visões fragmentadas
verticalmente (VFV) e índices bitmap de junção, seus requisitos são
mostrados no gráfico abaixo (DW1)
31. 1 MBA em Arquitetura de Soluções 31 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Visões fragmentadas verticalmente e índices bitmap de
junção construídos para o grupo Q1 requereram menos
espaço que para os demais grupos
MongoDB requereu um maior espaço de armazenamento
O LucidDB mostrou bons resultados, devido à compressão
dos dados por padrão, além da compressão dos índices
bitmaps construídos
O espaço de armazenamento requerido variou de acordo
com a consulta
32. 2 MBA em Arquitetura de Soluções 32 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O tempo total de construções das configurações Postgres + VM,
LucidDB + VM, MongoDB + VM, FastBit + VM e FastBit + VFV
são mostradas na Tabela abaixo (DW10)
33. 3 MBA em Arquitetura de Soluções 33 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Espaço requerido de armazenamento requerido para as visões
materializadas e índices bitmap de junção de cada grupo de consultas
(DW10)
34. 4 MBA em Arquitetura de Soluções 34 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
35. 5 MBA em Arquitetura de Soluções 35 Administração de SGDB e Modelagem de Dados
4. CONCLUSÕESCONCLUSÕES
O objetivo foi identificar um modelo de dados (NoSQL ou relacional)
que proporcionasse o melhor desempenho no processamento de
consultas OLAP + bom uso do espaço de armazenamento
Resultados
LucidDB MongoDB FastBit
Melhor Custo de Armazenamento X
Melhor Execução das Consultas X
Melhor uso Espaço de Armazenamento X
36. 6 MBA em Arquitetura de Soluções 36 Administração de SGDB e Modelagem de Dados
4. CONCLUSÕESCONCLUSÕES
Isso indica que a utilização do FastBit com a ferramenta,
irá se sobressair sobre outras ferramentas OLAP
baseadas nos modelos avaliados neste artigo.
O FastBit, como mecanismo de busca, favorece a tomada
de decisão estratégica, uma vez que diminui o tempo de
respostas das consultas analíticas sobre DW.
Notas do Editor
On-line Analytical Processing é a capacidade para manipular e analisar um grande volume de dados sob múltiplas perspectivas
Aplicações OLAP são usadas pelos gestores em qualquer nível da organização permitindo análises comparativas que facilitem a sua tomada de decisões diárias.
SSB: Star Schema Benchmark
VFV: Visão Fragmentada Verticalmente: mantém o conjunto mínimo de atributos necessários para responder a um conjunto de consultas DI: documentos incorporados