SlideShare uma empresa Scribd logo
1 de 36
MBA em Arquitetura de Soluções 1 Administração de SGDB e Modelagem de Dados
PÓS-GRADUAÇÃOPÓS-GRADUAÇÃO
MBA em Arquitetura de Soluções
Módulo Arquitetura de Informações
Query Processing Over Data Warehouse using relational
Databases and NoSQL
Constantino Junior
Felipe Caparell
Felipe Lima
Robson Moreira
Profa
Dra
Regina Cantele
Out/2013
MBA em Arquitetura de Soluções 2 Administração de SGDB e Modelagem de Dados
1. Introdução
1.1 Resenha do Artigo
1.2 Objetivo(s)
1.3 Contribuições do Artigo
1.4 Organização
2. Fundamentos: Data Warehouse
3. Fundamentos: NoSQL
4. Resultados
5. Conclusões
SUMÁRIOSUMÁRIO
MBA em Arquitetura de Soluções 3 Administração de SGDB e Modelagem de Dados
 Comparar o desempenho do processamento de
consulta em bases NoSQL e relacionais
Exemplificar a aplicação de cada modelo
(NoSQL e relacional)
Apresentar os 3 tipos existentes de modelos
de dados NoSQL:
 Chave-valor
 Orientado a coluna
 Orientado a documentos
• São comparadas ferramentas que seguem os modelos
orientados a colunas e documentos com o modelo
relacional
1.1 INTRODUÇÃO: RESENHA DE ARTIGO1.1 INTRODUÇÃO: RESENHA DE ARTIGO
MBA em Arquitetura de Soluções 4 Administração de SGDB e Modelagem de Dados
 Motivação do artigo: Investigar e Comparar o
uso de modelos de dados NoSQL e
relacional, utilizando as principais técnicas
para otimização de processamento de
consultas OLAP sobre DW.
1.2 OBJETIVO(S)1.2 OBJETIVO(S)
MBA em Arquitetura de Soluções 5 Administração de SGDB e Modelagem de Dados
 Comparação das técnicas de processamento de
consultas sobre DW em diferentes ferramentas
desenvolvidas seguindo modelos de bases de
dados NoSQL e relacional;
 Realização de testes experimentais usando duas
bases de dados sintéticas contendo diferentes
volumes de dados para cada um dos modelos
orientados a colunas e a documentos, além de bases
de dados relacionais;
 Identificação de cenários eficientes, usados nas
comparações nesse artigo, para o processamento
de consultas em DW, auxiliando a construção de
ferramentas OLAP para processar consultas com
baixo tempo de resposta.
1.3 CONTRIBUIÇÕES DO ARTIGO1.3 CONTRIBUIÇÕES DO ARTIGO
MBA em Arquitetura de Soluções 6 Administração de SGDB e Modelagem de Dados
 O artigo está dividido em:
Seção 2: Apresentação dos conceitos fundamentais
Seção 3: Discussão dos resultados dos testes
Seção 4: Conclusão sobre os resultados obtidos
1.4 ORGANIZAÇÃO DO ARTIGO1.4 ORGANIZAÇÃO DO ARTIGO
MBA em Arquitetura de Soluções 7 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Integra informações de diversas fontes para a tomada de decisões
estratégicas.
Base de dados histórica, não volátil, e intrinsecamente volumosa.
São executadas Consultas Analíticas processadas por OLAP.
MBA em Arquitetura de Soluções 8 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Conceitualmente um DW é representado por meio de
um hipercubo de dados multidimensional
MBA em Arquitetura de Soluções 9 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
O projeto lógico de um DW pode utilizar o esquema
estrela ou o esquema floco de neve.
0 MBA em Arquitetura de Soluções 10 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Ambos os esquemas são compostos por uma
tabela de fatos e por tabelas de dimensão
Tabela de fatos: armazena as medidas que
representam quantitativamente o negócio
analisado, além de manter chaves estrangeiras
para as tabelas de dimensão
Tabela de dimensão: fornece as características do
negócio e seus atributos podem formar hierarquias
1 MBA em Arquitetura de Soluções 11 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Hierarquias de atributos permitem a agregação de
dados e consequentemente o processamento de
consultas drill-down e roll-up, amplamente usadas
em aplicações OLAP
O esquema floco de neve difere do esquema
estrela por normalizar as hierarquias contidas nas
tabelas de dimensão, aumentando assim o número
de junções.
2 MBA em Arquitetura de Soluções 12 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Ferramentas OLAP
Processam Consultas Analíticas
Fornecem Visões Multidimensionais
Suportam Planejamento Estratégico
Para a tomada de decisão estratégica, um fator de
importância é o processamento eficiente de
consultas OLAP para reduzir o alto tempo de
resposta
3 MBA em Arquitetura de Soluções 13 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Processamento no DW:
Junção Estrela - forma mais custosa para se
processar uma consulta em DW
Técnicas para melhorar o desempenho:
Fragmentação dos dados
Visão materializada
Estruturas de indexação
4 MBA em Arquitetura de Soluções 14 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Fragmentação dos dados
Visão fragmentada verticalmente (VFV)
Conjunto mínimo de atributos necessários
VFV computa previamente junções envolvidas
entre as tabelas de dimensão e fatos
Consultas sobre VFV dispensam o uso de junções
5 MBA em Arquitetura de Soluções 15 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Visão materializada (VM)
Conjunto mínimo de atributos
VM ocupa menos espaço de armazenamento que
uma VFV em operações de filtragem
A construção da VM computa previamente as
junções e agrupamentos entre as tabelas de
dimensão e fatos
Processa previamente agrupamentos e resultados
das funções de agregação sobre as medidas
VM reduz os dados armazenados devido ao seu
agrupamento
6 MBA em Arquitetura de Soluções 16 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE
Estrutura de Indexação
Índice bitmap de junção
Composto por vetores de bits (valores 0 e 1)
Um vetor para cada valor distinto do domínio
Principal vantagem: realiza operações bit-a-bit
Criado sobre atributos das tabelas de dimensão
Objetivo: evitar a operação de junção das tabelas
de dimensão com a tabela de fatos
7 MBA em Arquitetura de Soluções 17 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
NoSQL: desenvolvidos visando atender os
seguintes aspectos:
Alta concorrência na escrita e leitura de dados
Armazenamento e processamento de consultas
eficientes em grande volumes de dados
Alta escalabilidade e disponibilidade
Redução de custos e gerenciamento operacional
8 MBA em Arquitetura de Soluções 18 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
No contexto de DW:
NoSQL se torna um mecanismo interessante:
Armazenamento
Processamento de consultas em grandes
volumes de dados
Principais modelos de bases de dados NoSQL:
Armazenamento chave-valor
Orientado a coluna
Orientado a documentos
9 MBA em Arquitetura de Soluções 19 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Chave-valor:
Armazena dados estruturados como pares de
chaves e valores
Uma chave é um identificador para diversos valores
(podem ser expressos por índices hash)
Modelo de estrutura mais simples
Inserções de dados e consultas realizadas
intrinsecamente sobre as chaves
Alto Desempenho
Um modelo baseado somente em chave-valor é
inviável modelar um DW para processar consultas
ad-hoc
0 MBA em Arquitetura de Soluções 20 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Orientado a colunas:
Armazena os dados em colunas de uma tabela
Diferente do modelo relacional, as tabelas não
possuem relacionamento e são armazenadas
separadamente
Cada coluna é exclusivamente independente em
cada tabela
As colunas podem ter índices padrões e formas
de compressão dos dados (melhorar o processamento
de consultas e o armazenamento)
LucidDB – SGBD orientado a colunas, criado para
ambiente Data Warehousing.
1 MBA em Arquitetura de Soluções 21 Administração de SGDB e Modelagem de Dados
2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL
Orientado a documentos:
Armazena documentos
Geralmente JSON com uma chave associada
Utilizado o modelo chave-valor, associando a uma
chave um respectivo documento
Permite consulta e indexação dos valores
contidos nas chaves (documentos)
Consultas ad-hoc sobre atributos dos documentos
armazenados
2 MBA em Arquitetura de Soluções 22 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Ferramentas Utilizadas:
FastBit e LucidDB (modelo orientado a coluna)
FastBit: resultados satisfatórios em processamento de consultas sobre DW ao
utilizar o índice bitmap de junção
LucidDB: projetado para o ambiente de data warehousing
MongoDB (modelo orientado a documentos)
MongoDB: software muito utilizado na indústria; armazena dados em JSON
PostgreSQL (SGBD) sistema gerenciador de banco de dados
relacional
Todos eles são softwares livres
3 MBA em Arquitetura de Soluções 23 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
4 MBA em Arquitetura de Soluções 24 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
 Ferramentas Utilizadas:
2 bases de dados (DW01 e DW10)
Construídas utilizando o Star Schema Benchmark
(SSB)
PC: processador Intel(R) Pentium(R) D com
frequência de 2,80Ghz, HD SATA de 320 GB com
7200 RPM, e 2 GB de memória principal.
SO: Fedora 16
Foi investigado o desempenho de cada ferramenta
para processar consultas OLAP sobre DW
5 MBA em Arquitetura de Soluções 25 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Os testes foram realizados localmente para inibir a latência
da rede.
Todas as consultas do SSB foram executadas e o cache
limpo após a execução de cada consulta.
Cada consulta foi executada 5 vezes, e posteriormente
calculado o tempo de execução médio em segundos.
6 MBA em Arquitetura de Soluções 26 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
7 MBA em Arquitetura de Soluções 27 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O desempenho do MongoDB + DI foi o pior entre todas as
outras configurações com tempos médios proibitivos
MongoDB + VFV apresentou melhores tempos que a
configuração MongoDB + DI
As configurações que utilizaram a junção estrela (LucidDB
+ SJ e PostgreSQL + SJ) apresentaram também resultados
proibitivos
A configuração FastBit + VFV apresentou os melhores
resultados no desempenho do processamento de consultas
8 MBA em Arquitetura de Soluções 28 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
índices bitmap de junção beneficiaram o tempo de
resposta no processamento de consultas
Apesar da configuração LucidDB + VFV utilizar índices
bitmap de junção, esta configuração não apresentou bons
resultados (justificada pela implementação dos referidos índices)
FastBit + VFV apresentou reduções de tempo de resposta
significativas em relação as outras configurações (mais
eficiente entre todas as configurações)
Índices bitmap de junção implementado pelo FastBit
melhoraram o desempenho para processar consultas sobre
DW
9 MBA em Arquitetura de Soluções 29 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O tempo total de construções das configurações Postgres +
VFV, LucidDB + VFV, MongoDB + VFV e FastBit + VFV são
mostradas na Tabela abaixo (DW1)
0 MBA em Arquitetura de Soluções 30 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Em relação ao espaço de armazenamento das visões fragmentadas
verticalmente (VFV) e índices bitmap de junção, seus requisitos são
mostrados no gráfico abaixo (DW1)
1 MBA em Arquitetura de Soluções 31 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Visões fragmentadas verticalmente e índices bitmap de
junção construídos para o grupo Q1 requereram menos
espaço que para os demais grupos
MongoDB requereu um maior espaço de armazenamento
O LucidDB mostrou bons resultados, devido à compressão
dos dados por padrão, além da compressão dos índices
bitmaps construídos
O espaço de armazenamento requerido variou de acordo
com a consulta
2 MBA em Arquitetura de Soluções 32 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
O tempo total de construções das configurações Postgres + VM,
LucidDB + VM, MongoDB + VM, FastBit + VM e FastBit + VFV
são mostradas na Tabela abaixo (DW10)
3 MBA em Arquitetura de Soluções 33 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
Espaço requerido de armazenamento requerido para as visões
materializadas e índices bitmap de junção de cada grupo de consultas
(DW10)
4 MBA em Arquitetura de Soluções 34 Administração de SGDB e Modelagem de Dados
3. RESULTADOS3. RESULTADOS
5 MBA em Arquitetura de Soluções 35 Administração de SGDB e Modelagem de Dados
4. CONCLUSÕESCONCLUSÕES
O objetivo foi identificar um modelo de dados (NoSQL ou relacional)
que proporcionasse o melhor desempenho no processamento de
consultas OLAP + bom uso do espaço de armazenamento
Resultados
LucidDB MongoDB FastBit
Melhor Custo de Armazenamento X
Melhor Execução das Consultas X
Melhor uso Espaço de Armazenamento X
6 MBA em Arquitetura de Soluções 36 Administração de SGDB e Modelagem de Dados
4. CONCLUSÕESCONCLUSÕES
Isso indica que a utilização do FastBit com a ferramenta,
irá se sobressair sobre outras ferramentas OLAP
baseadas nos modelos avaliados neste artigo.
O FastBit, como mecanismo de busca, favorece a tomada
de decisão estratégica, uma vez que diminui o tempo de
respostas das consultas analíticas sobre DW.

Mais conteúdo relacionado

Mais procurados

Banco de dados Aula 1
Banco de dados Aula 1Banco de dados Aula 1
Banco de dados Aula 1Bruno Strik
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukHebert Alquimim
 
Fundamentos de banco de dados 04 componentes sgbd
Fundamentos de banco de dados   04 componentes sgbdFundamentos de banco de dados   04 componentes sgbd
Fundamentos de banco de dados 04 componentes sgbdRafael Pinheiro
 
Bancos de Dados Pós-Relacionais
Bancos de Dados Pós-RelacionaisBancos de Dados Pós-Relacionais
Bancos de Dados Pós-Relacionaiselliando dias
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Fundamentos de banco de dados 01 indrodução
Fundamentos de banco de dados   01 indroduçãoFundamentos de banco de dados   01 indrodução
Fundamentos de banco de dados 01 indroduçãoRafael Pinheiro
 

Mais procurados (14)

Ara7129 unidade-1-v1
Ara7129 unidade-1-v1Ara7129 unidade-1-v1
Ara7129 unidade-1-v1
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Banco de dados Aula 1
Banco de dados Aula 1Banco de dados Aula 1
Banco de dados Aula 1
 
Apostila banco de dados
Apostila banco de dadosApostila banco de dados
Apostila banco de dados
 
Bancodedados
BancodedadosBancodedados
Bancodedados
 
Material Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos AlexandrukMaterial Modelagem - Prof. Marcos Alexandruk
Material Modelagem - Prof. Marcos Alexandruk
 
Fundamentos de banco de dados 04 componentes sgbd
Fundamentos de banco de dados   04 componentes sgbdFundamentos de banco de dados   04 componentes sgbd
Fundamentos de banco de dados 04 componentes sgbd
 
SGBD
SGBDSGBD
SGBD
 
02 introducao
02 introducao02 introducao
02 introducao
 
Bancos de Dados Pós-Relacionais
Bancos de Dados Pós-RelacionaisBancos de Dados Pós-Relacionais
Bancos de Dados Pós-Relacionais
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Aula 4 banco de dados
Aula 4   banco de dados Aula 4   banco de dados
Aula 4 banco de dados
 
Fundamentos de banco de dados 01 indrodução
Fundamentos de banco de dados   01 indroduçãoFundamentos de banco de dados   01 indrodução
Fundamentos de banco de dados 01 indrodução
 
Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 

Semelhante a Resenha de artigo - Query Processing over Data Warehouse using Relational Databases and NoSQL

Apresentação Modelo de Gestão de dados para sistemas Colaborativos
Apresentação Modelo de Gestão de dados para sistemas ColaborativosApresentação Modelo de Gestão de dados para sistemas Colaborativos
Apresentação Modelo de Gestão de dados para sistemas ColaborativosMozart Dornelles Claret
 
Acessos Uniformes à Sistemas NoSQL
Acessos Uniformes à Sistemas NoSQLAcessos Uniformes à Sistemas NoSQL
Acessos Uniformes à Sistemas NoSQLthomasdacosta
 
FireDAC para BigDATA: Teradata e MongoDB
FireDAC para BigDATA: Teradata e MongoDBFireDAC para BigDATA: Teradata e MongoDB
FireDAC para BigDATA: Teradata e MongoDBAlan Glei
 
Cobo, Cristiane Brandão. Especialização Banco de Dados
Cobo, Cristiane Brandão. Especialização Banco de DadosCobo, Cristiane Brandão. Especialização Banco de Dados
Cobo, Cristiane Brandão. Especialização Banco de Dadoscris.finholdt
 
Minicurso Epoca mongoDB
Minicurso Epoca mongoDBMinicurso Epoca mongoDB
Minicurso Epoca mongoDBLelyBarros
 
Refactoring Databases
Refactoring DatabasesRefactoring Databases
Refactoring DatabasesIsmael
 
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012Diego Nogare
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftDennes Torres
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basicoAmadeo Santos
 
Banco de Dados Ágeis e Refatoração
Banco de Dados Ágeis e RefatoraçãoBanco de Dados Ágeis e Refatoração
Banco de Dados Ágeis e Refatoraçãoelliando dias
 

Semelhante a Resenha de artigo - Query Processing over Data Warehouse using Relational Databases and NoSQL (20)

Apresentação Modelo de Gestão de dados para sistemas Colaborativos
Apresentação Modelo de Gestão de dados para sistemas ColaborativosApresentação Modelo de Gestão de dados para sistemas Colaborativos
Apresentação Modelo de Gestão de dados para sistemas Colaborativos
 
Acessos Uniformes à Sistemas NoSQL
Acessos Uniformes à Sistemas NoSQLAcessos Uniformes à Sistemas NoSQL
Acessos Uniformes à Sistemas NoSQL
 
Introdução ao NoSQL
Introdução ao NoSQLIntrodução ao NoSQL
Introdução ao NoSQL
 
BANCO DE DADOS.pptx
BANCO DE DADOS.pptxBANCO DE DADOS.pptx
BANCO DE DADOS.pptx
 
NoSql e NewSql
NoSql e NewSqlNoSql e NewSql
NoSql e NewSql
 
FireDAC para BigDATA: Teradata e MongoDB
FireDAC para BigDATA: Teradata e MongoDBFireDAC para BigDATA: Teradata e MongoDB
FireDAC para BigDATA: Teradata e MongoDB
 
Cobo, Cristiane Brandão. Especialização Banco de Dados
Cobo, Cristiane Brandão. Especialização Banco de DadosCobo, Cristiane Brandão. Especialização Banco de Dados
Cobo, Cristiane Brandão. Especialização Banco de Dados
 
Tcc versao final-15-12
Tcc versao final-15-12Tcc versao final-15-12
Tcc versao final-15-12
 
Minicurso Epoca mongoDB
Minicurso Epoca mongoDBMinicurso Epoca mongoDB
Minicurso Epoca mongoDB
 
Refactoring Databases
Refactoring DatabasesRefactoring Databases
Refactoring Databases
 
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012
Codificando .Net e SQL PASS Chapter - Novidades de BI para SQL Server 2012
 
No sql o_que_e_isso.key
No sql o_que_e_isso.keyNo sql o_que_e_isso.key
No sql o_que_e_isso.key
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
 
Artc 1249307788 43
Artc 1249307788 43Artc 1249307788 43
Artc 1249307788 43
 
Course Content.en.pt.pdf
Course Content.en.pt.pdfCourse Content.en.pt.pdf
Course Content.en.pt.pdf
 
Bi ferramentas olap 1
Bi   ferramentas olap 1Bi   ferramentas olap 1
Bi ferramentas olap 1
 
mongodb.pdf
mongodb.pdfmongodb.pdf
mongodb.pdf
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basico
 
Banco de Dados Ágeis e Refatoração
Banco de Dados Ágeis e RefatoraçãoBanco de Dados Ágeis e Refatoração
Banco de Dados Ágeis e Refatoração
 

Mais de Felipe Caparelli

Arquitetura db (app + web)
Arquitetura db (app + web)Arquitetura db (app + web)
Arquitetura db (app + web)Felipe Caparelli
 
Imagens com Escalabilidade - Arquitetura de Dados
Imagens com Escalabilidade - Arquitetura de DadosImagens com Escalabilidade - Arquitetura de Dados
Imagens com Escalabilidade - Arquitetura de DadosFelipe Caparelli
 
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...Felipe Caparelli
 
Dicas sobre API (case Stormpath, Edmunds e Twitter)
Dicas sobre API (case Stormpath, Edmunds e Twitter)Dicas sobre API (case Stormpath, Edmunds e Twitter)
Dicas sobre API (case Stormpath, Edmunds e Twitter)Felipe Caparelli
 
Estratégias Competitivas - Case Ambev
Estratégias Competitivas - Case AmbevEstratégias Competitivas - Case Ambev
Estratégias Competitivas - Case AmbevFelipe Caparelli
 

Mais de Felipe Caparelli (9)

Arquitetura db (app + web)
Arquitetura db (app + web)Arquitetura db (app + web)
Arquitetura db (app + web)
 
Porteiro digital
Porteiro digitalPorteiro digital
Porteiro digital
 
Mercado digital
Mercado digitalMercado digital
Mercado digital
 
Imagens com Escalabilidade - Arquitetura de Dados
Imagens com Escalabilidade - Arquitetura de DadosImagens com Escalabilidade - Arquitetura de Dados
Imagens com Escalabilidade - Arquitetura de Dados
 
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...
Aplicabilidade do BI na Gestão Pública - Case: Centro de Operações RIO (Smart...
 
API - Como fazer?
API - Como fazer?API - Como fazer?
API - Como fazer?
 
Dicas sobre API (case Stormpath, Edmunds e Twitter)
Dicas sobre API (case Stormpath, Edmunds e Twitter)Dicas sobre API (case Stormpath, Edmunds e Twitter)
Dicas sobre API (case Stormpath, Edmunds e Twitter)
 
Estratégias Competitivas - Case Ambev
Estratégias Competitivas - Case AmbevEstratégias Competitivas - Case Ambev
Estratégias Competitivas - Case Ambev
 
Ambientes do futuro
Ambientes do futuroAmbientes do futuro
Ambientes do futuro
 

Resenha de artigo - Query Processing over Data Warehouse using Relational Databases and NoSQL

  • 1. MBA em Arquitetura de Soluções 1 Administração de SGDB e Modelagem de Dados PÓS-GRADUAÇÃOPÓS-GRADUAÇÃO MBA em Arquitetura de Soluções Módulo Arquitetura de Informações Query Processing Over Data Warehouse using relational Databases and NoSQL Constantino Junior Felipe Caparell Felipe Lima Robson Moreira Profa Dra Regina Cantele Out/2013
  • 2. MBA em Arquitetura de Soluções 2 Administração de SGDB e Modelagem de Dados 1. Introdução 1.1 Resenha do Artigo 1.2 Objetivo(s) 1.3 Contribuições do Artigo 1.4 Organização 2. Fundamentos: Data Warehouse 3. Fundamentos: NoSQL 4. Resultados 5. Conclusões SUMÁRIOSUMÁRIO
  • 3. MBA em Arquitetura de Soluções 3 Administração de SGDB e Modelagem de Dados  Comparar o desempenho do processamento de consulta em bases NoSQL e relacionais Exemplificar a aplicação de cada modelo (NoSQL e relacional) Apresentar os 3 tipos existentes de modelos de dados NoSQL:  Chave-valor  Orientado a coluna  Orientado a documentos • São comparadas ferramentas que seguem os modelos orientados a colunas e documentos com o modelo relacional 1.1 INTRODUÇÃO: RESENHA DE ARTIGO1.1 INTRODUÇÃO: RESENHA DE ARTIGO
  • 4. MBA em Arquitetura de Soluções 4 Administração de SGDB e Modelagem de Dados  Motivação do artigo: Investigar e Comparar o uso de modelos de dados NoSQL e relacional, utilizando as principais técnicas para otimização de processamento de consultas OLAP sobre DW. 1.2 OBJETIVO(S)1.2 OBJETIVO(S)
  • 5. MBA em Arquitetura de Soluções 5 Administração de SGDB e Modelagem de Dados  Comparação das técnicas de processamento de consultas sobre DW em diferentes ferramentas desenvolvidas seguindo modelos de bases de dados NoSQL e relacional;  Realização de testes experimentais usando duas bases de dados sintéticas contendo diferentes volumes de dados para cada um dos modelos orientados a colunas e a documentos, além de bases de dados relacionais;  Identificação de cenários eficientes, usados nas comparações nesse artigo, para o processamento de consultas em DW, auxiliando a construção de ferramentas OLAP para processar consultas com baixo tempo de resposta. 1.3 CONTRIBUIÇÕES DO ARTIGO1.3 CONTRIBUIÇÕES DO ARTIGO
  • 6. MBA em Arquitetura de Soluções 6 Administração de SGDB e Modelagem de Dados  O artigo está dividido em: Seção 2: Apresentação dos conceitos fundamentais Seção 3: Discussão dos resultados dos testes Seção 4: Conclusão sobre os resultados obtidos 1.4 ORGANIZAÇÃO DO ARTIGO1.4 ORGANIZAÇÃO DO ARTIGO
  • 7. MBA em Arquitetura de Soluções 7 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Integra informações de diversas fontes para a tomada de decisões estratégicas. Base de dados histórica, não volátil, e intrinsecamente volumosa. São executadas Consultas Analíticas processadas por OLAP.
  • 8. MBA em Arquitetura de Soluções 8 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Conceitualmente um DW é representado por meio de um hipercubo de dados multidimensional
  • 9. MBA em Arquitetura de Soluções 9 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE O projeto lógico de um DW pode utilizar o esquema estrela ou o esquema floco de neve.
  • 10. 0 MBA em Arquitetura de Soluções 10 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Ambos os esquemas são compostos por uma tabela de fatos e por tabelas de dimensão Tabela de fatos: armazena as medidas que representam quantitativamente o negócio analisado, além de manter chaves estrangeiras para as tabelas de dimensão Tabela de dimensão: fornece as características do negócio e seus atributos podem formar hierarquias
  • 11. 1 MBA em Arquitetura de Soluções 11 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Hierarquias de atributos permitem a agregação de dados e consequentemente o processamento de consultas drill-down e roll-up, amplamente usadas em aplicações OLAP O esquema floco de neve difere do esquema estrela por normalizar as hierarquias contidas nas tabelas de dimensão, aumentando assim o número de junções.
  • 12. 2 MBA em Arquitetura de Soluções 12 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Ferramentas OLAP Processam Consultas Analíticas Fornecem Visões Multidimensionais Suportam Planejamento Estratégico Para a tomada de decisão estratégica, um fator de importância é o processamento eficiente de consultas OLAP para reduzir o alto tempo de resposta
  • 13. 3 MBA em Arquitetura de Soluções 13 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Processamento no DW: Junção Estrela - forma mais custosa para se processar uma consulta em DW Técnicas para melhorar o desempenho: Fragmentação dos dados Visão materializada Estruturas de indexação
  • 14. 4 MBA em Arquitetura de Soluções 14 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Fragmentação dos dados Visão fragmentada verticalmente (VFV) Conjunto mínimo de atributos necessários VFV computa previamente junções envolvidas entre as tabelas de dimensão e fatos Consultas sobre VFV dispensam o uso de junções
  • 15. 5 MBA em Arquitetura de Soluções 15 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Visão materializada (VM) Conjunto mínimo de atributos VM ocupa menos espaço de armazenamento que uma VFV em operações de filtragem A construção da VM computa previamente as junções e agrupamentos entre as tabelas de dimensão e fatos Processa previamente agrupamentos e resultados das funções de agregação sobre as medidas VM reduz os dados armazenados devido ao seu agrupamento
  • 16. 6 MBA em Arquitetura de Soluções 16 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: DATA WAREHOUSE2. FUNDAMENTOS: DATA WAREHOUSE Estrutura de Indexação Índice bitmap de junção Composto por vetores de bits (valores 0 e 1) Um vetor para cada valor distinto do domínio Principal vantagem: realiza operações bit-a-bit Criado sobre atributos das tabelas de dimensão Objetivo: evitar a operação de junção das tabelas de dimensão com a tabela de fatos
  • 17. 7 MBA em Arquitetura de Soluções 17 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL NoSQL: desenvolvidos visando atender os seguintes aspectos: Alta concorrência na escrita e leitura de dados Armazenamento e processamento de consultas eficientes em grande volumes de dados Alta escalabilidade e disponibilidade Redução de custos e gerenciamento operacional
  • 18. 8 MBA em Arquitetura de Soluções 18 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL No contexto de DW: NoSQL se torna um mecanismo interessante: Armazenamento Processamento de consultas em grandes volumes de dados Principais modelos de bases de dados NoSQL: Armazenamento chave-valor Orientado a coluna Orientado a documentos
  • 19. 9 MBA em Arquitetura de Soluções 19 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL Chave-valor: Armazena dados estruturados como pares de chaves e valores Uma chave é um identificador para diversos valores (podem ser expressos por índices hash) Modelo de estrutura mais simples Inserções de dados e consultas realizadas intrinsecamente sobre as chaves Alto Desempenho Um modelo baseado somente em chave-valor é inviável modelar um DW para processar consultas ad-hoc
  • 20. 0 MBA em Arquitetura de Soluções 20 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL Orientado a colunas: Armazena os dados em colunas de uma tabela Diferente do modelo relacional, as tabelas não possuem relacionamento e são armazenadas separadamente Cada coluna é exclusivamente independente em cada tabela As colunas podem ter índices padrões e formas de compressão dos dados (melhorar o processamento de consultas e o armazenamento) LucidDB – SGBD orientado a colunas, criado para ambiente Data Warehousing.
  • 21. 1 MBA em Arquitetura de Soluções 21 Administração de SGDB e Modelagem de Dados 2. FUNDAMENTOS: NoSQL2. FUNDAMENTOS: NoSQL Orientado a documentos: Armazena documentos Geralmente JSON com uma chave associada Utilizado o modelo chave-valor, associando a uma chave um respectivo documento Permite consulta e indexação dos valores contidos nas chaves (documentos) Consultas ad-hoc sobre atributos dos documentos armazenados
  • 22. 2 MBA em Arquitetura de Soluções 22 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS Ferramentas Utilizadas: FastBit e LucidDB (modelo orientado a coluna) FastBit: resultados satisfatórios em processamento de consultas sobre DW ao utilizar o índice bitmap de junção LucidDB: projetado para o ambiente de data warehousing MongoDB (modelo orientado a documentos) MongoDB: software muito utilizado na indústria; armazena dados em JSON PostgreSQL (SGBD) sistema gerenciador de banco de dados relacional Todos eles são softwares livres
  • 23. 3 MBA em Arquitetura de Soluções 23 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS
  • 24. 4 MBA em Arquitetura de Soluções 24 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS  Ferramentas Utilizadas: 2 bases de dados (DW01 e DW10) Construídas utilizando o Star Schema Benchmark (SSB) PC: processador Intel(R) Pentium(R) D com frequência de 2,80Ghz, HD SATA de 320 GB com 7200 RPM, e 2 GB de memória principal. SO: Fedora 16 Foi investigado o desempenho de cada ferramenta para processar consultas OLAP sobre DW
  • 25. 5 MBA em Arquitetura de Soluções 25 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS Os testes foram realizados localmente para inibir a latência da rede. Todas as consultas do SSB foram executadas e o cache limpo após a execução de cada consulta. Cada consulta foi executada 5 vezes, e posteriormente calculado o tempo de execução médio em segundos.
  • 26. 6 MBA em Arquitetura de Soluções 26 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS
  • 27. 7 MBA em Arquitetura de Soluções 27 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS O desempenho do MongoDB + DI foi o pior entre todas as outras configurações com tempos médios proibitivos MongoDB + VFV apresentou melhores tempos que a configuração MongoDB + DI As configurações que utilizaram a junção estrela (LucidDB + SJ e PostgreSQL + SJ) apresentaram também resultados proibitivos A configuração FastBit + VFV apresentou os melhores resultados no desempenho do processamento de consultas
  • 28. 8 MBA em Arquitetura de Soluções 28 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS índices bitmap de junção beneficiaram o tempo de resposta no processamento de consultas Apesar da configuração LucidDB + VFV utilizar índices bitmap de junção, esta configuração não apresentou bons resultados (justificada pela implementação dos referidos índices) FastBit + VFV apresentou reduções de tempo de resposta significativas em relação as outras configurações (mais eficiente entre todas as configurações) Índices bitmap de junção implementado pelo FastBit melhoraram o desempenho para processar consultas sobre DW
  • 29. 9 MBA em Arquitetura de Soluções 29 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS O tempo total de construções das configurações Postgres + VFV, LucidDB + VFV, MongoDB + VFV e FastBit + VFV são mostradas na Tabela abaixo (DW1)
  • 30. 0 MBA em Arquitetura de Soluções 30 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS Em relação ao espaço de armazenamento das visões fragmentadas verticalmente (VFV) e índices bitmap de junção, seus requisitos são mostrados no gráfico abaixo (DW1)
  • 31. 1 MBA em Arquitetura de Soluções 31 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS Visões fragmentadas verticalmente e índices bitmap de junção construídos para o grupo Q1 requereram menos espaço que para os demais grupos MongoDB requereu um maior espaço de armazenamento O LucidDB mostrou bons resultados, devido à compressão dos dados por padrão, além da compressão dos índices bitmaps construídos O espaço de armazenamento requerido variou de acordo com a consulta
  • 32. 2 MBA em Arquitetura de Soluções 32 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS O tempo total de construções das configurações Postgres + VM, LucidDB + VM, MongoDB + VM, FastBit + VM e FastBit + VFV são mostradas na Tabela abaixo (DW10)
  • 33. 3 MBA em Arquitetura de Soluções 33 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS Espaço requerido de armazenamento requerido para as visões materializadas e índices bitmap de junção de cada grupo de consultas (DW10)
  • 34. 4 MBA em Arquitetura de Soluções 34 Administração de SGDB e Modelagem de Dados 3. RESULTADOS3. RESULTADOS
  • 35. 5 MBA em Arquitetura de Soluções 35 Administração de SGDB e Modelagem de Dados 4. CONCLUSÕESCONCLUSÕES O objetivo foi identificar um modelo de dados (NoSQL ou relacional) que proporcionasse o melhor desempenho no processamento de consultas OLAP + bom uso do espaço de armazenamento Resultados LucidDB MongoDB FastBit Melhor Custo de Armazenamento X Melhor Execução das Consultas X Melhor uso Espaço de Armazenamento X
  • 36. 6 MBA em Arquitetura de Soluções 36 Administração de SGDB e Modelagem de Dados 4. CONCLUSÕESCONCLUSÕES Isso indica que a utilização do FastBit com a ferramenta, irá se sobressair sobre outras ferramentas OLAP baseadas nos modelos avaliados neste artigo. O FastBit, como mecanismo de busca, favorece a tomada de decisão estratégica, uma vez que diminui o tempo de respostas das consultas analíticas sobre DW.

Notas do Editor

  1. On-line Analytical Processing é a capacidade para manipular e analisar um grande volume de dados sob múltiplas perspectivas
  2. Aplicações OLAP são usadas pelos gestores em qualquer nível da organização permitindo análises comparativas que facilitem a sua tomada de decisões diárias.
  3. SSB: Star Schema Benchmark
  4. VFV: Visão Fragmentada Verticalmente: mantém o conjunto mínimo de atributos necessários para responder a um conjunto de consultas DI: documentos incorporados