Pg20235 rf20222vp20208

758 visualizações

Publicada em

Trabalho de investigação - SGBD Istec 2º Eng. Multimédia Junho 2010

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
758
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
11
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Pg20235 rf20222vp20208

  1. 1. DATA WAREHOUSING E OLAP Trabalho realizado por: Paulo Gonçalves n.º 20235 Ricardo Fernandes n.º 20222 Vilma Pombo n.º 20208
  2. 2. O que é data warehouse? Data warehouse é uma base dados de suporte, a decisão que é mantida separadamente da base operacional da organização. Suporta processamento de informação fornecendo uma plataforma sólida para análise de dados históricos e consolidados. Data warehousing: O processo de construir e usar data warehouses.
  3. 3. Tipos de data warehouse ORIENTADO POR TEMA INTEGRADO VARIÁVEL TEMPO NÃO VOLÁTIL
  4. 4. ORIENTADO POR TEMA O Data warehouse orientado por tema é organizado em torno de temas importantes, tais como cliente, produto, vendas. Foca-se na modelação e análise de dados para quem toma decisões, em vez de operações diárias e processamento de transacções. Fornece também uma visão simples e concisa sobre questões de um tema particular através da exclusão de dados que não são importantes no suporte ao processo de decisão.
  5. 5. INTEGRADO O Data warehouse integrado é construído por integração de múltiplas e heterogéneas fontes de dados. As Bases de dados são relacionais, contêm ficheiros simples e registos de transacções on-line onde são aplicadas técnicas de limpeza de dados e integração de dados. É assim assegurada a consistência na convenção de nomes, codificação de estruturas, atributos de medidas, etc. entre diferentes fontes de dados (ex: Hotel price: currency, tax, breakfast covered, etc.) Concluindo quando a informação é movida para o warehouse, é feita a conversão.
  6. 6. VARIÁVEL TEMPO Cada estrutura chave no data warehouse contém um elemento de tempo, explicita ou implicitamente, mas a chave de dados operacionais pode ou não conter um “elemento de tempo”. O horizonte de tempo para um data warehouse é significativamente maior do que o de sistemas operacionais, onde a base de dados operacional contem a informação actual, e os Dados nela contidos fornecem a informação numa perspectiva histórica (ex: últimos 5-10 anos)
  7. 7. NÃO VOLÁTIL Um Data warehouse não volátil é um repositório fisicamente separado de dados transformados do ambiente operacional. Neste tipo de Data warehouse não ocorre actualização de dados operacional sobre a informação, pois não requer mecanismos de processamento de transacções, recuperação e controlo de concorrência, requerendo apenas duas operações de acesso a dados: - Carregamento inicial de dados; - Acesso a dados.
  8. 8. Data warehouse vs SGBD heterogéneos house Na integração tradicional de base de dados heterogéneas constroem-se conversores/mediadores sobre este tipo de base de dados. A abordagem usada é a orientada-a-consulta, ou seja, quando uma consulta é feita a uma determinada base de dados, usa-se um meta-dicionário para traduzir a consulta em consultas apropriadas para outras base de dados envolvidas, e os resultados são integrados num conjunto resposta global. Nesta abordagem a filtragem de informação é complexa.
  9. 9. Data warehouse vs SGBD heterogéneos house Já pelo Data warehouse a abordagem usada é a orientada- por-actualizaçao. A informação de fontes heterogéneas é previamente integrada e guardada em warehouses para consulta e análise directa.
  10. 10. Data warehouse vs SGBD operacionais OLTP (on-line transaction processing) São sistemas que se encarregam de registar todas as transacções contidas em uma determinada operação organizacional. Por exemplo, sistema de transacções bancárias que regista todas as operações efectuadas num banco, caixas de multibanco, reservas de viagens ou hotel on-line, Cartões de Crédito. OLTP é a tarefa principal dos SGBD relacionais tradicionais.
  11. 11. Data warehouse vs SGBD operacionais OLAP (on-line analytical processing) É a capacidade de manipular e analisar um grande volume de dados sob múltiplas perspectivas. As aplicações OLAP são usadas pelos gestores num qualquer nível da organização para lhes permitir análises comparativas que facilitem a suas decisões diárias. OLAP é a tarefa principal de sistemas de data warehouse.
  12. 12. CARACTERÍSTICAS OLTP OLAP Orientação do sistema e Cliente Mercado utilizador Conteúdo dos dados actuais, detalhados históricos, consolidados Desenho da Base de dados ER + aplicaçao estrela + tema Visão actual, local evolucionária, integrada consultas read-only, Padrões de acesso actualização complexas
  13. 13. DIFERÊNÇAS OLTP OLAP Utilizadores Escriturário, profissional IT Analista de mercado Função Operações diárias Suporte a decisões Desenho da base de dados Orientado-por-aplicaçao Orientado-por-tema correntes, actualizados históricos, Dados detalhados, relacional sumarizados, multidimensionais simples isolado integrados, consolidados Uso repetitivo ad-hoc read/write Acesso Leitura exaustiva index/hash na chave prim. Unidade de trabalho Transacção simples e curta Consulta complexa Numero de registos acedidos dezenas Milhões Numero de utilizadores milhares centenas Tamanho da base de dados 100MB-GB 100GB-TB Métrica Transacções por minuto Consultas por minuto, resposta
  14. 14. Modelação conceptual de data warehouse Existem 3 tipos de modelação para as data warehouse: - esquema estrela; - esquema floco de neve; - constelações de factos.
  15. 15. ESQUEMA DE ESTRELA Tabela de factos no centro ligada a um conjunto de tabelas dimensão.
  16. 16. ESQUEMA FLOCO DE NEVE Um refinamento do esquema estrela onde parte da hierarquia dimensional é normalizada num conjunto de tabelas de dimensão mais pequenas, numa forma similar a um floco de neve.
  17. 17. CONSTELAÇÕES DE FACTOS Tabelas de factos múltiplas partilham tabelas dimensão, formando um grupo de estrelas, logo chamado constelação de factos.
  18. 18. Desenho de data warehouse Existem quatro perspectivas de desenho de um data warehouse - Perspectiva Top-down Permite a selecção da informação relevante necessária para o data warehouse. - Perspectiva de Origem de Dados Mostra a informação a ser adquirida, guardada e gerida pelos sistemas operativos.
  19. 19. Desenho de data warehouse - Perspectiva Data warehouse Consiste em tabelas de factos e tabelas dimensão. - Perspectiva de Consulta de Análise Vê a perspectiva dos dados no warehouse do ponto de vista do utilizador final.
  20. 20. Processo de desenho de um data warehouse O processo de desenho de um Data Warehouse pode ser efectuado através de 3 abordagens diferentes: Abordagens Top-down, bottom-up ou uma combinação de ambos - Top-down: Começa com o desenho e planeamento geral - Bottom-up: Começa com experiencias e protótipos Do ponto de vista da engenharia de software - Cascata: Análise estruturada e sistemática em cada passo antes de prosseguir para o próximo - Espiral: Geração rápida e incremental de funcionalidades do sistema
  21. 21. Processo de desenho de um data warehouse Processo de desenho típico de data warehouse -Escolher um processo de negócio a modelar, e.g., encomendas, facturas, etc. -Escolher o grão (nível de dados atómico) do processo de negócio -Escolher as dimensões que estão associadas a cada tabela de factos -Escolher as medidas presentes em cada registo da tabela de factos
  22. 22. Arquitectura Multi-camada
  23. 23. Tipos de arquitectura OLAP Existem 3 tipos diferentes de arquitecturas OLAP: Relacional, multidimensional e hybrid OLAP. Na arquitectura relacional (ROLAP) usa-se base de dados relacionais estendidas para guardar e gerir os dados do data warehouse e aplicações OLAP para suportar análise complexa de dados. Este tipo de arquitectura inclui uma optimização dos sistemas de base de dados de backend e contém a implementação de navegação baseada em agregação assim como mais ferramentas e serviços.
  24. 24. Tipos de arquitectura OLAP A arquitectura multidimensional (MOLAP) é baseada em matrizes de armazenamento multidimensionais. Neste tipo de arquitectura a indexação é rápida sobre dados sumarizados pré-calculados. A Hybrid OLAP(HOLAP) é uma combinação das outras 2 arquitecturas. Esta arquitectura permite armazenar parte dos dados num MOLAP e outra parte dos dados em ROLAP.

×