Data Warehouse - Modelagem

2.377 visualizações

Publicada em

Conhecimentos sobre projeto e modelagem de um Data Warehouse.

Publicada em: Educação
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
2.377
No SlideShare
0
A partir de incorporações
0
Número de incorporações
8
Ações
Compartilhamentos
0
Downloads
142
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Data Warehouse - Modelagem

  1. 1. GRADUAÇÃO Tecnologia em Gestão da Tecnologia da Informação Administração de Banco de Dados Criação e Manutenção de Data Warehouse Prof. Rudson Kiyoshi Souza Carvalho rudson.carvalho@gmail.com Parte 2 Versão 1.0 Agosto/2014 1
  2. 2. Tecnologia em Gestão da Tecnologia da Informação 2 Conceitos Fundamentais
  3. 3. Modelagem -­‐ Revisão Tecnologia em Gestão da Tecnologia da Informação 3 • Para construir um modelo de dados, usa-­‐se uma linguagem de modelagem de dados. • Existem linguagens textuais e linguagens gráficas. • É possível descrever os modelos em diferentes níveis de abstração e com diferentes objeYvos. • Cada descrição recebe o nome de esquema de banco de dados.
  4. 4. Modelagem -­‐ Revisão Modelagem de sistemas, tanto a nível funcional quanto de dados, é um requisito fundamental para a obtenção de produtos de soware de maior qualidade e confiabilidade. Tecnologia em Gestão da Tecnologia da Informação 4
  5. 5. Modelo Conceitual • Modelo conceitual é um diagrama em blocos que demonstra todas as relações entre as enYdades, suas especializações, seus atributos e auto-­‐relações. (Wikipedia) • É uma descrição de banco de dados de forma independente de implementação num sistema de gerenciamento. • Com o objeYvo de registrar QUE dados podem aparecer no banco, mas não registra COMO estes dados estão armazenados no SGBD Tecnologia em Gestão da Tecnologia da Informação 5
  6. 6. Modelo Lógico Compreende uma descrição das estruturas que serão armazenadas no banco e que resulta numa representação gráfica dos dados de uma maneira lógica, inclusive nomeando os componentes e ações que exercem uns sobre os outros, representando fielmente o NEGÓCIO, e NÃO necessariamente a base de dados desejada, a qual será construída posteriormente por ocasião do Projeto Físico; Tecnologia em Gestão da Tecnologia da Informação 6
  7. 7. Modelo Físico Inclui a análise das caracterísYcas e recursos necessários para armazenamento e manipulação das estruturas de dados (estrutura de armazenamento, endereçamento, acesso e alocação nsica), sendo uma sequência de comandos executados em SQL a fim de criar as tabelas, estruturas e ligações projetadas até então e finalmente criar o banco de dados. (Wikipedia) Tecnologia em Gestão da Tecnologia da Informação 7
  8. 8. Tipos de Relacionamentos Tecnologia em Gestão da Tecnologia da Informação 8 • Um-­‐para-­‐um (1:1): uma instância em “A” está associada com no máximo uma instância em “B”, e uma instância em “B” está associada com no máximo uma instância em “A”; • Um-­‐para-­‐muitos (1:n): uma instância em “A” está associada a qualquer número de instâncias em “B”, e uma instância em “B”, todavia, pode estar associado a no máximo uma instância em “A”; • Muitos-­‐para-­‐muitos (n:n): uma instância em “A” está associada a qualquer número de instâncias em “B” e vice-­‐versa. Alguns autores preferem chamar esta cardinalidade de m:n, por considerar que podem representar valores diferentes. (KORTH, SILBERCHATZ e SUDARSHAN, 2006)
  9. 9. Formas Normais Tecnologia em Gestão da Tecnologia da Informação 9 • 1a Forma Normal (1FN): toda relação deve ter uma chave primária e deve-­‐se garanYr que todo atributo seja atômico. Atributos compostos devem ser separados. Por exemplo, um atributo Endereço deve ser subdividido em seus componentes: Logradouro, Número, Complemento, Bairro, Cidade, Estado e CEP. • 2a Forma Normal (2FN): toda relação deve estar na 1FN e devem-­‐se eliminar dependências funcionais parciais, ou seja, todo atributo não chave deve ser totalmente dependente da chave primária. Por exemplo, uma relação que contenha os atributos Código da Obra, Código do Fornecedor, Nome do Fornecedor e Preço de Venda, considerando que a chave primária é composta pelos atributos Código da Obra e Código do Fornecedor. Uma nova relação entre as enYdades Fornecedor e Obra deverão ser criadas. • 3a Forma Normal (3FN): toda relação deve estar na 2FN e devem-­‐se eliminar dependências funcionais transiYvas. Na terceira forma normal temos de eliminar aqueles campos que podem ser obYdos pela equação de outros campos da mesma tabela. (Saber Digital: Revista Eletrônica do CESVA, Valença, v. 1, n. 1, p. 33-­‐69)
  10. 10. Tecnologia em Gestão da Tecnologia da Informação 10 Modelagem de Dados para Data Warehouse
  11. 11. Modelagem de Dados para Data Warehouse Tecnologia em Gestão da Tecnologia da Informação 11 O sucesso no desenvolvimento de um Data Warehouse (DW) bem modelado depende do planejamento realizado e a escolha correta das estratégias a serem adotadas, de forma que sejam adequadas às caracterísYcas do negócio da organização as necessidades específicas do ambiente onde será implementado.
  12. 12. Modelagem MulIdimensional A modelagem mulYdimensional é uma técnica de concepção e visualização de um modelo de dados de um conjunto de medidas que descrevem aspectos comuns de negócio. Sua uYlização ajuda na sumarização e reestruturação dos dados e apresenta visões que suportam a análise dos valores destes dados Tecnologia em Gestão da Tecnologia da Informação 12 (MACHADO, F.N.R. Projeto de Data Warehouse, São Paulo: Érica, 2004.)
  13. 13. Modelagem MulIdimensional -­‐ Fatos Fatos – Um fato é uma coleção de itens de dados, composta de dados de medidas e de contexto. Cada fato representa um item, uma transação ou um evento de negócio e é uYlizado para analisar o processo de negócio de uma empresa. É tudo aquilo que reflete a evolução dos negócios do dia a dia de uma organização. Tecnologia em Gestão da Tecnologia da Informação 13 (MACHADO, F.N.R. Projeto de Data Warehouse, São Paulo: Érica, 2004.)
  14. 14. Modelagem MulIdimensional -­‐ Dimensões Dimensoões – Conceitualmente são os elementos que parYcipam de um fato, assunto de negócios. São as possíveis formas de visualizar os dados, ou seja, são os “por” dos dados: por mês, por país, por produto, por região. Representam o contexto de um assunto de negócio. Tecnologia em Gestão da Tecnologia da Informação 14 (MACHADO, F.N.R. Projeto de Data Warehouse, São Paulo: Érica, 2004.)
  15. 15. Modelagem MulIdimensional -­‐ Medidas Medidas – são os atributos númericos que representam um fato, a performance de um indicador de negócio relaYvo às dimensões que parYcipam desse fato. Uma medida é determinada pela combinação das dimensões que parYcipam de um fato e estão localizados como atributos de um fato. Por exemplo, o valor em reais das vendas, o número de unidades vendidas de produtos e a quanYdade em estoque. Tecnologia em Gestão da Tecnologia da Informação 15 (MACHADO, F.N.R. Projeto de Data Warehouse, São Paulo: Érica, 2004.)
  16. 16. Modelo Estrela e ou Star Schema Tecnologia em Gestão da Tecnologia da Informação 16 Modelo Estrela • O conceito de Esquema Estrela (em inglês: Star Schema) foi criado pelo estadunidense Dr. Ralph Kimball, ao propor uma visão para a modelagem de base de dados para sistemas de apoio a decisão. Sua principal caracterísYca é a presença de dados altamente redundantes, melhorando o desempenho. • Sendo a estrutura básica de um modelo mulYdimensional. • Star schema ou esquema em estrela é uma metodologia de modelagem de dados uYlizada do desenho de um Data warehouse.
  17. 17. Modelo Estrela e ou Star Schema Tecnologia em Gestão da Tecnologia da Informação 17 Modelo Estrela Fonte: Machado (2004)
  18. 18. Modelo Estrela e ou Star Schema Tecnologia em Gestão da Tecnologia da Informação 18 Esquema Estrela
  19. 19. Modelo Floco de Neve e ou Snowflake Schema Tecnologia em Gestão da Tecnologia da Informação 19 Esquema Floco de Neve • Esquema floco de neve é uma variação do esquema estrela, no qual todas as tabelas de dimensão são normalizadas na terceira forma normal (3FN), ou seja, são reYrados das tabelas os campos que são funcionalmente dependentes de outros campos que não são chaves. Este modelo é o resultado da decomposição de uma ou mais dimensões que possuem hierarquias entre seus membros. • Recomenda-­‐se uYlizar o esquema floco de neve apenas quando a linha de dimensão ficar muito longa e começar a ser relevante do ponto de vista de armazenamento.
  20. 20. Modelo Floco de Neve e ou Snowflake Schema Tecnologia em Gestão da Tecnologia da Informação 20 Modelo Estrela Fonte: Machado (2004)
  21. 21. Modelo Floco de Neve e ou Snowflake Schema Tecnologia em Gestão da Tecnologia da Informação 21 Esquema Floco de Neve
  22. 22. Análise Dimensional Tecnologia em Gestão da Tecnologia da Informação 22 Inicialmente para montarmos um modelo dimensional, devemos buscar responder a 4 perguntas base básicas: 1. Quando aconteceu o fato? 2. Quem é o personagem do fato? 3. Onde aconteceu o fato? 4. O que é o objeto do fato? Fato Quando O quê Onde Quem
  23. 23. A Dimensão Tempo (Quando) Tecnologia em Gestão da Tecnologia da Informação 23 • A dimensão Tempo (Data) é muito importante em toda a modelagem. Como tal deve ser tratada de forma diferenciada em relação às outras dimensões. Usualmente está presente em todo Data Mart, pois o Data Warehouse é histórico. • Costuma ser complexa no mundo real: – Dia, Mês, Trimestre, Semestre, Ano – Dia Acumulado no Mês, no Ano – Período Fiscal, Semana de Cinco Dias – Feriados, Fim de semana • Qual a granularidade é a ideal? (depende do projeto) – Com granularidade diária, podemos organizar os dados por dias, meses, anos, por períodos fiscais (arYficiais) da empresa, etc. Essa modelagem é mais flexível a mudanças nos requisitos do negócio. • Diferente das outras dimensões, a tabela Data pode ser carregada antecipadamente, de uma só vez e não requer fonte de dados.
  24. 24. A Dimensão Tempo (Quando) Tecnologia em Gestão da Tecnologia da Informação 24 Os Ypos de dados padrões dos bancos de dados, não suportam esta riqueza de formatações.
  25. 25. A Dimensão Onde Tecnologia em Gestão da Tecnologia da Informação 25 • Essa dimensão sempre existe em um fato, seja qual for ele.
  26. 26. Agrupamentos MulIdimensionais Tecnologia em Gestão da Tecnologia da Informação 26
  27. 27. Realizar o Estudo de Caso 1 – Exercício Cinema Tecnologia em Gestão da Tecnologia da Informação 27 • Faça a modelagem mulYdimensional para o modelo transacional do sistema de gerenciamento de cinemas projetado em sala de aula, seguindo a seguinte premissa: • Os gerentes de área da distribuidora desejam acompanhar a evolução do público e o valor arrecadado na região do país.
  28. 28. Realizar o Estudo de Caso 2 – Exercício Hotel Tecnologia em Gestão da Tecnologia da Informação 28 • Faça a modelagem mulYdimensional para o modelo transacional do sistema de gerenciamento de hoteis conforme próximo slide, seguindo a seguinte premissa: • Visualizar ao longo do tempo o faturamento; • Evolução do faturamento pelo Ypo de aparamento; • Faturamento de serviços com consumo de bebidas e alimentos; • Faturamento por profissão de hóspede;
  29. 29. ConInuação Estudo de Caso 2 – Exercício Hotel Tecnologia em Gestão da Tecnologia da Informação 29 Modelo Estrela Fonte: Machado (2004)
  30. 30. Tecnologia em Gestão da Tecnologia da Informação 30 Fim Parte 2
  31. 31. Tecnologia em Gestão da Tecnologia da Informação 31

×