Data Warehouse
  Processo de Projeto
Dimensional - Estudo de
     Caso: Vendas
Processo de Design em Quatro Passos

1.   Selecçionar o processo de negócios a modelar
2.   Declarar a granularidade do processo
3.   Escolher as dimensões que se aplicam a cada linha da tabela
     de factos
4.   Identificar os factos numéricos que irão populacionar a
     tabela de factos
    Tanto requisitos dos usuários do negócio quanto realidades
     dos dados fonte devem ser levados em consideração no
     projecto
Processo de Design em Quatro Passos

   Selecçionar o processo de negócios a modelar
      Actividade executada na organização

         Compras, vendas, pedidos, inventario,

      Obtido atraves de conversas com usuários

      Não está restrito a um único departamento

         E.g., pedidos podem envolver departamentos de

          vendas e marketing
Processo de Design em Quatro Passos

   Declarar a granularidade do processo
      Especificar explicitamente o que uma linha da tabela de

       factos significa
      O grão indica o nível de detalhes associados com cada

       linha da tabela
      Exemplos:

          Uma linha do recibo de vendas do supermercado

          Um snapshot das vendas diarias de cada produto

          Um extracto mensal do banco

      Passo extremamente importante!
Processo de Design em Quatro Passos

   Escolher as dimensões que se aplicam a cada linha da tabela
    de factos
      Dimensões respondem à questão “como as pessoas do

       negócio descrevem os dados que resultam dos processos
       do negócio?”
      Com as escolhas de cada dimensão serão listados todos os

       atributos discretos, textuais, etc, de cada tabela de
       dimensão
      Exemplos:

          Data, produto, cliente, tipo de transação, status
Processo de Design em Quatro Passos

   Identificar os factos numéricos que irão populacionar a tabela
    de factos
      Respondem à pergunta “O que estamos medindo?”

      Devem estar em conformidade com a granularidade

       escolhida
      Exemplos:

          Quantidade pedida, custo em dolares
O negócio: cadeia de lojas

   O negócio tem 100 lojas de cadeia em cinco estados
   Cada loja tem departamentos de: comidas congeladas, carnes,
    paes, complementos alimenticios, etc
   Cada loja tem aproximadamente 60.000 produtos nas suas
    prateleiras
   Os produtos individuais são chamados unidades em estoque (SKU)
   Cerca de 55.000 produtos vêm de fabricantes externos e têm
    codigos de barras impressos no pacote do produto chamados
    codigos de produto universais (UPC)
   As 5.000 unidades de estoque restantes vêm dos departamentos
    da cadeia e têm codigos locais individuais
   Dados são colectados principalmente nos caixas da loja
   Os codigos de venda do produtos são escaneados no pontos de
    venda (PV)
   Outro ponto de colecta de dados é na entrada traseira das lojas
    onde os fornecedores entregam as encomendas
O negócio: cadeia de lojas

   Nas lojas, a administração está preocupada com
    logisticas de pedidos, armazenamento, e vendas de
    produtos enquanto tenta maximizar o lucro
   Lucro vem da venda no melhor preço possivel para cada
    produto, da redução de custos na aquisição de produtos,
    e da atracção do maior numero de clientes possivel
    atraves de preços competitivos
   As decisões mais importantes tem haver com preços e
    promoções
   Promoções incluem reduções temporarias de preços,
    propagandas em jornais, amostras em lojas, e cupons.
Passo 1. Seleccionar o Processo de
                   negócios
   O primeiro modelo dimensional a ser construido deve
    ser aquela a causar maior impacto
   O modelo deveria responder as questões mais
    importantes do negócio e estar prontamente acessivel
    para extracção de dados
   Escolha:
      Vendas nos caixas!

      Entender que produtos estão sendo vendidos em que

       lojas em que dias sobre quais condicões
       promocionais
Passo 2. Declarar a Granularidade
   Utilizar a informação mais atômica e detalhada capturada por um
    processo de negócios
      Provêm alta flexibilidade analítica; pode ser restrito, pesquisado, e

         agregado de diversas formas
   Granularidades de mais alto nível limitam as dimensões e analises
   Escolha:
      Cada linha individual de uma transação no caixa

      Analises:

           Diferenças em vendas de Segunda a Domingo

           Se vale apenas estocar pacotes de varios tamanhos de certos

             cereias
           Quantos consumidores compraram um determinado shampoo

             durante uma promoção de 50% de desconto
           O impacto nas vendas de uma propaganda “pesada” de uma

             marca concorrente
Passo 3. Escolher as Dimensões

   Uma granularidade apropriada determina as dimensões
    primárias da tabela de factos

                                             ID_data
                                             atributos
      ID_produto
       atributos

                          ID_data
                        ID_produto
                           ID_loja
                       ID_promoção
                                              ID_loja
      ID_produto
                                             atributos
       atributos
Passo 4. Identificar os factos




                                         ID_data
                         ID_data         atributos
ID_produto
 atributos
                       ID_produto
                          ID_loja
                     ID_promoção
                     Unid_vendidas
                     Custo_compra
                      Valor_venda
ID_promoção           Nº_clientes         ID_loja
  atributos                              atributos
   Dimensão de Data
      Usada por quase todos data marts

      Existem muitos atributos de datas que não são

       suportados pela função data do SQL, incluindo periodos
       fiscais, feriados, periodos especias do ano (e.g., Natal,
       Carnaval) e fins de semana.
      Focado na granularidade de dias

       10 anos correspondem apenas a 3500 linhas!
Atributos da Tabelas de Dimensões Data
Atributos da Tabelas de Dimensões Data

   Day-of-Week: analises de venda por dia da semana
   Day number e Month number: comparações do mesmo dia
    cada mês e mesmo mês cada ano
   Holidays: Uso de labels com significado
   Selling Season: Natal, Carnaval, etc
   Major event: dia das maes, dia dos namorados
   Date key: inteiro, por razões de armazenamento,
    actualização, etc
   Inclusão de horas: time-of-the day table a ser juntada
Dados na Dimensão de Data
Atributos da Tabelas de Dimensões Produto


   Descreve cada unidade em estoque na loja
   Alguns atributos descritivos normalmente organizado em
    hieraquias: tipo -> categoria -> departamento
      Integral -> pães -> padaria

   Um tabela de dimensão produto tipica teria 50 ou mais
    atributos
      Quanto mais completa, mais analises são possiveis
Atributos da Tabelas de Dimensões Produto
Dimensão Loja


   Descreve cada loja da cadeia
   Principal dimensão geografica do estudo de caso
      Atributos geograficos: ZIP code (CEP) , distrito, estado,

       etc
   Descrição da loja (textual): floor plan type, financial type,
    photo processing type
Atributos da Tabelas de Dimensões Loja
Dimensão Promoção

   Descreve as condições de promoção sob os quais um
    produto foi vendido
   Condições de promoção: reduções de preços temporarias,
    anuncios em journais, displays, cupons, etc
   Dimensão causal: causa mudanças nos padrões de vendas
   Dica: evitar valores null, incluindo uma entrada para
    indicar explicitamente que a dimensão nao é aplicavel a
    determinada medida (e.g., “nenhuma promoção em
    curso”)
Dimensão Promoção


- Análises:
          Se os produtos sob promoção tiveram ganhos em vendas durante
           o periodo promocional
          Se os produtos sob promoção tiveram uma queda antes ou após a
           promoção, cancelando possiveis ganhos
          Se os produtos em promoção apresentaram ganhos mas os
           produtos proximos nas prateleiras apresentaram declinio
          Se todo os produtos em promoção apresentaram ganhos
           conjuntamente levando em contas os periodos anterior, durante
           e posterior às promoções (crescimento de mercado)
          Se a promoção como um todo foi rentavel
Atributos das Tabelas de Dimensão Promoção
Retail Esquema em Acção
   Cenario: um usuário do negócio esta interessado em
    entender melhor as vendas semanais por promoção para a
    categoria de salgadinhos durante Janeiro de 2002 para as
    lojas do distrito de Boston
Esquema de Vendas em Acção
   Resultado
Retail Esquema em Acção
                                      ID_produto
                                        ID_data
                                        ID_Loja
                                    ID_Promoção
                                    Unid_vendidas
                                    Custo_compra
                                     Valor_venda                Dimensão Loja
Dimensão Produto
                                     Nº_clientes
                                                                     ID_loja
     ID_produto                                                       Nome
                       Dimensão Tempo
       Número                               Dimensão Promoção     Número_loja
        Nome                                                        Endereço
        Marca               ID_data                                Localidade
      Categoria           Dia_do_mês            ID_promoção      Código_postal
    Subcategoria        Dia_da_semana              Número            Distrito
   Departamento           Dia_do_ano            Nome_promo           Região
  Tam_embalagem        Semana_do_ano           Tipo_red_preço       Telefone
  Tipo_embalagem              Mês               Tipo_anúncio           Fax
     Tipo_dieta        Número_do_mês             Tipo_cartaz       Gestor_loja
        Peso               Trimestre            Tipo_coupons       Área_total
  Unidade_de_peso        Período_fiscal         Meio_anúncio    Área_mercearias
    Quant_caixa           Flag_feriado           Meio_cartaz    Área_congelados
  Caixas_p_pallete     Flag_dia_semana        Custo_promoção       Área_bazar
   Larg_prateleira     Flag_últ_dia_mês       Início_promoção      Nº_Caixas
  Altura_prateleira      Estação_ano           Fim_promoção     Data_inauguração
  Profun_prateleira     Aconteci_espec                           Data_ult_remod
Extensibilidade do Esquema de Vendas
Normalização de Dimensões
Normalização de Dimensões

   Apresentação muito mais complexa
   Complexidade tambem na optimização de consultas
    (muitos joins)
   Ganhos de espaço são irrisorios
   Navegação é comprometida
Dimensões Demais
Dimensões Demais
   Um numero muito grande de dimensões é
    tipicamente um sinal que diversas dimensões não
    são completamente independentes e devem ser
    combinadas em uma única dimensão.
   Dimensões demais geram problemas de usabilidade
    e performance
   É geralmente um erro representar elementos de
    uma hierarquia em dimensões separadas

Dw sales(aula)

  • 1.
    Data Warehouse Processo de Projeto Dimensional - Estudo de Caso: Vendas
  • 2.
    Processo de Designem Quatro Passos 1. Selecçionar o processo de negócios a modelar 2. Declarar a granularidade do processo 3. Escolher as dimensões que se aplicam a cada linha da tabela de factos 4. Identificar os factos numéricos que irão populacionar a tabela de factos  Tanto requisitos dos usuários do negócio quanto realidades dos dados fonte devem ser levados em consideração no projecto
  • 3.
    Processo de Designem Quatro Passos  Selecçionar o processo de negócios a modelar  Actividade executada na organização  Compras, vendas, pedidos, inventario,  Obtido atraves de conversas com usuários  Não está restrito a um único departamento  E.g., pedidos podem envolver departamentos de vendas e marketing
  • 4.
    Processo de Designem Quatro Passos  Declarar a granularidade do processo  Especificar explicitamente o que uma linha da tabela de factos significa  O grão indica o nível de detalhes associados com cada linha da tabela  Exemplos:  Uma linha do recibo de vendas do supermercado  Um snapshot das vendas diarias de cada produto  Um extracto mensal do banco  Passo extremamente importante!
  • 5.
    Processo de Designem Quatro Passos  Escolher as dimensões que se aplicam a cada linha da tabela de factos  Dimensões respondem à questão “como as pessoas do negócio descrevem os dados que resultam dos processos do negócio?”  Com as escolhas de cada dimensão serão listados todos os atributos discretos, textuais, etc, de cada tabela de dimensão  Exemplos:  Data, produto, cliente, tipo de transação, status
  • 6.
    Processo de Designem Quatro Passos  Identificar os factos numéricos que irão populacionar a tabela de factos  Respondem à pergunta “O que estamos medindo?”  Devem estar em conformidade com a granularidade escolhida  Exemplos:  Quantidade pedida, custo em dolares
  • 7.
    O negócio: cadeiade lojas  O negócio tem 100 lojas de cadeia em cinco estados  Cada loja tem departamentos de: comidas congeladas, carnes, paes, complementos alimenticios, etc  Cada loja tem aproximadamente 60.000 produtos nas suas prateleiras  Os produtos individuais são chamados unidades em estoque (SKU)  Cerca de 55.000 produtos vêm de fabricantes externos e têm codigos de barras impressos no pacote do produto chamados codigos de produto universais (UPC)  As 5.000 unidades de estoque restantes vêm dos departamentos da cadeia e têm codigos locais individuais  Dados são colectados principalmente nos caixas da loja  Os codigos de venda do produtos são escaneados no pontos de venda (PV)  Outro ponto de colecta de dados é na entrada traseira das lojas onde os fornecedores entregam as encomendas
  • 8.
    O negócio: cadeiade lojas  Nas lojas, a administração está preocupada com logisticas de pedidos, armazenamento, e vendas de produtos enquanto tenta maximizar o lucro  Lucro vem da venda no melhor preço possivel para cada produto, da redução de custos na aquisição de produtos, e da atracção do maior numero de clientes possivel atraves de preços competitivos  As decisões mais importantes tem haver com preços e promoções  Promoções incluem reduções temporarias de preços, propagandas em jornais, amostras em lojas, e cupons.
  • 9.
    Passo 1. Seleccionaro Processo de negócios  O primeiro modelo dimensional a ser construido deve ser aquela a causar maior impacto  O modelo deveria responder as questões mais importantes do negócio e estar prontamente acessivel para extracção de dados  Escolha:  Vendas nos caixas!  Entender que produtos estão sendo vendidos em que lojas em que dias sobre quais condicões promocionais
  • 10.
    Passo 2. Declarara Granularidade  Utilizar a informação mais atômica e detalhada capturada por um processo de negócios  Provêm alta flexibilidade analítica; pode ser restrito, pesquisado, e agregado de diversas formas  Granularidades de mais alto nível limitam as dimensões e analises  Escolha:  Cada linha individual de uma transação no caixa  Analises:  Diferenças em vendas de Segunda a Domingo  Se vale apenas estocar pacotes de varios tamanhos de certos cereias  Quantos consumidores compraram um determinado shampoo durante uma promoção de 50% de desconto  O impacto nas vendas de uma propaganda “pesada” de uma marca concorrente
  • 11.
    Passo 3. Escolheras Dimensões  Uma granularidade apropriada determina as dimensões primárias da tabela de factos ID_data atributos ID_produto atributos ID_data ID_produto ID_loja ID_promoção ID_loja ID_produto atributos atributos
  • 12.
    Passo 4. Identificaros factos ID_data ID_data atributos ID_produto atributos ID_produto ID_loja ID_promoção Unid_vendidas Custo_compra Valor_venda ID_promoção Nº_clientes ID_loja atributos atributos
  • 13.
    Dimensão de Data  Usada por quase todos data marts  Existem muitos atributos de datas que não são suportados pela função data do SQL, incluindo periodos fiscais, feriados, periodos especias do ano (e.g., Natal, Carnaval) e fins de semana.  Focado na granularidade de dias  10 anos correspondem apenas a 3500 linhas!
  • 14.
    Atributos da Tabelasde Dimensões Data
  • 15.
    Atributos da Tabelasde Dimensões Data  Day-of-Week: analises de venda por dia da semana  Day number e Month number: comparações do mesmo dia cada mês e mesmo mês cada ano  Holidays: Uso de labels com significado  Selling Season: Natal, Carnaval, etc  Major event: dia das maes, dia dos namorados  Date key: inteiro, por razões de armazenamento, actualização, etc  Inclusão de horas: time-of-the day table a ser juntada
  • 16.
  • 17.
    Atributos da Tabelasde Dimensões Produto  Descreve cada unidade em estoque na loja  Alguns atributos descritivos normalmente organizado em hieraquias: tipo -> categoria -> departamento  Integral -> pães -> padaria  Um tabela de dimensão produto tipica teria 50 ou mais atributos  Quanto mais completa, mais analises são possiveis
  • 18.
    Atributos da Tabelasde Dimensões Produto
  • 19.
    Dimensão Loja  Descreve cada loja da cadeia  Principal dimensão geografica do estudo de caso  Atributos geograficos: ZIP code (CEP) , distrito, estado, etc  Descrição da loja (textual): floor plan type, financial type, photo processing type
  • 20.
    Atributos da Tabelasde Dimensões Loja
  • 21.
    Dimensão Promoção  Descreve as condições de promoção sob os quais um produto foi vendido  Condições de promoção: reduções de preços temporarias, anuncios em journais, displays, cupons, etc  Dimensão causal: causa mudanças nos padrões de vendas  Dica: evitar valores null, incluindo uma entrada para indicar explicitamente que a dimensão nao é aplicavel a determinada medida (e.g., “nenhuma promoção em curso”)
  • 22.
    Dimensão Promoção - Análises:  Se os produtos sob promoção tiveram ganhos em vendas durante o periodo promocional  Se os produtos sob promoção tiveram uma queda antes ou após a promoção, cancelando possiveis ganhos  Se os produtos em promoção apresentaram ganhos mas os produtos proximos nas prateleiras apresentaram declinio  Se todo os produtos em promoção apresentaram ganhos conjuntamente levando em contas os periodos anterior, durante e posterior às promoções (crescimento de mercado)  Se a promoção como um todo foi rentavel
  • 23.
    Atributos das Tabelasde Dimensão Promoção
  • 24.
    Retail Esquema emAcção  Cenario: um usuário do negócio esta interessado em entender melhor as vendas semanais por promoção para a categoria de salgadinhos durante Janeiro de 2002 para as lojas do distrito de Boston
  • 25.
    Esquema de Vendasem Acção  Resultado
  • 26.
    Retail Esquema emAcção ID_produto ID_data ID_Loja ID_Promoção Unid_vendidas Custo_compra Valor_venda Dimensão Loja Dimensão Produto Nº_clientes ID_loja ID_produto Nome Dimensão Tempo Número Dimensão Promoção Número_loja Nome Endereço Marca ID_data Localidade Categoria Dia_do_mês ID_promoção Código_postal Subcategoria Dia_da_semana Número Distrito Departamento Dia_do_ano Nome_promo Região Tam_embalagem Semana_do_ano Tipo_red_preço Telefone Tipo_embalagem Mês Tipo_anúncio Fax Tipo_dieta Número_do_mês Tipo_cartaz Gestor_loja Peso Trimestre Tipo_coupons Área_total Unidade_de_peso Período_fiscal Meio_anúncio Área_mercearias Quant_caixa Flag_feriado Meio_cartaz Área_congelados Caixas_p_pallete Flag_dia_semana Custo_promoção Área_bazar Larg_prateleira Flag_últ_dia_mês Início_promoção Nº_Caixas Altura_prateleira Estação_ano Fim_promoção Data_inauguração Profun_prateleira Aconteci_espec Data_ult_remod
  • 27.
  • 28.
  • 29.
    Normalização de Dimensões  Apresentação muito mais complexa  Complexidade tambem na optimização de consultas (muitos joins)  Ganhos de espaço são irrisorios  Navegação é comprometida
  • 30.
  • 31.
    Dimensões Demais  Um numero muito grande de dimensões é tipicamente um sinal que diversas dimensões não são completamente independentes e devem ser combinadas em uma única dimensão.  Dimensões demais geram problemas de usabilidade e performance  É geralmente um erro representar elementos de uma hierarquia em dimensões separadas