Data
Warehouse
Sheila Dias
sheila.dias@unibh.com.br
Data Warehouse
• Data Warehouse (DW) é uma base de dados integrada,
contendo informações de diversas fontes disponíveis
na organização, estruturada para realização de
consultas analíticas.
Arquitetura DW
Data
Warehouse
Data Mining
Sistemas
Legados
Análise OLAP
Conteúdos Não
Estruturados
Fontes
Externas
Sistemas
Fontes/OLTP
Extração
Transformação
Carga
Consolidação
ODS
Data
Marts
Relatórios
Ferramentas
de Análise
Data Warehouse
• Carregado a partir de bancos de dados
transacionais, fontes de dados externas e/ou
não estruturadas
• Dividido por assunto
• Modelado de uma nova maneira, objetivando
facilitar a consulta
Data Warehouse
• Não consiste apenas em dados, mas também em um
conjunto de ferramentas para consultar, analisar e
apresentar informações
• Não é volátil – armazena histórico
• Busca sempre a integração dos dados
• Geralmente utiliza o período da noite como janela de carga
ODS - Operational Data Store
Base de dados que integra dados de múltiplas
fontes, para facilitar análises e relatórios
ODS é semelhante ao DW: ambos são orientados
por assunto e integrados
Pode ser uma base separada do DW ou pode ser
um componente do mesmo
Diferenças DW X ODS
• Volatilidade
Dados no ODS são alterados de acordo com as
alterações no sistema transacional. No DW um novo
registro é criado com o objetivo de manter o histórico
• Freqüência da informação
O ODS possui dados correntes, que não ultrapassem
as últimas 24 horas ou 1 mês, por exemplo
Diferenças DW X ODS
• Detalhes dos dados
O ODS possui dados detalhados com estruturação não
dimensional e DW possui dados sumarizados
• Relatórios
O ODS é comumente consultado para gerar relatórios
operacionais, como por exemplo listagens detalhadas,
enquanto no DW esse tipo de relatório é pouco comum,
geralmente são gerados relatórios analíticos com
informações sumarizadas.
Recomendação
• Necessidade de uma base para consultas em
tempo quase real
• Necessidade de uma base acessível no ambiente
organizacional que não é orientada para aplicações
e possui aspecto relativo a integração
• Necessidade de relatórios para decisões táticas que
envolvem diferentes bases de dados e que devem
ser próximas da realidade no aspecto temporal
Formas de Construção - DW
• Top-down: criação de um DW contendo todos os dados
corporativos e posteriormente é feita a segmentação do
DW em áreas menores por assunto gerando assim os
Data Marts.
• Botton-up: inicia-se a construção por uma área, ou Data
Mart. A partir da visualização dos primeiros resultados
parte para outra área e assim sucessivamente até resultar
em um Data Warehouse.
Abordagem Inmon
• Todo o Data Warehouse é construído de uma vez (Top
Down)
• Estilo tradicional de construção de BD
• Forte integração entre todos os dados da empresa
Abordagem Inmon
• Modelo único e coeso, mas rígido e de difícil consecução
• Período extenso de desenvolvimento
• Modelagem Snow-Flake
ETL
DW
Ferramentas de
Análise
DMFontes
Abordagem Kimball
• Visão incremental baseados em Data Marts (Bottom
Up)
• Possibilidade de produzir Data Marts sem perfeita
coesão
• Exige mais esforços na fase de extração, transformação
e carga
DMFontes
Análise
Abordagem Kimball
• Os Data Marts possuem menor complexidade e tempo
de desenvolvimento
• Modelagem Star-Schema
ETL
Ferramentas de
DMFontes
Sistemas
DMFontes
Convergências Atuais
• Ambas abordagens são amplamente utilizadas
• Não são necessariamente excludentes embora representem
correntes ligeiramente diferentes no inicio do projeto
• O Inmon hoje já incorpora os conceitos de Data Marts
• Os métodos do projeto de Kimball podem ser
utilizados na metodologia Inmon
DMFontes
Convergências Atuais
• É aconselhável planejar corporativamente e implementar
incrementalmente
• Integrados na medida de sua evolução desde que mantidas as
compatibilidades dimensionais
• A cada Data Mart desenvolvido é necessário analisar as
integrações com futuros Data Marts e com Data Marts já
implantados
OLAP
OLAP (Online analytical processing)
• É uma categoria de tecnologia de software que
possibilita a visualização dos dados armazenados,
segundo um grande número de pontos de vista,
através de acessos rápidos, consistentes e interativos
OLTP x OLAP
• OLTP:
• On-Line Transaction Processing ou Processamento
On-Line de Transações
• Fornece suporte aos negócios da empresa, agindo em
execuções e tarefas do dia-a-dia
• OLAP
• On-Line Analytical Processing ou Processamento
Analítico On-Line
• Fornece base para análise do negócio e tomadas de
decisão.
Dúvidas????
Projeto de
Data
Warehouse
Sheila Dias
sheila.dias@unibh.com.br
Metodologia
A construção de um Data Warehouse deve ser visto
como um Projeto, ou seja, é preciso avaliar custo, tempo,
prazo, riscos, escopo.
É necessário um conjunto de atividades bem definidas
A metodologia funciona como diferencial competitivo
“Uma metodologia não deve ser
vista como um TRILHO, mas sim
como um TRILHA”.
Planejamento
• Definir o escopo, planejamento, recursos
necessários, tarefas e entregas, prazos
Levantamento e definição dos requisitos de
dados
• Entendimento do negócio do cliente e de suas
necessidades, definição que quais informações
serão fornecidas no DW
Modelagem dimensional e criação do banco
de dados físico
• Gera um modelo final formado por tabelas fato e
tabelas dimensão que cobre o escopo do projeto
incluindo relacionamentos, cardinalidade,
atributos, chaves primárias e estrangeiras
Fases de um Projeto - DW
Mapeamento de dados e suas
transformações
• Identificar os sistemas fonte, mapear a fonte para
o destino, especificar as transformações
necessárias, definir a estratégia e periodicidade de
atualização das informações
Extração e carga de dados
• Construção e teste dos procedimentos de extração,
transformação e carga de dados
Automatizar os processos do DW
• Automatizar processos de carga, rotinas de
backup, etc
Criar o conjunto inicial de relatórios
• Definir, construir e testar o conjunto inicial de
relatórios
Teste e validação de dados
Treinamento
Implantação e suporte ao usuário final
Manutenção e crescimento
Controle de Projetos
Definição de
Requisitos de
Negócio
Visão Kimball
The Business Dimensional Lifecycle
Trilha Tecnológica
Projeto e
Arquitetura
Técnica
Instalação e
Seleção de
Produtos
Trilha de Dados
Planejamento
do Projeto
Modelagem
Dimensional
Projeto
Físico
Projeto e
Desenvolvimento da
Área de Transição
Implantação e
Manutenção
Trilha de Aplicações
Especificação da
Aplicação do
Usuário Final
Desenvolvimento
da Aplicação do
Usuário Final
Gerenciamento do Projeto Data Warehouse
Fatores Importantes
O sucesso do DW pode ser facilitado por:
Patrocinadores (sponsor)
Metodologia
Boa seleção de dados
Abordagem e ambiente adequados
Plataforma de hardware e software
Treinamento da Equipe de TI
Ferramentas de administração
É interessante que os primeiros resultados estejam
disponíveis a curto prazo. É importante traduzir
rapidamente as necessidades do negócio em uma
especificação que possa ser construída em etapas
Construir um DW que possa ser expandido,
mantendo níveis aceitáveis de desempenho para
grandes volumes de dados
Construir um ambiente aberto capaz de permitir
que os componentes ou ferramentas possam ser
substituídos por outros mais atuais e eficientes
A escolha do banco de dados de suporte ao DW
precisa ser criteriosa, levando em consideração:
• Desempenho na carga e indexação dos dados
• Tempo de resposta
• Capacidade de armazenamento
• Paralelismo
• Escalabilidade
Avaliar as ferramentas disponíveis no mercado e
analisar se elas fornecem:
• Interfaces amigáveis
• Geração de relatórios
• Análises multidimensionais
• Acesso via Web

Conceitos DW

  • 1.
    Data Warehouse Sheila Dias sheila.dias@unibh.com.br Data Warehouse •Data Warehouse (DW) é uma base de dados integrada, contendo informações de diversas fontes disponíveis na organização, estruturada para realização de consultas analíticas. Arquitetura DW Data Warehouse Data Mining Sistemas Legados Análise OLAP Conteúdos Não Estruturados Fontes Externas Sistemas Fontes/OLTP Extração Transformação Carga Consolidação ODS Data Marts Relatórios Ferramentas de Análise
  • 2.
    Data Warehouse • Carregadoa partir de bancos de dados transacionais, fontes de dados externas e/ou não estruturadas • Dividido por assunto • Modelado de uma nova maneira, objetivando facilitar a consulta Data Warehouse • Não consiste apenas em dados, mas também em um conjunto de ferramentas para consultar, analisar e apresentar informações • Não é volátil – armazena histórico • Busca sempre a integração dos dados • Geralmente utiliza o período da noite como janela de carga
  • 3.
    ODS - OperationalData Store Base de dados que integra dados de múltiplas fontes, para facilitar análises e relatórios ODS é semelhante ao DW: ambos são orientados por assunto e integrados Pode ser uma base separada do DW ou pode ser um componente do mesmo Diferenças DW X ODS • Volatilidade Dados no ODS são alterados de acordo com as alterações no sistema transacional. No DW um novo registro é criado com o objetivo de manter o histórico • Freqüência da informação O ODS possui dados correntes, que não ultrapassem as últimas 24 horas ou 1 mês, por exemplo Diferenças DW X ODS • Detalhes dos dados O ODS possui dados detalhados com estruturação não dimensional e DW possui dados sumarizados • Relatórios O ODS é comumente consultado para gerar relatórios operacionais, como por exemplo listagens detalhadas, enquanto no DW esse tipo de relatório é pouco comum, geralmente são gerados relatórios analíticos com informações sumarizadas. Recomendação • Necessidade de uma base para consultas em tempo quase real • Necessidade de uma base acessível no ambiente organizacional que não é orientada para aplicações e possui aspecto relativo a integração • Necessidade de relatórios para decisões táticas que envolvem diferentes bases de dados e que devem ser próximas da realidade no aspecto temporal
  • 5.
    Formas de Construção- DW • Top-down: criação de um DW contendo todos os dados corporativos e posteriormente é feita a segmentação do DW em áreas menores por assunto gerando assim os Data Marts. • Botton-up: inicia-se a construção por uma área, ou Data Mart. A partir da visualização dos primeiros resultados parte para outra área e assim sucessivamente até resultar em um Data Warehouse. Abordagem Inmon • Todo o Data Warehouse é construído de uma vez (Top Down) • Estilo tradicional de construção de BD • Forte integração entre todos os dados da empresa Abordagem Inmon • Modelo único e coeso, mas rígido e de difícil consecução • Período extenso de desenvolvimento • Modelagem Snow-Flake ETL DW Ferramentas de Análise DMFontes Abordagem Kimball • Visão incremental baseados em Data Marts (Bottom Up) • Possibilidade de produzir Data Marts sem perfeita coesão • Exige mais esforços na fase de extração, transformação e carga
  • 6.
    DMFontes Análise Abordagem Kimball • OsData Marts possuem menor complexidade e tempo de desenvolvimento • Modelagem Star-Schema ETL Ferramentas de DMFontes Sistemas DMFontes Convergências Atuais • Ambas abordagens são amplamente utilizadas • Não são necessariamente excludentes embora representem correntes ligeiramente diferentes no inicio do projeto • O Inmon hoje já incorpora os conceitos de Data Marts • Os métodos do projeto de Kimball podem ser utilizados na metodologia Inmon DMFontes
  • 7.
    Convergências Atuais • Éaconselhável planejar corporativamente e implementar incrementalmente • Integrados na medida de sua evolução desde que mantidas as compatibilidades dimensionais • A cada Data Mart desenvolvido é necessário analisar as integrações com futuros Data Marts e com Data Marts já implantados OLAP OLAP (Online analytical processing) • É uma categoria de tecnologia de software que possibilita a visualização dos dados armazenados, segundo um grande número de pontos de vista, através de acessos rápidos, consistentes e interativos OLTP x OLAP • OLTP: • On-Line Transaction Processing ou Processamento On-Line de Transações • Fornece suporte aos negócios da empresa, agindo em execuções e tarefas do dia-a-dia • OLAP • On-Line Analytical Processing ou Processamento Analítico On-Line • Fornece base para análise do negócio e tomadas de decisão. Dúvidas????
  • 8.
  • 9.
    Metodologia A construção deum Data Warehouse deve ser visto como um Projeto, ou seja, é preciso avaliar custo, tempo, prazo, riscos, escopo. É necessário um conjunto de atividades bem definidas A metodologia funciona como diferencial competitivo “Uma metodologia não deve ser vista como um TRILHO, mas sim como um TRILHA”. Planejamento • Definir o escopo, planejamento, recursos necessários, tarefas e entregas, prazos Levantamento e definição dos requisitos de dados • Entendimento do negócio do cliente e de suas necessidades, definição que quais informações serão fornecidas no DW Modelagem dimensional e criação do banco de dados físico • Gera um modelo final formado por tabelas fato e tabelas dimensão que cobre o escopo do projeto incluindo relacionamentos, cardinalidade, atributos, chaves primárias e estrangeiras Fases de um Projeto - DW Mapeamento de dados e suas transformações • Identificar os sistemas fonte, mapear a fonte para o destino, especificar as transformações necessárias, definir a estratégia e periodicidade de atualização das informações Extração e carga de dados • Construção e teste dos procedimentos de extração, transformação e carga de dados Automatizar os processos do DW • Automatizar processos de carga, rotinas de backup, etc Criar o conjunto inicial de relatórios • Definir, construir e testar o conjunto inicial de relatórios Teste e validação de dados Treinamento Implantação e suporte ao usuário final Manutenção e crescimento Controle de Projetos
  • 10.
    Definição de Requisitos de Negócio VisãoKimball The Business Dimensional Lifecycle Trilha Tecnológica Projeto e Arquitetura Técnica Instalação e Seleção de Produtos Trilha de Dados Planejamento do Projeto Modelagem Dimensional Projeto Físico Projeto e Desenvolvimento da Área de Transição Implantação e Manutenção Trilha de Aplicações Especificação da Aplicação do Usuário Final Desenvolvimento da Aplicação do Usuário Final Gerenciamento do Projeto Data Warehouse Fatores Importantes O sucesso do DW pode ser facilitado por: Patrocinadores (sponsor) Metodologia Boa seleção de dados Abordagem e ambiente adequados Plataforma de hardware e software Treinamento da Equipe de TI Ferramentas de administração É interessante que os primeiros resultados estejam disponíveis a curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas Construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho para grandes volumes de dados Construir um ambiente aberto capaz de permitir que os componentes ou ferramentas possam ser substituídos por outros mais atuais e eficientes A escolha do banco de dados de suporte ao DW precisa ser criteriosa, levando em consideração: • Desempenho na carga e indexação dos dados • Tempo de resposta • Capacidade de armazenamento • Paralelismo • Escalabilidade
  • 11.
    Avaliar as ferramentasdisponíveis no mercado e analisar se elas fornecem: • Interfaces amigáveis • Geração de relatórios • Análises multidimensionais • Acesso via Web