Apresentação que visa demonstrar resumidamente os conceitos básicos de um repositório de dados Data Warehouse. Assim explicando a estrutura e os resultados esperados de um Data Warehouse.
Menelik SoaresAnalista de rede na Stefanini em Stefanini
1. Data Warehouse
MENELIK SOARES
CURSO: ANÁLISE E DESENVOLVIMENTO DE SISTEMAS
INSTITUTO FEDERAL DE CIÊNCIA E TECNOLOGIA DE SÃO PAULO – CAMPUS HORTOLÂNDIA
03/11/2015
3. Introdução
Amplo crescimento do volume de dados;
Dados provenientes de variadas bases de dados (Banco
de dados);
Maior complexidade na extração de dados.
4. Definições
Data Warehouse
Repositório de dados. Também é uma coleção de dados;
Diferenças de um Banco de Dados:
Suporte à decisão
Otimizado para a recuperação de dados
“Data Warehouse é uma base de dados orientada a assunto,
não volátil, histórica e volumosa, sendo um componente
importante da inteligência de negócios” (CARNIEL et al, 2012,
p. 113)
– Inteligência de negócios = Business Intelligence.
5. Definições
“[...] uma coleção de tecnologias de apoio à decisão,
visando a habilitar o trabalhador do conhecimento
(executivo, gerente, analista) a tomar decisões melhores e
mais rápidas” (ELMARSI; NAVATHE, 2011, p.721
apudCHAUDHURI; DAYAL, 1997)
Suporta diversos tipos de aplicações:
OLAP (Online Analytical Processing)
Decision-suport Systems (DSS)
Data Mining
6. Termos
OLAP: uso de análise complexa sobre os dados. Existem
diversas ferramentas que permitem explorar os dados com
uma série de funcionalidades pré-definidas. O
processamento se dá, majoritariamente, no servidor.
Decision-suport Systems (DSS): provê dados de alto nível para
ubsidiar a tomada de decisão em organizações.
Data Mining: busca novas informações por meio de
algoritmos que detectem regras e padrões em grandes
conjuntos de dados.
7. Termos
Data Mart: Subconjunto lógico do Data Warehouse,
geralmente divididos por departamento ou visões necessárias
para os usuários.
Data Stage: Composta por uma área de armazenagem e um
conjunto de processos. Sua função é extrair os dados dos
sistemas transacionais, proceder a limpeza, a transformação,
combinação, de duplicação e preparação dos dados para
o uso no Data Warehouse. Estes dados não são apresentados
ao usuário final.
9. OLAP
Os bancos de dados OLAP facilitam as consultas de inteligência
comercial. OLAP é uma tecnologia de banco de dados que foi
otimizada para consulta e relatório, em vez de processamento do
transações. Os dados de origem do OLAP são bancos de dado OLTP
(Online Transactional Processing) que são comumente armazenados
em depósitos de dados. Os dados OLAP são derivados desses dados
históricos, e agregados em estruturas que permitem análise
sofisticada. Os dados OLAP também são organizados
hierarquicamente e armazenados em cubos em vez de tabelas. Trata-
se de uma tecnologia sofisticada que usa estruturas multidimensionais
para fornecer acesso rápido aos dados para análise. Essa
organização facilita, para um relatório de tabela ou gráfico dinâmico,
a exibição de resumos de alto nível, como totais de vendas para um
país ou região, bem como a exibição dos detalhes referentes aos
locais em que as vendas são particularmente altas ou baixas.
10. Especificação
Data warehouses em nível empresarial são imensos projetos
que exigem investimento maciço de tempo e recursos.
Data warehouses virtuais oferecem visões de bancos de
dados operacionais que são materializadas para acesso
eficiente.
Data marts em geral são voltados para um subconjunto da
organização, como um departamento, e possuem um foco
mais estreito.
11. Modelo Relacional
É a modelação de dados mais utilizada em Data Warehouse.
Para se ter melhor entendimento de seu funcionamento é
necessário compreender alguns termos:
Dimensão- Categorização da Informação, por exemplo
Tempo;
Atributos – Um nível especifico de dimensão, por exemplo
mês um atributo da dimensão Tempo;
Hierarquia- A especificação de níveis que representam as
relações entre diferentes atributos de uma dimensão, por
exemplo Ano – Mês – Dia.
12. Modelo Relacional
Tabela Fato- É uma tabela que contém as medidas, métricas
ou fatos de um processo de negócio. Geralmente localiza-se
no centro de esquema de Estrela ou de um esquema de
Floco de neve.
Tabela de pesquisa- Fornece informação detalhada acerca
dos atributos. Um modelo dimensional inclui tabelas fato e
tabelas de pesquisa. Tabelas fato se ligam a uma ou mais
tabelas de pesquisa, mas não têm relação direta entre elas.
Dimensões e hierarquias são representadas por tabelas de
pesquisa. Atributos são as colunas sem chave nas tabelas de
pesquisa.
13. Esquemas Relacionais
Floco de Neve:
Este esquema é uma extensão do esquema de estrela, em
que cada ponto da estrela se estende por mais pontos.
Neste esquema as tabelas de dimensão são normalizadas
em múltiplas tabelas de pesquisa, cada uma
representando um nível na hierarquia da dimensão.
Estrela:
No esquema de estrela em único objeto (tabela de fato)
fica ao meio e é ligada aos outros objetos (tabelas
dimensão) como uma estrela. Cada dimensão é
representada como uma única tabela. As chaves
primárias em cada tabela de dimensão estão
relacionadas com um Foreign Key na tabela fato.
16. Conclusão
Os Data Warehouse no contexto atual gerenciamento de
dados, é indispensável para as grandes corporações e
instituições que armazenam um grande volume de dados.
Tendo em vista a necessidade de abstrair informações que
auxiliem as mesmas a ter o entendimento do seu contexto
mercantil e estrutural. Desta forma, o principal objetivo é ter
uma base de informações confiável para análise e tomadas
decisões com maior coerência para a corporação.
17. Questões
1) Qual a aplicação de um Data Warehouse?
2) O que OLAP?
3) Quais são os dois esquemas relacionais apresentados para
implantação de um Data Warehouse? Explique ambos esquemas.
4) O que são Data Marts?
5)Quais operações são realizadas no Data Stage?