2. Data Warehousing - Definição Um Data Warehouse é um repositório/depósito de informação digital de uma empresa pensado para facilitar a análise da informação e os relatórios obtidos dela. Esta definição de data warehouse foca-se no armazenamento da informação. No entanto os meios para obter e analisar, extrair, transformar e carregar dados, e para gerir os dicionários de dados são também considerados componentes essenciais de um sistema de data warehousing. Uma definição mais expansiva para data warehousing também inclui o que nós chamamos de “business intelligence tools”, ferramentas para a extracção, transformação e carregamento de dados no repositório e ferramentas para obter e gerir os seus metadados. O conceito de Data Warehousing surge nos anos 80 no meio académico. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, as implementações de data warehousing passou a ser uma realidade nas grandes empresas. O mercado de ferramentas de Data Warehousing, dos quais os “Business Intelligence” fazem parte, cresceu desde então e ferramentas mehores e mais sofisticadas foram sendo desenvolvidas para apoiar a estrutura do data warehouse e da sua utilização. 2 Trabalho Investigação SGBD
3. Data Warehousing – Modelo de dados dimensional Modelação dimensional de dados é a modelação de dados mais comum de encontar no data warehousing. Para a compreendermos melhor melhor temos de definir alguns termos utilizados: Dimensão – Uma categoria de informação, por exemplo a dimensão Tempo; Atributo – Um nível único de uma dimensão, por exemplo o mês é um atributo da dimensão tempo; Hierarquia – A especificação de níveis que representem as relações entre os diferentes atributos de uma dimensão, por exemplo Ano -> Mês -> Dia. Tabela de factor– É a tabela que contém as medidas, métricas ou factos de um processo de negócio. Geralmente localiza-se no centro de um esuqema de estrela ou de um esquema de floco de neve. Tabela de pesquisa – Fornece informação detalhada acerca dos atributos. Um modelo dimensional inclui tabelas de factor e tabelas de pesquisa. Tabelas de factor ligam-se a uma ou mais tabelas de pesquisa, mas não têm relação directa entre elas. Dimensões e hierarquias são representadas por tabelas de pesquisa. Atributos são as colunas sem chave nas tabelas de pesquisa. Os esquemas mais utilizados são o esquema de estrela e o esquema de floco de neve, se bem que a sua utilização se prende com a preferência pessoal de quem executa e as necessidades do negócio. 3 Trabalho Investigação SGBD
4. Esquemas utilizados Estrela: Num esquema de estrela um único objecto (tabela factor) fica ao meio e é ligada aos outros objectos (tabelas dimensão) como uma estrela. Cada dimensão é representada como uma única tabela. As chaves primárias em cada tabela de dimensão estão relacionadas com um Foreign Key na tabela factor. Floco de Neve: Este esquema é uma extensão do esquema de estrela, em que cada ponto da estrela se extende por mais pontos. Neste esquema as tabelas de dimensão são normalizadas em múltiplas tabelas de pesquisa, cada uma representando um nível na hierarquia da dimensão. Esquema Estrela Esquema Floco de neve 4 Trabalho Investigação SGBD
5. Data Warehousing - Arquitectura Armazenamento O armazenamento é feito num único repositório, de acesso rápido para as análises. Esse armazenamento irá conter dados históricos vindos de bancos de dados transacionais que servem de backend a sistemas como os ERP's e CRM's. Quantos mais dados do histórico das operações das empresas, melhor será para que a análise destas informações espelhe o momento das mesmas. Modelagem dimensional Os sistemas de base de dados tradicionais utilizam a normalização no formato de dados para garantir a consistência dos dados, minimizar o espaço de armazenamento e reduzir as redundâncias de dados.Um data warehouse utiliza dados em formato desnormalizado. Isto aumenta o desempenho das consultas e como benifício adicional, o processo torna-se mais intuitivo para os utilizadores comuns. Essa maneira de reorganizar os dados tem o nome de Modelagem Dimensional e o resultado é o modelo dimensional. 5 Trabalho Investigação SGBD
6. Data Warehousing - Arquitectura Metadados – O conceito de metadados (dados sobre os dados) e um repositório dos mesmos é considerado uma ferramenta essencial para a gestão de um data warehouse no momento de converter os dados em informações para o negócio. Um repositório de metadados bem construído deve conter informações sobre a origem dos dados, regras de transformação, nomes e alias, formatos de dados, etc. O seu objectivo e conter mais do que as descrições de colunas e tabelas, deve conter informação relevante que adicione valor aos dados. Extracção de dados Para a extracção de dados, normalmente estes passam por um área conhecida como área de stage. O stage de dados ocorre quando existem processos que de forma periódica efectuam a leitura dos dados de fontes como os sistemas OLTP. Os dados podem então passar por um processo de qualidade, de normalização e gravação no Data Warehouse. Esse processo geralmente é efectuado por ferramentas ETL (Extraction, Transformation and Loading) e outras. 6 Trabalho Investigação SGBD
7. Data Warehousing - Arquitectura Extracção de dados Para a extracção de dados, normalmente estes passam por um área conhecida como área de stage. O stage de dados ocorre quando existem processos que de forma periódica efectuam a leitura dos dados de fontes como os sistemas OLTP. Os dados podem então passar por um processo de qualidade, de normalização e gravação no Data Warehouse. Esse processo geralmente é efectuado por ferramentas ETL (Extraction, Transformation and Loading) e outras. Ferramentas OLAP– Online Analytical Processing – são geralmente desenvolvidas para trabalhar com repositórios de dados desnormalizados, embora existam ferramentas que trabalham com esquemas especiais de armazenamento de dados normalizados. Essas ferramentas capazes de navegar pelos dados de um Data Warehouse, possuem uma estrutura adequada tanto para a realização de pesquisas como para a apresentação de informações. É possível navegar-se entre diferentes níveis de detalhe de um cubo de dados. 7 Trabalho Investigação SGBD
8. Data Warehousing - Arquitectura Através de um processo chamado “Drill”, o utilizador pode aumentar (Drill down) ou diminuir (Drill Up) o nível de detalhe dos dados. Outra possibilidade de navegação nos dados é o recurso chamado “Slice and Dice”, utilizado para criar visões dos dados por meio da sua reorganização, de forma a que estes possam ser analisados sob diferentes perspectivas. O uso de recursos para manipular, formatar e apresentar os dados de modo rápido e flexível é um dos pontos fortes de um data warehouse. Essa característica faz com que a apresentação de relatórios no ecrã seja mais comum do que imprimi-los. Além disso, o utilizador tem liberdade para examinar as informações que quiser de diversas maneiras e, ao final, pode imprimir e até mesmo salvar as vistas mais importantes para uma futura consulta. Data mining – ou mineração de dados é o processo de descoberta de padrões existentes em grandes massas de dados. Apesar de existirem ferramentas que auxiliam na execução do processo, a sua automatização não é simples e precisa de ser conduzido por uma pessoa, preferencialmente com formação em Estatística e áreas afins. 8 Trabalho Investigação SGBD