Desenhar o conceito de data warehouse numa biblioteca da universidade

Aristidis Jesus
Aristidis JesusLecture em UNTL

Artigo científico

Desenhar O Conceito de Data Warehouse Numa
Biblioteca da Universidade
ARISTIDIS DE JESUS ORNAI
                ´
Universidade de Evora



   Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento
                                                    ca
da Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade
                                                      e                   ca
de dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu-
                a                                  o
ais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo
                      e
multidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re-
                                                                             o       a
lat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma
   o                  a                                        ca      e
estrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por
      e                       a                                                a
exemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase
                              co                                        e              e
do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o
volume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o
                   ca                     ıvel                   a         e                ca
apresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo
de circula¸˜o dos livros.
          ca
Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON,
1996]: Processo de Apoio a Decis˜o
                          `     a
Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de
                                                                         ca
decis˜o
     a




1.          ¸˜
     INTRODUCAO
Data warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o
                  e           ca                                                 a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
   a          a                                                               a
cis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os
   a                                                      co
dados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de
           o                                                         co
data warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote-
                 e               o                         co
cas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma
                                         ca     a
variedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge-
                    co
stores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas
                        co          a                            a
que n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual
      a                        ca
ou usam um software utilizado para conectar os diferentes m´dulos. Basicamente
                                                              o
o processo que acontece ´ a actividade de resumir os dados que foram armazenados
                         e
no data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise
                                                                               a
´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade.
e
Os resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a
                           a
Biblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o
                                                                                ca
dos livros e a base de dados de data warehouse.


Aristidis de Jesus Ornai, m6463@alunos.uevora.pt
                 ´
Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012.
                                                a         o

                                                                        SemEv 2012, P´ginas 1–8.
                                                                                     a
2     ·    Aristidis Jesus

2.    DATA WAREHOUSE
Existem v´rios conceitos de Data Warehouse propostos por diferentes autores.
            a
Apresentam-se dois dos principais conceitos que s˜o considerados muito importante.
                                                 a
Primeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores
                                                                 e
conceituados precursores de conceitos de Data Warehouse. Este autor refere que
um data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts.
                       a e                    a
Um data mart pode ser definido como um Data Warehouse de pequena capaci-
dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es
                                    a                                         co
mais detalhadas sobre um determinado assunto em quest˜o. O paradigma que
                                                            a
Ralph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando
                                                       ca
o modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve data
warehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o
                            ca                                                  a
vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de-
   a           a                                                             a
cis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma
   a
de Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro-
                                                e
cesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as
                                                   ca
caracter´ısticas mencionados em seguida:

2.1   Orientado por Assunto
Uma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte
                                                           e
                         ´
orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como
       ca
por exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise
                                            a                           ca     a
de dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento
                                  o                     co      a
de transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o
           co                             a                    e                 a
simples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que
                    o                                  e           a
n˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi-
  a a                                                  a             a
entes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos
                            co        e               a      a     ca
requisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o.
                                        a                                  a

2.2   Integrado
Um data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o
                     e        ıdo            ca       u                           a
aplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte-
           e                               e                   ca
gra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados
   ca
n´
 ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na
                                     o                                     a
convers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem
        a                                  a
estar consistentes entre si em termos de nomes, formatos e unidades de medida.
Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No
                   ca e                                     e                a
processo de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que
                    ca                  e                    a
estejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac-
                                           a a            ca
cionais que fornecem para um estado uniforme de modo a permitir a carga no Data
warehouse.

2.3   N˜o Vol´tile
       a     a
Um sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como
                                             co               ca
acrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem
                                                                  a     o
dois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o
                    co               ca                                        a
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade   ·    3

requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e
                                                               co            ca
controlo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o
                    e                       a                                   a
est´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu-
    a       a                           co                        a       a
aliza¸˜es. Os dados ap´s serem extra´
      co               o              ıdos, transformados e transportados para o
Data Warehouse est˜o dispon´
                    a        ıveis para os utilizadores apenas para consulta(figura
1).




                                  Fig. 1.   N˜o Vol´tile
                                             a     a


2.4   Vari´veis no Tempo
          a
O sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm
                           e                                                  e
dados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na
         a o                      e              o
an´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que
  a                      a            a           e           a
deve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias
                                                                   a        a
fontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais.
            e  a                                      a

3.    ELEMENTOS DE UM DATA WAREHOUSE
3.1   Business Inteligence(BI)
O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para
                     a e
tomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter-
            o
esse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita
                                                                   ca
a
`s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os
                          a              co
processos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan-
                                     a     a
hou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de
                  e                                             ca         co
DSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts,
                                                                o
Data mining, ferramentas OLAP(Online Analytical Processing), entre outras.
3.2   Data Warehouse vs Data Mart
Estes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles.
                      a                        a                      ca
Um Data Mart pode ser definido como um Data Warehouse de menor capacidade,
que abrange uma ´rea ou departamento espec´
                  a                          ıfico, oferecendo informa¸˜es mais de-
                                                                       co
                                          ´
talhadas sobre um determinado assunto. E por isso, uma abordagem espec´     ıfica do
Data Warehouse e o seu dom´  ınio abrange apenas uma ´rea espec´
                                                      a          ıfica da Biblioteca.
Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendo
todas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera-
                 co
cionais, dispostas de forma integrada e consolidada.
                                                                           SemEv 2012.
4     ·   Aristidis Jesus

3.3   ´
      Area de Estagiamento de Dados(Staging Area)
Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca
                                           ca
s˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in-
 a         u                          a          a                         a
term´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data
     e                                   ca
Warehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data
                                         a
Warehouse. Os dados provenientes desses sistemas operacionais necessitam de ser
preparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- a
lizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in-
                                         a         a
     e               ´
term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o,
                                     e                                        ca
Transforma¸˜o e Carregamento), essencial no Data Warehouse.
             ca

3.4   ETL(Extraction, Transformation, Loading)
—Extrac¸˜o
         ca
 O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe-
                     e                ca e                        a
                        a      a ´
 los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o
                                               a                                 a
 necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento.
        a                                 ıcio
 Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´
                     e                 ca                                      ıdos
 periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro-
 cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde
                   e                                          co
 o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse.
               ´               ca
—Transforma¸˜oca
 A partir do momento em que os dados j´ tenham sido extra´
                                           a                    ıdos dos sistemas
 operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta
                      a           a                        ca e
 fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de
                                   a                                       ca
 novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo
                                               ca             e
 assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es
                    e                                     a                   o
 de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam
             ca           a                                           a
 regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex-
                                                       a        e
 clu´
    ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam
             co                                             co
 o desempenho das consultas.
—Carregamento
 O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos
                               e            o
 aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em
                                  ca              ca
 carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o
                                              a         a          a
 Data Warehouse.

3.5   Armazenamento de Dados Operacional
O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, e
era visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da-
                                                                 e
dos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de
                                                                             co
transforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional,
           ca            a                   ca
actual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo
                                         ca
de tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase
                    o
imediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de
                       o     e                   ca     a                  a
an´lise.
   a
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade     ·    5

3.6   Modelo dimensional
O modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os
                         e               o
dados num padr˜o normal e intuitivo que permite o acesso em alta performance.
                  a
O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumas
restri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com
      co                                           e
uma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas
                 a
menores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da
                                        a                                  a
tabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´
                  e                                                          ıstica
mais importante neste modelo dimensional ´ a de todas as chaves naturais poderem
                                            e
ser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chave
substituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos
            e
dados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity-
                a
Relation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio
                                                     ca                        a
e do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em
                                          a
esquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura
2.




                  Fig. 2.   Esquema de Estrela para o Facto de Circula¸˜o
                                                                      ca




                                                                            SemEv 2012.
6     ·   Aristidis Jesus

3.7   Metadados
A defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande
         ca                               e
volume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma
                                                 e     a
                                      ´
flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´
    ıvel                                       a                     a        ıveis
e onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da-
           a                                                           ca
dos, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´
                               a                             a           ıdos. Os
metadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos
                                                      co
utilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per-
                            ca          a          ca          ca
mitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m
                                        ca                                     e
controlar o mapeamento de dados ODS para o Data Warehouse. Os metadados
podem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um
                    e                       ca
determinado termo deve ter o mesmo significado em todo o Data Warehouse.

4.    GRANULARIDADE
Designa o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente,
           ıvel
a granularidade da tabela de factos ´ escolhida para ter o menor n´
                                     e                            ıvel de gran-
ularidade poss´
              ıvel. Pois isto permitir´ responder melhor a novas consultas e `
                                       a                                      a
introdu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau
       ca                                     ıvel              a
tem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no
                 ca             ıvel                      ca
Data Warehouse.

5.                           ¸˜
      NECESSIDADES DA INFORMACAO DA BIBLIOTECA
O levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito
                                               ca                  e
importante do trabalho de planeamento. Aqui define-se todas as fontes de dados
utilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada
                                                                     ca
atrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o
      e       a             o                                                     a
os dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro,
                                                  e
tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas.
As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas:
                         a             ca                   e
—As tendˆncias dos livros emprestados por professores e alunos.
        e
—Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados.
        co                                 a
—Tendˆncias no processo de circula¸˜o.
      e                            ca
—Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes
        co                                                      a
 emprestados.

6.    ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA
Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´   e
constru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do
        ıdo                                                                    e
sistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura
                            a                          o            ca
de um Data Warehouse ´ constru´ por uma base de dados independente, desen-
                         e          ıda
hada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual
                                    a     a    a
os utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´
                              e                                                 ıpico
de Biblioteca composto por v´rios processos indicam factos de cada uma delas:
                                a
aquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec-
      ca          ca              e              c         e
tura considerada no processo de circula¸˜o ´ o seguinte(figura 3):
                                         ca e
SemEv 2012.
Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade   ·    7




                    Fig. 3.   Arquitectura de Um Sistema de Biblioteca


—ETL:
 Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a
                               a        ca                     ca             ´
 parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes.
               a                            co
—Data Warehouse:
 Local onde ficam concentrados os dados extra´   ıdos dos sistemas operacionais. A
 vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar
                              o             a      e
 informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises
         co       o                                                         a
 futuras.
—Front-end:
 ´
 E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza-
                                                                  o
 dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data
                                      a                           co
 mining ou simula¸˜es futuras.
                   co

7.   ESQUEMA DE ESTRELA(STAR SCHEMA)
No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida
                                                                 e
como modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-se
uma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen-
        e
sional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume
                                e
de query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode-
                                         e                     e
lagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m
                         e                                                     e
atributos descritivos que s˜o usados para processar o query e chaves estrangeiras
                           a
para conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em
               a                   a       a           a
medidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as
                            e                                       ca
outras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A
          e           a       a                                            ca
tabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de-
                              e                                        a
cis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o
   a                     a                                                      a
contˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela
     e
dimensional mostra como os dados ser˜o analisados.
                                      a
   Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou-
       o     a
                                                                          SemEv 2012.
8    ·     Aristidis Jesus

se que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a
                               a             ca                a ´
tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta
                                          ca                       o
e Multa, representando o n´mero da identifica¸˜o espec´
                             u                    ca      ıfico de cada empr´stimo
                                                                            e
do livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m
                                   a                                            e
designa-se as dimens˜es adequadas para modelar o data warehouse como um sis-
                      o
tema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro,
               a      a                        a
Autor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do
                                               a                         e
livro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi-
                                      e                                e
cili´rio.
    a


8.          ˜
     CONCLUSOES
Ap´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do
  o                                                                      a
mesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes:
           e                    o           o
—O modelo de data warehouse que foi desenhado e constru´ como o processo de
                                                            ıdo
 circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada
        ca
 de decis˜es.
         o
—Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em
 v´rios aspectos, de acordo com as necessidades da biblioteca.
  a
—No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen-
                     a
 tas de an´lise, ou seja, OLAP e Minera¸˜o de dados.
           a                              ca


     ˆ
REFERENCIAS
Aranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor
                                             a                                     ca
  para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959.
                                            ca
  (online em Des 20, 2011).
Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´
                                                                  ca ılabos,Lda.
Inmon, W. H. 1997. Como construir o data warehouse. 1–37p.
K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on-
  line em Des 27, 2011).
Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta
                                                       e
  para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p.
                               a          a            ca
Panegassi, L. F. 2006. Data warehouse.
Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling.
  Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition.
Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em
                                                                   `    a              co
  bibliotecas. 137–158.
Wikipedia.       Extract, transformation,load.        http://en.wikipedia.org/wiki/Extract,
  _transform,_load. (online em Des 28, 2011).
Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27,
  2011).




SemEv 2012.

Recomendados

Data warehouse & data mining por
Data warehouse & data miningData warehouse & data mining
Data warehouse & data miningJerônimo Medina Madruga
10.5K visualizações73 slides
Datawarehouse por
DatawarehouseDatawarehouse
DatawarehouseAlana Souza
2.9K visualizações44 slides
Data warehousing - Técnicas e procedimentos por
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
1.8K visualizações51 slides
Data Mining e Data Warehouse por
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
7K visualizações28 slides
Data Mart e Data Warehouse por
Data Mart e Data WarehouseData Mart e Data Warehouse
Data Mart e Data WarehouseFernando Peres
12.2K visualizações11 slides
Introdução ao Data Warehouse por
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
701 visualizações41 slides

Mais conteúdo relacionado

Mais procurados

38664419 artigo-data warehouse por
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehousediochel
3K visualizações61 slides
Exploracao datawarehouse mineracao_de_dados_ou_olap por
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
421 visualizações6 slides
Data Warehouse por
Data WarehouseData Warehouse
Data WarehouseThiago Oliveira
7.6K visualizações49 slides
Data Warehouse por
Data WarehouseData Warehouse
Data WarehouseMenelik Soares
474 visualizações18 slides
Apresentacao1 base de_dados por
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dadosDaniel Silva
283 visualizações11 slides
UCP - Projeto de Banco de Dados - Data Warehouse por
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
1.8K visualizações20 slides

Mais procurados(20)

38664419 artigo-data warehouse por diochel
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
diochel3K visualizações
Exploracao datawarehouse mineracao_de_dados_ou_olap por KlaytonAlves
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
KlaytonAlves421 visualizações
Data Warehouse por Thiago Oliveira
Data WarehouseData Warehouse
Data Warehouse
Thiago Oliveira7.6K visualizações
Data Warehouse por Menelik Soares
Data WarehouseData Warehouse
Data Warehouse
Menelik Soares474 visualizações
Apresentacao1 base de_dados por Daniel Silva
Apresentacao1 base de_dadosApresentacao1 base de_dados
Apresentacao1 base de_dados
Daniel Silva283 visualizações
UCP - Projeto de Banco de Dados - Data Warehouse por Vinícius Amaral
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
Vinícius Amaral1.8K visualizações
Pg20235 rf20222vp20208 por rikardojsf
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208
rikardojsf323 visualizações
Projeto de Banco de Dados - Capítulo 1 por Januário Neto
Projeto de Banco de Dados - Capítulo 1Projeto de Banco de Dados - Capítulo 1
Projeto de Banco de Dados - Capítulo 1
Januário Neto1.2K visualizações
Kimball Vs Inmon por guest2308b5
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
guest2308b514.7K visualizações
Business intelligence por David Willian
Business intelligenceBusiness intelligence
Business intelligence
David Willian865 visualizações
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p... por fabiolagrijo
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
fabiolagrijo1.6K visualizações
2 artigo workap3 impresso por Valquíria Almeida
2 artigo workap3 impresso2 artigo workap3 impresso
2 artigo workap3 impresso
Valquíria Almeida404 visualizações
Data warehousing por acistec
Data warehousingData warehousing
Data warehousing
acistec2.5K visualizações
Matéria de apoio (Base de dados) por André Silva
Matéria de apoio  (Base de dados)Matéria de apoio  (Base de dados)
Matéria de apoio (Base de dados)
André Silva15.4K visualizações
Aula 1 introdução a base de dados por Hélio Martins
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dados
Hélio Martins9K visualizações
Isc aula 5 - estrutura e organização da informação por Fábio Andrade
Isc   aula 5 - estrutura e organização da informaçãoIsc   aula 5 - estrutura e organização da informação
Isc aula 5 - estrutura e organização da informação
Fábio Andrade3.9K visualizações

Similar a Desenhar o conceito de data warehouse numa biblioteca da universidade

Aula III: Informática em Saúde- UnB-FGA/Gama por
Aula III: Informática em Saúde- UnB-FGA/GamaAula III: Informática em Saúde- UnB-FGA/Gama
Aula III: Informática em Saúde- UnB-FGA/GamaCamila Hamdan
860 visualizações28 slides
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para... por
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
96 visualizações26 slides
BANCO DE DADOS RELACIONAIS por
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS Antonio Pedro
4.1K visualizações16 slides
Data warehouse por
Data warehouseData warehouse
Data warehouseRuiPedroGomes7
476 visualizações11 slides
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf por
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfLinaKelly2
130 visualizações128 slides
Data Management: 5 tendências para alcançar a mudança por
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaDenodo
127 visualizações39 slides

Similar a Desenhar o conceito de data warehouse numa biblioteca da universidade(20)

Aula III: Informática em Saúde- UnB-FGA/Gama por Camila Hamdan
Aula III: Informática em Saúde- UnB-FGA/GamaAula III: Informática em Saúde- UnB-FGA/Gama
Aula III: Informática em Saúde- UnB-FGA/Gama
Camila Hamdan860 visualizações
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para... por Denodo
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Denodo 96 visualizações
BANCO DE DADOS RELACIONAIS por Antonio Pedro
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
Antonio Pedro4.1K visualizações
Data warehouse por RuiPedroGomes7
Data warehouseData warehouse
Data warehouse
RuiPedroGomes7476 visualizações
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf por LinaKelly2
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
LinaKelly2130 visualizações
Data Management: 5 tendências para alcançar a mudança por Denodo
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudança
Denodo 127 visualizações
Sistemas de Informação (SAD / OLAP) por m4rkSpinelli
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
m4rkSpinelli10.4K visualizações
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui... por Eduardo Hahn
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
Eduardo Hahn196 visualizações
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais por Carlo Pires
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
Carlo Pires3.3K visualizações
Sistema de informação executiva área de vendas por Ildmar Alves
Sistema de informação executiva área de vendasSistema de informação executiva área de vendas
Sistema de informação executiva área de vendas
Ildmar Alves2.8K visualizações
Parte8 - Fundamentos de Sistema de Informação por Gabriel Faustino
Parte8 - Fundamentos de Sistema de InformaçãoParte8 - Fundamentos de Sistema de Informação
Parte8 - Fundamentos de Sistema de Informação
Gabriel Faustino2K visualizações
aula01_Fundamentos de Banco de Dados.pptx.pdf por ssuser7a84f91
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
ssuser7a84f915 visualizações
TA1 - Slides Acessibilidade.pdf por SandroPolizelLaurent
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
SandroPolizelLaurent2 visualizações
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric por Denodo
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Denodo 28 visualizações

Último

ProxySQL no MySQL: Apenas um load balancer? por
ProxySQL no MySQL: Apenas um load balancer?ProxySQL no MySQL: Apenas um load balancer?
ProxySQL no MySQL: Apenas um load balancer?Roberto Garcia de Bem
6 visualizações62 slides
VIRTUS 1.6 MSI.pdf por
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdfFbioVieira85
5 visualizações13 slides
TechConnection 2023 Floripa Azure Container Apps por
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container AppsWalter Coan
6 visualizações14 slides
Shift left DevOps Experience por
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps ExperienceWalter Coan
5 visualizações19 slides
certificado excel.pdf por
certificado excel.pdfcertificado excel.pdf
certificado excel.pdfjuniorcarvalho136
5 visualizações1 slide
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023AcademicaDlaUnicesum
6 visualizações3 slides

Último(8)

ProxySQL no MySQL: Apenas um load balancer? por Roberto Garcia de Bem
ProxySQL no MySQL: Apenas um load balancer?ProxySQL no MySQL: Apenas um load balancer?
ProxySQL no MySQL: Apenas um load balancer?
Roberto Garcia de Bem6 visualizações
VIRTUS 1.6 MSI.pdf por FbioVieira85
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdf
FbioVieira855 visualizações
TechConnection 2023 Floripa Azure Container Apps por Walter Coan
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container Apps
Walter Coan6 visualizações
Shift left DevOps Experience por Walter Coan
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps Experience
Walter Coan5 visualizações
certificado excel.pdf por juniorcarvalho136
certificado excel.pdfcertificado excel.pdf
certificado excel.pdf
juniorcarvalho1365 visualizações
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por AcademicaDlaUnicesum
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
AcademicaDlaUnicesum6 visualizações
Conheça agora o UiPath Autopilot™ para o Studio.pdf por BrunaCavalcanti29
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdf
BrunaCavalcanti2914 visualizações
DevFest2023-Pragmatismo da Internet das Coisas por Walter Coan
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan36 visualizações

Desenhar o conceito de data warehouse numa biblioteca da universidade

  • 1. Desenhar O Conceito de Data Warehouse Numa Biblioteca da Universidade ARISTIDIS DE JESUS ORNAI ´ Universidade de Evora Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento ca da Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade e ca de dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu- a o ais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo e multidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re- o a lat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma o a ca e estrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por e a a exemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase co e e do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o volume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o ca ıvel a e ca apresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo de circula¸˜o dos livros. ca Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON, 1996]: Processo de Apoio a Decis˜o ` a Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de ca decis˜o a 1. ¸˜ INTRODUCAO Data warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o e ca a vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a a cis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os a co dados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de o co data warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote- e o co cas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma ca a variedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge- co stores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas co a a que n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual a ca ou usam um software utilizado para conectar os diferentes m´dulos. Basicamente o o processo que acontece ´ a actividade de resumir os dados que foram armazenados e no data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise a ´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade. e Os resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a a Biblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o ca dos livros e a base de dados de data warehouse. Aristidis de Jesus Ornai, m6463@alunos.uevora.pt ´ Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012. a o SemEv 2012, P´ginas 1–8. a
  • 2. 2 · Aristidis Jesus 2. DATA WAREHOUSE Existem v´rios conceitos de Data Warehouse propostos por diferentes autores. a Apresentam-se dois dos principais conceitos que s˜o considerados muito importante. a Primeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores e conceituados precursores de conceitos de Data Warehouse. Este autor refere que um data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts. a e a Um data mart pode ser definido como um Data Warehouse de pequena capaci- dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es a co mais detalhadas sobre um determinado assunto em quest˜o. O paradigma que a Ralph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando ca o modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve data warehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o ca a vol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a a cis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma a de Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro- e cesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as ca caracter´ısticas mencionados em seguida: 2.1 Orientado por Assunto Uma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte e ´ orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como ca por exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise a ca a de dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento o co a de transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o co a e a simples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que o e a n˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi- a a a a entes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos co e a a ca requisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o. a a 2.2 Integrado Um data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o e ıdo ca u a aplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte- e e ca gra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados ca n´ ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na o a convers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem a a estar consistentes entre si em termos de nomes, formatos e unidades de medida. Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No ca e e a processo de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que ca e a estejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac- a a ca cionais que fornecem para um estado uniforme de modo a permitir a carga no Data warehouse. 2.3 N˜o Vol´tile a a Um sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como co ca acrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem a o dois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o co ca a SemEv 2012.
  • 3. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 3 requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e co ca controlo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o e a a est´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu- a a co a a aliza¸˜es. Os dados ap´s serem extra´ co o ıdos, transformados e transportados para o Data Warehouse est˜o dispon´ a ıveis para os utilizadores apenas para consulta(figura 1). Fig. 1. N˜o Vol´tile a a 2.4 Vari´veis no Tempo a O sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm e e dados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na a o e o an´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que a a a e a deve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias a a fontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais. e a a 3. ELEMENTOS DE UM DATA WAREHOUSE 3.1 Business Inteligence(BI) O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para a e tomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter- o esse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita ca a `s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os a co processos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan- a a hou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de e ca co DSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts, o Data mining, ferramentas OLAP(Online Analytical Processing), entre outras. 3.2 Data Warehouse vs Data Mart Estes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles. a a ca Um Data Mart pode ser definido como um Data Warehouse de menor capacidade, que abrange uma ´rea ou departamento espec´ a ıfico, oferecendo informa¸˜es mais de- co ´ talhadas sobre um determinado assunto. E por isso, uma abordagem espec´ ıfica do Data Warehouse e o seu dom´ ınio abrange apenas uma ´rea espec´ a ıfica da Biblioteca. Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendo todas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera- co cionais, dispostas de forma integrada e consolidada. SemEv 2012.
  • 4. 4 · Aristidis Jesus 3.3 ´ Area de Estagiamento de Dados(Staging Area) Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca ca s˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in- a u a a a term´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data e ca Warehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data a Warehouse. Os dados provenientes desses sistemas operacionais necessitam de ser preparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- a lizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in- a a e ´ term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o, e ca Transforma¸˜o e Carregamento), essencial no Data Warehouse. ca 3.4 ETL(Extraction, Transformation, Loading) —Extrac¸˜o ca O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe- e ca e a a a ´ los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o a a necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento. a ıcio Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´ e ca ıdos periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro- cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde e co o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse. ´ ca —Transforma¸˜oca A partir do momento em que os dados j´ tenham sido extra´ a ıdos dos sistemas operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta a a ca e fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de a ca novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo ca e assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es e a o de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam ca a a regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex- a e clu´ ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam co co o desempenho das consultas. —Carregamento O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos e o aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em ca ca carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o a a a Data Warehouse. 3.5 Armazenamento de Dados Operacional O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, e era visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da- e dos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de co transforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional, ca a ca actual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo ca de tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase o imediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de o e ca a a an´lise. a SemEv 2012.
  • 5. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 5 3.6 Modelo dimensional O modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os e o dados num padr˜o normal e intuitivo que permite o acesso em alta performance. a O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumas restri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com co e uma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas a menores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da a a tabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´ e ıstica mais importante neste modelo dimensional ´ a de todas as chaves naturais poderem e ser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chave substituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos e dados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity- a Relation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio ca a e do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em a esquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura 2. Fig. 2. Esquema de Estrela para o Facto de Circula¸˜o ca SemEv 2012.
  • 6. 6 · Aristidis Jesus 3.7 Metadados A defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande ca e volume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma e a ´ flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´ ıvel a a ıveis e onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da- a ca dos, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´ a a ıdos. Os metadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos co utilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per- ca a ca ca mitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m ca e controlar o mapeamento de dados ODS para o Data Warehouse. Os metadados podem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um e ca determinado termo deve ter o mesmo significado em todo o Data Warehouse. 4. GRANULARIDADE Designa o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente, ıvel a granularidade da tabela de factos ´ escolhida para ter o menor n´ e ıvel de gran- ularidade poss´ ıvel. Pois isto permitir´ responder melhor a novas consultas e ` a a introdu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau ca ıvel a tem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no ca ıvel ca Data Warehouse. 5. ¸˜ NECESSIDADES DA INFORMACAO DA BIBLIOTECA O levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito ca e importante do trabalho de planeamento. Aqui define-se todas as fontes de dados utilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada ca atrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o e a o a os dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro, e tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas. As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas: a ca e —As tendˆncias dos livros emprestados por professores e alunos. e —Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados. co a —Tendˆncias no processo de circula¸˜o. e ca —Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes co a emprestados. 6. ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´ e constru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do ıdo e sistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura a o ca de um Data Warehouse ´ constru´ por uma base de dados independente, desen- e ıda hada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual a a a os utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´ e ıpico de Biblioteca composto por v´rios processos indicam factos de cada uma delas: a aquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec- ca ca e c e tura considerada no processo de circula¸˜o ´ o seguinte(figura 3): ca e SemEv 2012.
  • 7. Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 7 Fig. 3. Arquitectura de Um Sistema de Biblioteca —ETL: Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a a ca ca ´ parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes. a co —Data Warehouse: Local onde ficam concentrados os dados extra´ ıdos dos sistemas operacionais. A vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar o a e informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises co o a futuras. —Front-end: ´ E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza- o dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data a co mining ou simula¸˜es futuras. co 7. ESQUEMA DE ESTRELA(STAR SCHEMA) No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida e como modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-se uma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen- e sional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume e de query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode- e e lagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m e e atributos descritivos que s˜o usados para processar o query e chaves estrangeiras a para conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em a a a a medidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as e ca outras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A e a a ca tabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de- e a cis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o a a a contˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela e dimensional mostra como os dados ser˜o analisados. a Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou- o a SemEv 2012.
  • 8. 8 · Aristidis Jesus se que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a a ca a ´ tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta ca o e Multa, representando o n´mero da identifica¸˜o espec´ u ca ıfico de cada empr´stimo e do livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m a e designa-se as dimens˜es adequadas para modelar o data warehouse como um sis- o tema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro, a a a Autor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do a e livro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi- e e cili´rio. a 8. ˜ CONCLUSOES Ap´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do o a mesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes: e o o —O modelo de data warehouse que foi desenhado e constru´ como o processo de ıdo circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada ca de decis˜es. o —Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em v´rios aspectos, de acordo com as necessidades da biblioteca. a —No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen- a tas de an´lise, ou seja, OLAP e Minera¸˜o de dados. a ca ˆ REFERENCIAS Aranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor a ca para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959. ca (online em Des 20, 2011). Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´ ca ılabos,Lda. Inmon, W. H. 1997. Como construir o data warehouse. 1–37p. K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on- line em Des 27, 2011). Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta e para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p. a a ca Panegassi, L. F. 2006. Data warehouse. Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling. Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition. Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em ` a co bibliotecas. 137–158. Wikipedia. Extract, transformation,load. http://en.wikipedia.org/wiki/Extract, _transform,_load. (online em Des 28, 2011). Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27, 2011). SemEv 2012.