Repositório	
  de	
  dados	
  na	
  U.Porto	
  	
  

      Um	
  fluxo	
  de	
  curadoria	
  suportado	
  
        numa	
  extensão	
  ao	
  DSpace	
  	
  


                      Cris:na	
  Ribeiro	
   DEI-­‐	
  FEUP/	
  INESC	
  TEC	
  
                João	
  Rocha	
  da	
  Silva	
   FEUP	
  
        Eugénia	
  Matos	
  Fernandes	
   Reitoria	
  da	
  Universidade	
  do	
  Porto	
  
                 João	
  Correia	
  Lopes	
   DEI-­‐	
  FEUP/	
  INESC	
  TEC	
  
Conteúdo	
  
•    Obje:vos	
  
•    Auditoria	
  de	
  dados	
  na	
  U.Porto	
  
•    Desenho	
  de	
  um	
  workflow	
  de	
  gestão	
  de	
  dados	
  
•    Construção	
  de	
  um	
  protó:po	
  de	
  repositório	
  
•    Conclusões	
  e	
  trabalhos	
  futuros	
  
Obje:vos	
  

•  Determinar	
  as	
  necessidades	
  de	
  gestão	
  de	
  
   dados	
  dos	
  inves:gadores	
  da	
  U.Porto	
  
•  Desenhar	
  e	
  implementar	
  um	
  repositório	
  de	
  
   dados	
  para	
  sa:sfazer	
  estas	
  necessidades	
  
•  Procurar	
  uma	
  solução	
  que	
  não	
  esteja	
  limitada	
  
   às	
  necessidades	
  de	
  um	
  só	
  grupo	
  
Sa:sfazer	
  
                      obje:vos	
  
 Objetivo


             • 
                           	
  
                  Representar	
  dados	
  
                  tabulares	
  em	
  
                  formatos	
  próprios	
  
                  para	
  preservação	
  
                   –  XML	
  
             •  Interrogação	
  online	
  
             •  Reu:lização	
  de	
  
Status Quo
                descritores	
  nos	
  
                metadados	
  
Fase	
  1	
  :	
  Entrevistas	
  

         Recolha	
  de	
  dados	
  e	
  
         de	
  casos	
  de	
  uso	
  

             Especificação	
  do	
  
             workflow	
  

                 Construção	
  da	
  
                 plataforma	
  


                     Depósito	
  de	
  dados	
  
Auditoria	
  de	
  dados	
  
•  Entrevistas	
  com	
  inves:gadores	
  
   –  Engenharia,	
  ciências	
  sociais,	
  educação,	
  ciências	
  da	
  
      terra,	
  biologia,	
  economia,	
  …	
  	
  
•  Recolha	
  de	
  amostras	
  de	
  dados	
  
•  Recolha	
  de	
  casos	
  de	
  uso	
  
•  Relatório	
  e	
  resultados	
  subme:dos	
  a	
  
   aprovação	
  dos	
  inves:gadores	
  
Os	
  inves:gadores	
  dizem	
  
•  …	
  a	
  gestão	
  de	
  dados	
  é	
  complexa	
  
•  …	
  a	
  gestão	
  de	
  dados	
  não	
  deveria	
  distraí-­‐los	
  do	
  
   seu	
  trabalho	
  
•  …	
  precisam	
  de	
  apoio	
  profissional	
  na	
  gestão	
  de	
  
   dados	
  
•  …	
  “o	
  que	
  ganho	
  em	
  guardar	
  os	
  meus	
  dados	
  
   num	
  repositório?	
  Os	
  discos	
  externos	
  são	
  tão	
  
   baratos!”	
  
Os	
  inves:gadores	
  dizem	
  
•  …	
  já	
  perderam	
  dados	
  devido	
  a	
  formatos	
  que	
  
   foram	
  abandonados	
  
•  …	
  precisam	
  de	
  sí:o	
  para	
  par:lhar	
  dados	
  com	
  
   parceiros,	
  em	
  vez	
  de	
  usarem	
  o	
  email	
  
•  …	
  precisam	
  de	
  ferramentas	
  para	
  manipulação	
  
   de	
  dados	
  online	
  
Preocupações	
  e	
  necessidade	
  dos	
  
              inves:gadores	
  
•  “Os	
  repositórios	
  não	
  podem	
  ser	
  cemitérios	
  	
  de	
  
   dados”	
  

•  “O	
  principal	
  obje:vo	
  na	
  preservação	
  de	
  dados	
  
   é	
  a	
  par:lha/	
  reu:lização/	
  citação”	
  

•  “Os	
  dados	
  têm	
  de	
  ser	
  bem	
  anotados	
  ou	
  não	
  
     podem	
  ser	
  usados	
  para	
  validar	
  resultados	
  
	
  
Fase	
  2	
  :	
  Modificar	
  o	
  workflow	
  

                Recolha	
  de	
  dados	
  e	
  
                de	
  casos	
  de	
  uso	
  

                    Especificação	
  do	
  
                    workflow	
  

                        Construção	
  da	
  
                        plataforma	
  


                            Depósito	
  de	
  dados	
  
O	
  Papel	
  do	
  “Curador	
  de	
  Dados”	
  

                        Dados


Investigador                             Curador
Reunião	
  de	
  curadoria	
  




           Reunião

                          Dados
                         Curados
Anotação	
  de	
  dados	
  
                                                                                   Elementos	
  	
  do	
  XML	
  
                                                                                   Schema	
  	
  
dc:contributor.author   Silva, João Rocha
                                                                                   do	
  domínio	
  como	
  
  dc:lastModified
      dc:title
                            01-01-2011
                        Azores GPS Run
                                                 Table-level
                                                  metadata
                                                                                   descritores	
  
     dc:rights
            END_METADATA
                        License: CC ShareAlike
                                                                                   e	
  colunas	
  
  time.gps_sow                latitude             longitude     gravity.specific       Dimensions
 488496.999194             38.760267507          -27.084113730    -53.750371
 488497.999193             38.760267485          -27.084113744    -67.168032
 488498.999192             38.760267506          -27.084113739    -80.584969
 488499.999191             38.760267489          -27.084113743    -93.994527
 488500.999190             38.760267493          -27.084113746   -107.391006           Data




 Terceira         Flores
Depois	
  da	
  reunião	
  




                                    Repositório
Dados+Metadados	
  em	
  formato	
  Excel	
  
Dados	
  disponíveis	
  
                      Repositório de dados de investigação



    Investigador




•  Explorar,	
  filtrar	
  e	
  descarregar	
  só	
  o	
  necessário	
  
Fase	
  3	
  :	
  Construir	
  ferramentas	
  de	
  
         suporte	
  ao	
  workflow	
  

                  Recolha	
  de	
  dados	
  e	
  
                  de	
  casos	
  de	
  uso	
  

                      Especificação	
  do	
  
                      workflow	
  

                          Construção	
  da	
  
                          plataforma	
  


                              Depósito	
  de	
  dados	
  
Investigador              Curador

                                                             Folha Excel
                                                                                          Ficheiro
Pedido de filtragem de dados                                 correctamente
                                                                                          Original
                                                             preenchida
         3
           Tabela
          Dinâmica
                                                                                            Core
                                                            1                              DSpace
                                                                 Página de
                                                                  depósito
                                         Interrogação
                                        XQuery FLWOR             2
        Interrogação
           (JSON)
                           4      Tradutor              Acesso                Documento
                                                                     Leitor
                                     de                   a
                                                                     XLSX
                                                                              Traduzido
                               Interrogações            dados                   (XML)

                                                                 XML Manager

                                                   Resultados
                                               (Dados + Metadados)

                                 Tabela                              5
                               Formatada         Transformação
                                                     XSLT


                               Módulo de dados de investigação UPData
Fase	
  4	
  :	
  Testar	
  ferramenta	
  com	
  dados	
  
                              reais	
  

                     Recolha	
  de	
  dados	
  e	
  
                     de	
  casos	
  de	
  uso	
  

                         Especificação	
  do	
  
                         workflow	
  

                             Construção	
  da	
  
                             plataforma	
  


                                 Depósito	
  de	
  dados	
  
Conclusões	
  e	
  Trabalho	
  Futuro	
  
•  Recolhemos	
  requisitos	
  e	
  casos	
  de	
  uso	
  dos	
  
   inves:gadores	
  da	
  U.Porto	
  
•  Casos	
  de	
  uso	
  mais	
  importantes	
  foram	
  implementados	
  
   em	
  repositório	
  DSpace	
  
•  U:lizadores	
  podem	
  navegar	
  sobre	
  dados	
  online	
  no	
  
   repositório	
  e	
  descarregar	
  subconjuntos	
  selecionados	
  
•  Futuro:	
  	
  
     –  Validação	
  de	
  ferramentas	
  com	
  u:lizadores	
  
     –  Métodos	
  mais	
  simples	
  de	
  interação	
  entre	
  inves:gadores	
  e	
  
        repositório	
  
Contactos	
  e	
  ligações	
  
              Cris:na	
  Ribeiro	
         mcr@fe.up.pt	
  

        João	
  Rocha	
  da	
  Silva	
     joaorosilva@gmail.com	
  
                                           	
  
Eugénia	
  Matos	
  Fernandes	
            efernand@reit.up.pt	
  
                                           	
  
        João	
  Correia	
  Lopes	
  	
     jlopes@fe.up.pt	
  
                                           	
  



Repositório:	
  hjp://sciencedata.up.pt/	
  
Documentos:	
  hjp://sciencedata.up.pt/doc	
  

Repositório de dados na U.PORTO: um fluxo de curadoria suportado numa extensão ao DSpace

  • 1.
    Repositório  de  dados  na  U.Porto     Um  fluxo  de  curadoria  suportado   numa  extensão  ao  DSpace     Cris:na  Ribeiro   DEI-­‐  FEUP/  INESC  TEC   João  Rocha  da  Silva   FEUP   Eugénia  Matos  Fernandes   Reitoria  da  Universidade  do  Porto   João  Correia  Lopes   DEI-­‐  FEUP/  INESC  TEC  
  • 2.
    Conteúdo   •  Obje:vos   •  Auditoria  de  dados  na  U.Porto   •  Desenho  de  um  workflow  de  gestão  de  dados   •  Construção  de  um  protó:po  de  repositório   •  Conclusões  e  trabalhos  futuros  
  • 3.
    Obje:vos   •  Determinar  as  necessidades  de  gestão  de   dados  dos  inves:gadores  da  U.Porto   •  Desenhar  e  implementar  um  repositório  de   dados  para  sa:sfazer  estas  necessidades   •  Procurar  uma  solução  que  não  esteja  limitada   às  necessidades  de  um  só  grupo  
  • 4.
    Sa:sfazer   obje:vos   Objetivo •    Representar  dados   tabulares  em   formatos  próprios   para  preservação   –  XML   •  Interrogação  online   •  Reu:lização  de   Status Quo descritores  nos   metadados  
  • 5.
    Fase  1  :  Entrevistas   Recolha  de  dados  e   de  casos  de  uso   Especificação  do   workflow   Construção  da   plataforma   Depósito  de  dados  
  • 6.
    Auditoria  de  dados   •  Entrevistas  com  inves:gadores   –  Engenharia,  ciências  sociais,  educação,  ciências  da   terra,  biologia,  economia,  …     •  Recolha  de  amostras  de  dados   •  Recolha  de  casos  de  uso   •  Relatório  e  resultados  subme:dos  a   aprovação  dos  inves:gadores  
  • 7.
    Os  inves:gadores  dizem   •  …  a  gestão  de  dados  é  complexa   •  …  a  gestão  de  dados  não  deveria  distraí-­‐los  do   seu  trabalho   •  …  precisam  de  apoio  profissional  na  gestão  de   dados   •  …  “o  que  ganho  em  guardar  os  meus  dados   num  repositório?  Os  discos  externos  são  tão   baratos!”  
  • 8.
    Os  inves:gadores  dizem   •  …  já  perderam  dados  devido  a  formatos  que   foram  abandonados   •  …  precisam  de  sí:o  para  par:lhar  dados  com   parceiros,  em  vez  de  usarem  o  email   •  …  precisam  de  ferramentas  para  manipulação   de  dados  online  
  • 9.
    Preocupações  e  necessidade  dos   inves:gadores   •  “Os  repositórios  não  podem  ser  cemitérios    de   dados”   •  “O  principal  obje:vo  na  preservação  de  dados   é  a  par:lha/  reu:lização/  citação”   •  “Os  dados  têm  de  ser  bem  anotados  ou  não   podem  ser  usados  para  validar  resultados    
  • 10.
    Fase  2  :  Modificar  o  workflow   Recolha  de  dados  e   de  casos  de  uso   Especificação  do   workflow   Construção  da   plataforma   Depósito  de  dados  
  • 11.
    O  Papel  do  “Curador  de  Dados”   Dados Investigador Curador
  • 12.
    Reunião  de  curadoria   Reunião Dados Curados
  • 13.
    Anotação  de  dados   Elementos    do  XML   Schema     dc:contributor.author Silva, João Rocha do  domínio  como   dc:lastModified dc:title 01-01-2011 Azores GPS Run Table-level metadata descritores   dc:rights END_METADATA License: CC ShareAlike e  colunas   time.gps_sow latitude longitude gravity.specific Dimensions 488496.999194 38.760267507 -27.084113730 -53.750371 488497.999193 38.760267485 -27.084113744 -67.168032 488498.999192 38.760267506 -27.084113739 -80.584969 488499.999191 38.760267489 -27.084113743 -93.994527 488500.999190 38.760267493 -27.084113746 -107.391006 Data Terceira Flores
  • 14.
    Depois  da  reunião   Repositório Dados+Metadados  em  formato  Excel  
  • 15.
    Dados  disponíveis   Repositório de dados de investigação Investigador •  Explorar,  filtrar  e  descarregar  só  o  necessário  
  • 16.
    Fase  3  :  Construir  ferramentas  de   suporte  ao  workflow   Recolha  de  dados  e   de  casos  de  uso   Especificação  do   workflow   Construção  da   plataforma   Depósito  de  dados  
  • 17.
    Investigador Curador Folha Excel Ficheiro Pedido de filtragem de dados correctamente Original preenchida 3 Tabela Dinâmica Core 1 DSpace Página de depósito Interrogação XQuery FLWOR 2 Interrogação (JSON) 4 Tradutor Acesso Documento Leitor de a XLSX Traduzido Interrogações dados (XML) XML Manager Resultados (Dados + Metadados) Tabela 5 Formatada Transformação XSLT Módulo de dados de investigação UPData
  • 19.
    Fase  4  :  Testar  ferramenta  com  dados   reais   Recolha  de  dados  e   de  casos  de  uso   Especificação  do   workflow   Construção  da   plataforma   Depósito  de  dados  
  • 20.
    Conclusões  e  Trabalho  Futuro   •  Recolhemos  requisitos  e  casos  de  uso  dos   inves:gadores  da  U.Porto   •  Casos  de  uso  mais  importantes  foram  implementados   em  repositório  DSpace   •  U:lizadores  podem  navegar  sobre  dados  online  no   repositório  e  descarregar  subconjuntos  selecionados   •  Futuro:     –  Validação  de  ferramentas  com  u:lizadores   –  Métodos  mais  simples  de  interação  entre  inves:gadores  e   repositório  
  • 21.
    Contactos  e  ligações   Cris:na  Ribeiro   mcr@fe.up.pt   João  Rocha  da  Silva   joaorosilva@gmail.com     Eugénia  Matos  Fernandes   efernand@reit.up.pt     João  Correia  Lopes     jlopes@fe.up.pt     Repositório:  hjp://sciencedata.up.pt/   Documentos:  hjp://sciencedata.up.pt/doc