Gestão de dados de investigação 
da recolha até ao depósito 
! 
Uma abordagem baseada em ontologias e dados ligados 
Crist...
Conteúdo 
• Gestão de dados de investigação no “long tail” 
• “Linked Open Data”: porque é importante? 
• Colaboração para...
Gestão de dados de 
investigação no “long tail” 
Porque é preciso começar cedo 
3
A “cauda longa” da 
investigação 
2011: a revista “Science” inquiriu os revisores 
do ano anterior sobre as suas práticas ...
A “cauda longa” da 
investigação 
2011: a revista “Science” inquiriu os revisores 
do ano anterior sobre as suas práticas ...
Source 
Dealing with data. Challenges and opportunities. Introduction. (2011). Science 
(New York, N.Y.), 331(6018), 692–3...
Source 
Dealing with data. Challenges and opportunities. Introduction. (2011). Science 
(New York, N.Y.), 331(6018), 692–3...
Recolha 
Processamento 
Escrita de artigo 
Preservação, 
Partilha 
7
Recolha 
Processamento 
Escrita de artigo 
8
Recolha 
Processamento 
Escrita de artigo 
8 
Investigador sai
Recolha 
Processamento 
Escrita de artigo 
8 
Investigador sai 
Metadata
Recolha 
Processamento 
Escrita de artigo 
9
Recolha 
Processamento 
Escrita de artigo 
9 
Projeto termina
Recolha 
Processamento 
Escrita de artigo 
10 
“Onde estão os dados?” 
“Como / quando / por quem foram 
produzidos?”
Os curadores não conseguem lidar com a 
descrição a posteriori 
Os investigadores têm de participar 
na gestão dos dados d...
Dados Abertos Ligados 
(“Linked Open Data”) 
O que são? Porque precisamos deles ? 
12
Linked Open Data 
• Simplicidade! 
- O LOD é um modelo muito simples para representar dados 
• Significado! 
- Recursos sã...
14
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ 
datanotes/data/base 
%20data.xls 
14
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
! 
! 
!!! 
! 
http://dendro.fe.up.pt/project/ ...
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
rdf:type 
nie:File 
! 
! 
!!! 
! 
http://dendr...
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title ...
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title ...
nie:isLogicalPartOf 
!!!! 
http://dendro.fe.up.pt/ 
project/datanotes/data 
“Base data of the 
DCB experiments” 
dc:title ...
Dataset de Química 
Analítica 
Dataset de Mecânica 
de Fratura 
… 
Genéricos 
Author 
Description 
Creation date 
… 
Autho...
Colaboração 
Na criação de metadados úteis agora e no futuro 
16
Recolha 
Processamento 
Escrita de artigo 
Preservação, 
Partilha 
17
Recolha 
Depósito 
Colaboração Descrição 
Depósito 
a longo prazo 
Partilha 
18
Gathering 
… 
19
Dendro 
Uma plataforma de código aberto para “Linked 
Open Data” em ambientes de investigação 
20
21
Metadados 
Ontologias 
Descrição 
• Armazenamwento de 
dados suportado em 
“Linked Data” 
• Sem base de dados 
relacional ...
Metadata 
Ontologies 
File 
Storage 
! 
! 
Depósito 
• Cluster HFS para 
ficheiros grandes 
ou numerosos 
• Construído par...
Metadata 
Ontologies 
Business 
Logic 
File 
Storage 
! 
! 
Colaboração 
• Controlo de acessos 
flexível 
• Histórico de v...
Metadata 
Ontologies 
API 
Business 
Logic 
File 
Storage 
! 
! 
Partilha 
• Todas as operações 
disponíveis via API 
REST...
Para os curadores 
• Os curadores podem trabalhar com os investigadores 
para construir ontologias usando ferramentas (ex:...
Para os programadores 
• 100% software de código aberto 
• Uma API rica permite ligar o Dendro a qualquer 
sistema (ex: ap...
Usando a API: LabTablet 
• Cadernos de laboratório: fonte de metadados do 
domínio 
• Caderno de laboratório eletrónico: m...
29
30
LabTablet: uso dos sensores 
do dispositivo 
31
32
Independência da aplicação 
Triple Store Ontologias 
“Base de Dados” “Documentação” 
33
Conclusões 
• Gestão de dados de investigação deve começar cedo 
• “Linked Open Data”: simples, flexível, interoperável 
•...
Conclusões (cont.) 
• Outras aplicações: comunicação via API 
• Ontologias: fonte de descritores para metadados 
• O model...
Visit us at 
http://dendro.fe.up.pt 
36
Extras 
37
RDF/XML, 
SPARQL 
Endpoint 
HTML 
JSON 
API 
DB Adapter ES Endpoint GridFS Client 
Presentation 
Graph Database 
(LOD) 
We...
Curated 
Dataset 
Working 
Files 
Deposit 
Curator 
Dendro 
FOAF 
DC 
dc:title 
nie:isPartOf 
dcb:specimenLength 
Ontology...
Próximos SlideShares
Carregando em…5
×

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

460 visualizações

Publicada em

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados - Cristina Ribeiro, João Lopes, João Silva, João Castro, Ricardo Amorim

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
460
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
17
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados

  1. 1. Gestão de dados de investigação da recolha até ao depósito ! Uma abordagem baseada em ontologias e dados ligados Cristina Ribeiro mcr@fe.up.pt DEI—Faculdade de Engenharia da Universidade do João Correia Lopes Porto / INESC TEC jlopes@fe.up.pt João Rocha da Silva joaorosilva@gmail.com Faculdade de Engenharia da Universidade do Porto / INESC TEC João Aguiar Castro joaoaguiarcastro@gmail.com Ricardo Amorim ricardo.amorim3@gmail.com CONFOA 2014, 6-7 outubro 2014, Coimbra 1
  2. 2. Conteúdo • Gestão de dados de investigação no “long tail” • “Linked Open Data”: porque é importante? • Colaboração para facilitar a criação de metadados • A plataforma Dendro • Recolha de metadados no laboratório: LabTablet • Conclusões 2
  3. 3. Gestão de dados de investigação no “long tail” Porque é preciso começar cedo 3
  4. 4. A “cauda longa” da investigação 2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados 4
  5. 5. A “cauda longa” da investigação 2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados ~1700 respostas 4
  6. 6. Source Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 5
  7. 7. Source Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692 6
  8. 8. Recolha Processamento Escrita de artigo Preservação, Partilha 7
  9. 9. Recolha Processamento Escrita de artigo 8
  10. 10. Recolha Processamento Escrita de artigo 8 Investigador sai
  11. 11. Recolha Processamento Escrita de artigo 8 Investigador sai Metadata
  12. 12. Recolha Processamento Escrita de artigo 9
  13. 13. Recolha Processamento Escrita de artigo 9 Projeto termina
  14. 14. Recolha Processamento Escrita de artigo 10 “Onde estão os dados?” “Como / quando / por quem foram produzidos?”
  15. 15. Os curadores não conseguem lidar com a descrição a posteriori Os investigadores têm de participar na gestão dos dados desde o início São eles os especialistas do domínio 11
  16. 16. Dados Abertos Ligados (“Linked Open Data”) O que são? Porque precisamos deles ? 12
  17. 17. Linked Open Data • Simplicidade! - O LOD é um modelo muito simples para representar dados • Significado! - Recursos são ligados por propriedades com significados bem estabelecidos • Interoperabilidade! - Métodos normalizados para interrogar dados - SPARQL - Representações em formatos normalizados - RDF, OWL 13
  18. 18. 14
  19. 19. ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  20. 20. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  21. 21. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  22. 22. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  23. 23. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title nie:title base data.xls rdf:type nie:File ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  24. 24. nie:isLogicalPartOf !!!! http://dendro.fe.up.pt/ project/datanotes/data “Base data of the DCB experiments” dc:title nie:title base data.xls rdf:type nie:File dcb:initialCrackLength 180mm ! ! !!! ! http://dendro.fe.up.pt/project/ datanotes/data/base %20data.xls 14
  25. 25. Dataset de Química Analítica Dataset de Mecânica de Fratura … Genéricos Author Description Creation date … Author Description Creation date … … Específicos do Domínio Sample Count Analysed Substance … Initial Crack Length Specimen Type … 15
  26. 26. Colaboração Na criação de metadados úteis agora e no futuro 16
  27. 27. Recolha Processamento Escrita de artigo Preservação, Partilha 17
  28. 28. Recolha Depósito Colaboração Descrição Depósito a longo prazo Partilha 18
  29. 29. Gathering … 19
  30. 30. Dendro Uma plataforma de código aberto para “Linked Open Data” em ambientes de investigação 20
  31. 31. 21
  32. 32. Metadados Ontologias Descrição • Armazenamwento de dados suportado em “Linked Data” • Sem base de dados relacional • Modelo cresce com carregamento de ontologias • Sistemas externos recuperam recursos via SPARQL 22
  33. 33. Metadata Ontologies File Storage ! ! Depósito • Cluster HFS para ficheiros grandes ou numerosos • Construído para a nuvem 23
  34. 34. Metadata Ontologies Business Logic File Storage ! ! Colaboração • Controlo de acessos flexível • Histórico de versões • Pré-visualização de dados • Salvaguarda / Restauro • Integração • DSpace (SWORD) • ePrints (SWORD) • CKAN • Figshare 24
  35. 35. Metadata Ontologies API Business Logic File Storage ! ! Partilha • Todas as operações disponíveis via API RESTful usando JSON • Todos os recursos des-referenciáveis (HTTP content negotiation) • Arquitetura de “plugins” permite integração com sistemas externos Web UI 25
  36. 36. Para os curadores • Os curadores podem trabalhar com os investigadores para construir ontologias usando ferramentas (ex: Protégé) • Ontologias estabelecidas podem ser carregadas (DC, FOAF…) • As ontologias amadurecem (com reutilização em instâncias Dendro) • Dados, metadados e o seu significado mantêm-se juntos Beyond ! INSPIRE: An ontology for biodiversity metadata records Creating lightweight ontologies for dataset description: Practical applications in a cross-domain research data management workflow Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. Castro, J., Rocha da Silva, J., Ribeiro, C. 10th International Workshop on Ontology Content (OntoContent 2014) Digital Libraries 2014 (DL2014) (pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 26
  37. 37. Para os programadores • 100% software de código aberto • Uma API rica permite ligar o Dendro a qualquer sistema (ex: aplicações móveis) Ontology-based multi-domain metadata for research data management using triple stores LabTablet: semantic metadata collection on a multi-domain laboratory notebook Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 18th International Database Engineering & Applications Symposium (IDEAS 2014) 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) (pre-print available at http://dendro.fe.up.pt/) 27
  38. 38. Usando a API: LabTablet • Cadernos de laboratório: fonte de metadados do domínio • Caderno de laboratório eletrónico: metadados importados para Dendro LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) 28
  39. 39. 29
  40. 40. 30
  41. 41. LabTablet: uso dos sensores do dispositivo 31
  42. 42. 32
  43. 43. Independência da aplicação Triple Store Ontologias “Base de Dados” “Documentação” 33
  44. 44. Conclusões • Gestão de dados de investigação deve começar cedo • “Linked Open Data”: simples, flexível, interoperável • O suporte à colaboração ajuda os investigadores a recolher metadados tendo em vista o depósito • Dendro: uma plataforma completamente “open-source” para RDM, construída sobre “Linked Open Data” • O Dendro integra com as principais plataformas de repositórios 34
  45. 45. Conclusões (cont.) • Outras aplicações: comunicação via API • Ontologias: fonte de descritores para metadados • O modelo de dados cresce à medida que se acrescentam ontologias • Os curadores podem modelar e partilhar as ontologias • As ontologias dos domínios evoluem com a reutilização 35
  46. 46. Visit us at http://dendro.fe.up.pt 36
  47. 47. Extras 37
  48. 48. RDF/XML, SPARQL Endpoint HTML JSON API DB Adapter ES Endpoint GridFS Client Presentation Graph Database (LOD) Web Interface Distributed document index AngularJS (JavaScript) NodeJS (JavaScript) File Storage Cluster Business Logic Logic Openlink Virtuoso 7 ElasticSearch MongoDB (GridFS) Web Human Users JSON JSON JSON Data 38
  49. 49. Curated Dataset Working Files Deposit Curator Dendro FOAF DC dc:title nie:isPartOf dcb:specimenLength Ontology concept reuse Web Portal SPARQL Endpoint Sharing evolution “Mature” ontologies on the web Metadata validation Data producers Free-Text Search API CKAN Dryad Domain-Specific Lightweight Ontologies dcb dcb Data reuser dcb Specification of new metadata ontologies 1 2 3 4 39

×