Este documento descreve uma pesquisa sobre repositórios de dados de pesquisa em Portugal. Foram identificados sete repositórios principais que armazenam diferentes tipos de dados científicos, como bases de dados, modelos, sequências genéticas e registros de interações biológicas. A organização e funcionalidades variam entre repositórios temáticos e institucionais. Todos enfatizam a importância da citação e do acesso aberto aos dados.
2. INTRODUÇÃO
Um das questões que tem se potencializado graças às possibilidades de
compartilhamento e colaboração permitidas pela aplicação de tecnologias digitais nos
procedimentos científicos é a da abertura da ciência, ou como vem sendo cunhado, o
Acesso Aberto (AA) à produção científica. São inúmeras as discussões e os pontos de
vista sobre a questão. Fecher & Friesike (2014) sugerem que a abertura da ciência está
apoiada em cinco escolas de pensamento complementar. Entre elas, a Escola
Democrática, aponta a forma desigual como o acesso ao conhecimento está
distribuído e propõe que esta desigualdade seja resolvida pelo acesso livre às
publicações científicas e aos dados de pesquisa.
3. A “Declaração sobre o Acesso a Dados de Pesquisa de Financiamento
Público” define dados de pesquisa como:
[…] factual records (numerical scores, textual records, images and sounds) used
as primary sources for scientific research, and that are commonly accepted in
the scientific community as necessary to validate research findings. A research
data set constitutes a systematic, partial representation of the subject being
investigated. (OECD, 2004)
INTRODUÇÃO
4. Rousidis et al. (2014), apontam que “dado ao grande volume e a
diversidade dos dados científicos, repositórios de pesquisa estão se
tornando uma parte integral do processo de comunicação e de
colaboração entre pesquisadores e grupos de pesquisa”, contudo
devido à multiplicidade de possibilidades relativas aos dados de
pesquisa, seus diversos formatos, variadas naturezas e múltiplas
extensões, os Repositórios de Dados de Pesquisa (RDP) necessitam de
plataformas próprias que acolham estas diferenças. Atualmente estas
plataformas estão sendo desenvolvidas por universidades, centros de
pesquisa, editores e publicadores.
INTRODUÇÃO
6. MÉTODOS
Estudo exploratório de abordagem quantitativa realizado em três
etapas:
Pesquisa Bibliográfica Mapeamento Análise documental
7. Ficha de caracterização dos repositórios identificados
MAPEAMENTO E SELEÇÃO
Nome do repositório Instituição responsável Tema/área Tipo de conteúdo
Ficha de caracterização dos repositórios selecionados
Nome do
repositório
Instituição
responsável
Tema/área Atribui metadados
aos arquivos?
O conteúdo está agregado
sob coleções/categorias?
Tipos de dados
armazenados
Observações
8. REPOSITÓRIOS SELECIONADOS
Foram identificados nove repositórios, dos quais dois foram excluídos da pesquisa:
o Perdigão Field Experiment e o European Archive of Historical Earthquake Data.
Excluído por ser mantido por
organismos internacionais e esta
pesquisa foca-se exclusivamente em
repositórios de instituições
portuguesas.
Excluído por não manter os conjuntos
de dados em acesso aberto, sendo
possível visualizar os registros, contudo
o acesso aos arquivos requer
credenciais atribuídas apenas a
indivíduos relacionados ao projeto.
9. REPOSITÓRIOS SELECIONADOS
Nome do repositório Instituição responsável Tema/área
Atribui
metadados
aos arquivos
O conteúdo está
agregado sob
coleções/categorias
Tipos de dados
armazenados
Licenças de
uso
descritas
Observações
Antimicrobial Combination
Networks (ACN)
Universidade do Minho
Engenharia
Biológica
Sim Não
Representações gráficas
de organismos
microbianos e
visualizações de redes de
interação entre
organismos e drogas
Sim
Há menção sobre a necessidade de
citação
DataRepositoriUM Universidade do Minho Geral Sim Sim
Bases de dados, arquivos
tabulares, textos
Sim
Há menção sobre a necessidade de
citação
INTEGRALL - The Integron
Database
Universidade de Aveiro
Biologia/
genética
Sim Não
Representações gráficas
de sequências genéticas
Sim
Repositório de Dados
Científicos do Instituto
Politécnico de Castelo Branco
(RDC-IPCB)
Instituto Politécnico de
Castelo Branco
Geral Sim Sim
Bases de dados, arquivos
tabulares, textos
Sim
Não é um repositório
independente, mas sim uma
coleção dentro do repositório
institucional
Kinetic models of biological
systems (KiMoSys)
Instituto de Engenharia
de Sistemas e
Computadores,
Investigação e
Desenvolvimento de
Lisboa
Biologia Sim Não
Modelos sinápticos de
sistemas biológicos
Sim
Há menção sobre a necessidade de
citação
10. REPOSITÓRIOS SELECIONADOS
Nome do repositório
Instituição
responsável
Tema/área
Atribui
metadados
aos arquivos
O conteúdo está
agregado sob
coleções/categorias
Tipos de dados
armazenados
Licenças de uso
descritas
Observações
Portulan Clarin Repository
(PCR)
Universidade de
Lisboa e Universidade
de Évora
Ciências e
tecnologias
da
linguagem
Sim Não
Textos, códigos-fonte,
arquivos de áudio
Sim, nos itens
em que é
possível fazer o
download direto
Nem todos os registros possuem um
item para downloads. Há registros que
contem apenas a descrição do
conteúdo e no lugar do botão de
"download" está um atalho para
contato com o detentor do conteúdo.
Repositório Dados Científicos
(RDC)
RCAAP/FCT Geral Sim Sim
Bases de dados,
arquivos tabulares,
textos
Sim
Repositório piloto de dados
resultantes de investigação de
instituições portuguesas. Mais de 90%
do conteúdo é o mesmo do RDC-IPCB,
pois assim como o RCAAP atua como
um portal agregador para os
repositórios institucionais, este
também atua como um agregador
para os repositórios (ou coleções) de
dados de pesquisa das instituições de
pesquisa portuguesas.
11. Antimicrobial Combination Networks (ACN)
É um banco de dados sobre interação medicamentosa, cujo objetivo é preencher uma lacuna verificada pelos
seus criadores entre repositórios de agentes microbacterianos e estudos que documentam o efeito de
terapias de combinação antimicrobiana. Portanto, o repositório compila dados sobre a
combinação de agentes antimicrobianos.
O fluxo de trabalho de curadoria de dados combina mineração de texto,
curadoria manual especializada e análise de gráficos.
Os dados são provenientes de uma abordagem de bioinformática que, por meio de métodos de
visualização de redes, cria reconstruções de rede farmacológicas, comumente usadas para
mapear os dados resultantes de estudos de combinação e ajudam a explorar novas
combinações em escala global.
Universidade do Minho
12. DataRepositoriUM
O DataRepositoriUM é o ambiente virtual criado pela Universidade do Minho com a
finalidade de partilhar, publicar e gerir dados de investigação. Foi implantado em 2019 e
abriga os dados de pesquisas conduzidas por pesquisadores filiados à Universidade do
Minho. Portanto, pode ser apontado como o primeiro repositório de dados implantado por
uma Universidade em Portugal. Está construído sob o sistema Dataverse, um software de
código aberto destinado à criação de RDP, desenvolvido pelo Instituto de Ciências Sociais
Quantitativas da Universidade de Harvard.
Universidade do Minho
13. The Integron Database
O INTEGRALL é uma plataforma web dedicada a compilar informações sobre integrons*,
projetada para organizar todos os dados disponíveis para essas estruturas genéticas. O
repositório fornece em acesso aberto dados e nomenclaturas de sequências, de forma
interativa, bem como seus arranjos moleculares e contextos genéticos.
Universidade de Aveiro
*Integrons são sistemas genéticos que permitem que as bactérias capturem e expressem cassetes de genes.
14. Kinetic models of biological systems
O KiMoSys é uma aplicação web para modelos cinéticos quantitativos de sistemas
biológicos. Modelos cinéticos são construídos interativamente e requerem dados
experimentais precisos para a geração e verificação de hipóteses. É um sítio web de acesso
livre que combina tarefas de armazenamento, pesquisa e compartilhamento de dados
experimentais, bem como ferramentas para criar modelos cinéticos. Destina-se a realizar
pesquisas experimentais e computacionais, com o objetivo futuro de fornecer uma
plataforma integrada que permita aos usuários acessar dados experimentais e suporte para
as tarefas gerais de modelagem cinética, para que as ferramentas usadas em diferentes
estágios do fluxo de trabalho computacional possam ser facilmente utilizadas em conjunto.
Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento de Lisboa
15. Portulan Clarin Repository
O PCR é uma infraestrutura de investigação destinada ao abrigo de uma coleção de recursos
para a ciência, tecnologia, promoção e exploração da linguagem e de áreas relacionadas
com a linguagem. Seu objetivo é de impulsionar o avanço da investigação proporcionando
recursos, serviços e apoio técnico especializado num vasto leque de áreas, desde as
Humanidades e Ciências Sociais, até à Ciência Cognitiva e Inteligência Artificial; promovendo
iniciativas de inovação com ferramentas de processamento e conjuntos de dados
linguísticos.
Universidade de Lisboa e Universidade de Évora
16. Repositório Dados Científicos
O RDC é um projeto piloto que vem sendo conduzido pelo RCAAP com a finalidade de
coletar e disponibilizar os dados de pesquisas que receberam financiamento público do
governo português por meio da FCT. Da mesma forma que o RCAAP é um diretório que
busca registros numa rede de repositórios, o RDC pretende ser ser um portal que aponte
para os RDP das instituições de pesquisa portuguesas.
RCAAP e FCT
17. Repositório de Dados Científicos do Instituto
Politécnico de Castelo Branco
O RDC-IPCB não é um repositório independente, mas sim uma coleção dentro do repositório
institucional do Instituto Politécnico Castelo Branco. Está sendo considerado nesta pesquisa
devido à quantidade de materiais depositados (1972 registros na data de coleta de dados da
pesquisa).
Instituto Politécnico de Castelo Branco
18. Idioma e tipologia
Entende-se necessário apontar que embora “ser mantido por uma instituição portuguesa” tenha sido um critério de
exclusão neste estudo, o idioma no qual o repositório é apresentado não coincide, obrigatoriamente, com a língua
portuguesa. Dos sete repositórios selecionados, quatro têm seus títulos, interface e grande parte do seu
conteúdo em língua inglesa.
Esse fator se relaciona com a tipologia.
Estes mesmos quatro são os repositórios
cujo conteúdo é temático, ou seja, ligado
a uma área do conhecimento.
Os repositórios em língua portuguesa são os
que abrigam os dados de pesquisa no âmbito
de uma instituição específica, daí perceber-se
uma grande similaridade com os repositórios
institucionais.
19. Organização
Pressupunha-se que todos os repositórios tivessem uma certa conformidade em sua
organização, condizente com a organização observada em outros tipos de repositórios
digitais. Contudo, diferentemente de modelos mais tradicionais de repositórios, onde estão
armazenados documentos fechados com arquivos para download ou visualização online, há aqueles que, em função
do tipo de dados que armazenam, são, na realidade, são interfaces abastecidas por dados, que mostram seus
resultados a partir da interação do usuário com o sistema, gerando visualizações ou
fórmulas.
Interfaces
interativas
Modelo
tradicional
20. Busca
Nos repositórios que seguem o padrão mais tradicional de organização,
percebe-se também maior similaridade no modo de busca do conteúdo.
Pesquisa por meio da caixa de busca
presente na página inicial ou percorrendo o
repositório por: Comunidades e Colecções,
Data de publicação, Autor, Título, Assunto,
Tipo de Documento e Tipo de Acesso.
A busca pode ser feita pela barra de
busca textual ou por meio de uma
lista com os materiais disponíveis.
A pesquisa, realizada em caixas de seleção,
pode ser feita por organismo, agente
microbiano, combinação microbiana,
interação bem como pela combinação de
filtros.
Permite a busca por
meio de uma lista com
os códigos
identificadores das
cadeias genéticas.
A busca pode ser feita por meio de consulta a
uma lista apresentada com os organismos
descritos ou por meio de uma caixa de
pesquisa na qual o usuário pode inserir um
termo ou um conjunto de termos. Ao
encontrar o registro buscado,
o usuário pode realizar o download dos
artigos, arquivos e dados e arquivos de
modelo para cada resultado.
21. Descrição
Embora a visualização do conteúdo seja
diferente, para todos os organismos,
agentes ou cadeias genéticas estão
indicadas informações que os identificam
e individualizam.
Nos repositórios que seguem o padrão
tradicional, para cada arquivo há um
registro com metadados como título,
autoria ou responsabilidade, data e local de
criação ou de coleta, formato, tamanho,
permissões e condições de uso e requisitos
de sistema necessários
para o uso.
Do ponto de vista da descrição dos conteúdos, há em todos os RDP algum tipo de descrição
que individualiza e identifica o conteúdo.
22. Citação
Embora não esclareçam os
usuários como fazer, nem
apresentam a referência junto
ao arquivo, os metadados
constantes são suficientes
para a elaboração das
referências.
Em todos os repositórios está indicada a importância da necessidade de citação do
conteúdo ali disponibilizado.
Há uma sessão no web sítio que
ensina ao usuário como citar os
recursos.
Junto ao registro é indicada a
referência para citação de
cada conteúdo.
23. CONSIDERAÇÕES FINAIS
• Grande parte dos repositórios digitais atualmente ativos em Portugal foi implantada em virtude do projeto
RCAAP, portanto destinam-se a coletar e compartilhar a produção científica da instituição pela qual são
mantidos.
• Observou-se a presença de conjuntos de dados (datasets) publicados nas coleções de alguns repositórios
institucionais. Esse fato mostra que já há preocupação por parte de pesquisadores em disponibilizar seus dados,
contudo pode indicar falta de espaços para tal em sua instituição.
• Um dos maiores obstáculos que se pode indicar com relação à implantação de dados de pesquisa está
relacionada com a dificuldade ainda bastante persistente de identificar o que são dados de pesquisa.
• De modo geral, essa pesquisa permite afirmar que o estado da arte dos repositórios de dados de pesquisa em
Portugal ainda encontra-se em estágio inicial. Pela pouca quantidade de repositórios e de itens armazenados nos
repositórios analisados, acredita-se que os mesmos ainda tenham pouca visibilidade dentro de suas instituições.
Até ao final de 2009 as actividades do projecto RCAAP focaram-se exclusivamente nos repositórios de literatura científica. O plano de trabalho
para 2010 assinala o início da intervenção do projecto RCAAP no domínio do acesso e curadoria dos dados resultantes das actividades de
investigação e dos repositórios de dados científicos (Rodrigues et al., 2010).
24. REFERÊNCIAS
Fecher B., Friesike S. (2014) Open Science: One Term, Five Schools of Thought. In: Bartling S.,
Friesike S. (eds) Opening Science. Springer, Cham.
https://doi.org/10.1007/978-3-319-00026-8_2
OECD (2004). Declaration on Access to Research Data from Public Funding.
https://legalinstruments.oecd.org/en/instruments/157
Rousidis, D., Garoufallou, E., Balatsoukas, P., & Sicilia, M.-A. (2014). Metadata for Big Data: A
preliminary investigation of metadata quality issues in research data repositories.
Information Services & Use, 34(3–4), 279–286. https://doi.org/10.3233/ISU-140746