Prof. João Eduardo Ferreira
Superintendência de Tecnologia da Informação
Gestão de dados científicos:
desafios e perspectivas
2018
O dia do Bibliotecário
"No Brasil, o Dia do Bibliotecário, foi instituído pelo Decreto
nº 84.631, de 9 de abril de 1980[1], a ser comemorado em todo
o território nacional a 12 de março, data do nascimento do
bibliotecário, escritor e poeta, Manuel Bastos Tigre.
Manuel Bastos Tigre trouxe grande contribuição social e
cultural para o Brasil, por isso, a data de seu nascimento
celebra o dia daqueles que comungam o mesmo objetivo:
• disseminar informação e conhecimento a fim de promover o
desenvolvimento cultural e social do país."
[1] https://pt.wikipedia.org/wiki/Dia_do_Bibliotec%C3%A1rio
Agenda
• Gestão de Dados Científicos
– planos de gestão e repositórios de dados
• Contexto USP
– desafios e perspectivas
• Iniciativa FAPESP
– GT Repositório de Dados
– Bases heterogêneas e Distribuídas
– Metabuscador
• coletar, armazenar, gerenciar e compartilhar dados
• racionalizar recursos
• facilitar a reprodutibilidade : reuso e compartilhamento.
• Apoiar pesquisadores
• planejamento, organização, segurança
• documentação e partilha
• preparação dos conjuntos de dados para depósito
• preservação dos dados
• questões relacionadas a direitos autorais, licenciamento e
propriedade intelectual.
Demandas da Gestão de Dados Científicos
Ciclo de Vida dos Dados Científicos
Fonte: Research Data Lyfe cycle UK Data Archive
http://www.data-archive.ac.uk/create-manage
Gestão de Dados: The FAIR Guiding Principles
• To be Findable:
F1. (meta)data are assigned a globally unique and persistent identifier
F2. data are described with rich metadata (defined by R1 below)
F3. metadata clearly and explicitly include the identifier of the data it describes
F4. (meta)data are registered or indexed in a searchable resource
• To be Accessible:
A1. (meta)data are retrievable by their identifier using a standardized communications protocol
A1.1 the protocol is open, free, and universally implementable
A1.2 the protocol allows for an authentication and authorization procedure, where necessary
A2. metadata are accessible, even when the data are no longer available
• To be Interoperable:
I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge
representation.
I2. (meta)data use vocabularies that follow FAIR principles
I3. (meta)data include qualified references to other (meta)data
• To be Reusable:
R1. meta(data) are richly described with a plurality of accurate and relevant attributes
R1.1. (meta)data are released with a clear and accessible data usage license
R1.2. (meta)data are associated with detailed provenance
R1.3. (meta)data meet domain-relevant community standards Fonte: https://www.nature.com/articles/sdata201618
• Estados Unidos
National Science Foundation, EUA
https://www.nsf.gov/bfa/dias/policy/dmp.jsp
https://www.nsf.gov/bfa/dias/policy/dmpfaqs.jsp
National Institutes of Health, EUA
https://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm
National Endowment for the Humanities, EUA
https://www.neh.gov/files/grants/data_management_plans_2017.pdf
Stanford:
https://library.stanford.edu/research/data-management-services/data-management-plans
Harvard:
http://guides.library.harvard.edu/dmp
• Reino Unido
Data Curation Center
http://www.dcc.ac.uk/resources/data-management-plans
http://www.dcc.ac.uk/sites/default/files/documents/publications/reports/guides/How%20to%20Develop.
pdf
• Europa
Horizon 2020
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-
mgt_en.pdf
Gestão de Dados Científicos
Algumas Iniciativas mundiais
• Desafios
• Perspectivas
Contexto USP
Desafios: área multidisciplinar
Trabalho colaborativo
Tecnologia da
Informação
Bibliotecas
Pesquisa
Pós-
Graduação
Desafios: armazenamento
• Dados heterogêneos (texto, imagem, som, vídeo)
• Dados distribuídos
• Especificidade dos dados
Repositórios com interfaces fáceis intuitivas,
mínimas, dados padronizados e integradoras
Desafios: interfaces
• Desafios
• Perspectivas
Contexto USP
Perspectivas
para os desafios de coleta, armazenamento,
preservação e disponibilização de dados de pesquisa.
Institucionalizar esforços e ações
Avaliar alternativas
• Soluções para plataforma de gestão de dados
• Open source (CKAN, Dataverse, DSpace,...)
• Proprietária
• Desenvolvimento
Perspectivas
Arquitetura dos Repositórios
• Distribuída
• Centralizada
Perspectivas
Iniciativa FAPESP:
GT Repositório de dados
• arquitetura de repositórios em dois níveis
• Armazenamento individual (repositórios)
• Recuperação única (metabuscador)
• solução interoperável para gestão de metadados
(metadados padronizados)
• cada instituição decide a melhor solução para
armazenamento e preservação dos dados
• metabuscador recupera os metadados, incluindo a
localização original do dados (usada para efetivamente
recuperá-lo)
Iniciativa FAPESP:
GT Repositório de dados
Conclusões

Abertura: Gestão de dados de pesquisa: desafios e perspectivas USP

  • 1.
    Prof. João EduardoFerreira Superintendência de Tecnologia da Informação Gestão de dados científicos: desafios e perspectivas 2018
  • 2.
    O dia doBibliotecário "No Brasil, o Dia do Bibliotecário, foi instituído pelo Decreto nº 84.631, de 9 de abril de 1980[1], a ser comemorado em todo o território nacional a 12 de março, data do nascimento do bibliotecário, escritor e poeta, Manuel Bastos Tigre. Manuel Bastos Tigre trouxe grande contribuição social e cultural para o Brasil, por isso, a data de seu nascimento celebra o dia daqueles que comungam o mesmo objetivo: • disseminar informação e conhecimento a fim de promover o desenvolvimento cultural e social do país." [1] https://pt.wikipedia.org/wiki/Dia_do_Bibliotec%C3%A1rio
  • 3.
    Agenda • Gestão deDados Científicos – planos de gestão e repositórios de dados • Contexto USP – desafios e perspectivas • Iniciativa FAPESP – GT Repositório de Dados – Bases heterogêneas e Distribuídas – Metabuscador
  • 4.
    • coletar, armazenar,gerenciar e compartilhar dados • racionalizar recursos • facilitar a reprodutibilidade : reuso e compartilhamento. • Apoiar pesquisadores • planejamento, organização, segurança • documentação e partilha • preparação dos conjuntos de dados para depósito • preservação dos dados • questões relacionadas a direitos autorais, licenciamento e propriedade intelectual. Demandas da Gestão de Dados Científicos
  • 5.
    Ciclo de Vidados Dados Científicos Fonte: Research Data Lyfe cycle UK Data Archive http://www.data-archive.ac.uk/create-manage
  • 6.
    Gestão de Dados:The FAIR Guiding Principles • To be Findable: F1. (meta)data are assigned a globally unique and persistent identifier F2. data are described with rich metadata (defined by R1 below) F3. metadata clearly and explicitly include the identifier of the data it describes F4. (meta)data are registered or indexed in a searchable resource • To be Accessible: A1. (meta)data are retrievable by their identifier using a standardized communications protocol A1.1 the protocol is open, free, and universally implementable A1.2 the protocol allows for an authentication and authorization procedure, where necessary A2. metadata are accessible, even when the data are no longer available • To be Interoperable: I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation. I2. (meta)data use vocabularies that follow FAIR principles I3. (meta)data include qualified references to other (meta)data • To be Reusable: R1. meta(data) are richly described with a plurality of accurate and relevant attributes R1.1. (meta)data are released with a clear and accessible data usage license R1.2. (meta)data are associated with detailed provenance R1.3. (meta)data meet domain-relevant community standards Fonte: https://www.nature.com/articles/sdata201618
  • 7.
    • Estados Unidos NationalScience Foundation, EUA https://www.nsf.gov/bfa/dias/policy/dmp.jsp https://www.nsf.gov/bfa/dias/policy/dmpfaqs.jsp National Institutes of Health, EUA https://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm National Endowment for the Humanities, EUA https://www.neh.gov/files/grants/data_management_plans_2017.pdf Stanford: https://library.stanford.edu/research/data-management-services/data-management-plans Harvard: http://guides.library.harvard.edu/dmp • Reino Unido Data Curation Center http://www.dcc.ac.uk/resources/data-management-plans http://www.dcc.ac.uk/sites/default/files/documents/publications/reports/guides/How%20to%20Develop. pdf • Europa Horizon 2020 http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data- mgt_en.pdf Gestão de Dados Científicos Algumas Iniciativas mundiais
  • 8.
  • 9.
    Desafios: área multidisciplinar Trabalhocolaborativo Tecnologia da Informação Bibliotecas Pesquisa Pós- Graduação
  • 10.
    Desafios: armazenamento • Dadosheterogêneos (texto, imagem, som, vídeo) • Dados distribuídos • Especificidade dos dados
  • 11.
    Repositórios com interfacesfáceis intuitivas, mínimas, dados padronizados e integradoras Desafios: interfaces
  • 12.
  • 13.
    Perspectivas para os desafiosde coleta, armazenamento, preservação e disponibilização de dados de pesquisa. Institucionalizar esforços e ações
  • 14.
    Avaliar alternativas • Soluçõespara plataforma de gestão de dados • Open source (CKAN, Dataverse, DSpace,...) • Proprietária • Desenvolvimento Perspectivas
  • 15.
    Arquitetura dos Repositórios •Distribuída • Centralizada Perspectivas
  • 16.
    Iniciativa FAPESP: GT Repositóriode dados • arquitetura de repositórios em dois níveis • Armazenamento individual (repositórios) • Recuperação única (metabuscador) • solução interoperável para gestão de metadados (metadados padronizados) • cada instituição decide a melhor solução para armazenamento e preservação dos dados • metabuscador recupera os metadados, incluindo a localização original do dados (usada para efetivamente recuperá-lo)
  • 17.
  • 18.