Apresentação na mesa de conversa com pesquisadores sobre acesso aberto, diretrizes e elaboração de planos de gestão de dados da UNIRIO no dia 14 de junho de 2018.
Panorama global de gestão de dados de pesquisa e a iniciativa GO FAIR
1. PANORAMA GLOBAL DE GESTÃO DE DADOS
DE PESQUISA E A INICIATIVA GO FAIR
14 DE JUNHO, 2018 – UNIRIO – RIO DE JANEIRO-BR
Luiz Bonino
luiz.bonino@go-fair.org
10. PERDA DE DADOS É REAL
Nature news, 19 December 2013
• Velocidade e capacidade de
armazenamento dos computadores
dobram a cada 18 meses e o ritmo é
estável
• Dados de sequenciamento de DNA
dobram a cada 6-8 meses e devem
acelerar na próxima década
Science1.0
11. Maioria dos dados não se falam
Dados são perdidos e/ou são difíceis de achar
Limita a ampliação da efetiva descoberta de conhecimentos
20% dos links de dados suplementares se “degradam”anualmente
80% dos dados são perdidos
60% dos dados em literatura não podem ser encontrados por máquinas
Aproximadamente 50% das pesquisas não são reproduzíveis
O PROBLEMA DE DADOS EM PESQUISA E INOVAÇÃO
12. O PROBLEMA DE DADOS EM PESQUISA E INOVAÇÃO
O crescente tsunami de dados requer habilidades além das
ensinadas em cursos de ciência da computação
Necessidade de programas educacionais para gestores de dados
profissionais
CE: 1,7M de cientistas e 70-100M de profissionais em C&I precisam
de 500.000 especialistas de dados (estimativa conservadora assumindo 10M de
geradores de dados e 1 especialista em dados para cada 20 geradores)
EUA: “Os Estados Unidos encaram um deficit 1,5M de gestores e
analistas com habilidades para entender e tomar decisões
baseadas em análise de dados” (Fonte: McKinsey Global Institute,
2011)
13. ESFORÇO EM REUSO DE DADOS
Fonte: Data Science Report 2016, CrowdFlower, 2016: http://visit.crowdflower.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf
14. ESFORÇO EM REUSO DE DADOS
Fonte: Data Science Report 2016, CrowdFlower, 2016: http://visit.crowdflower.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf
15. SOURCE: Study on the cost of not having FAIR research data
A PwC study for DG RTD of the European Commission
Custo de não ter dados FAIR
21. EVOLUIU RAPIDAMENTE PARA UM MOVIMENTO MUNDIAL
Rápida aceitação e endosso
A conferência Lorentz
Endosso da Research Data Alliance
Projeto principal do DTL
Parceiro internacional FORCE11
Artigo dos princípios aceito pela NATURE
NIH aceita os princípios FAIR no programa Life Sciences Commons
O director do DTL Prof. Barend Mons se torna Chair do High Level Expert Group EC
Começa a iniciativa Personal Health Train
EC anuncia o European Open Science Cloud com FAIR como base
Mundo 2016
23. CE EM AÇÃO: EUROPEAN OPEN SCIENCE CLOUD
A Europa reconhece o problema
Estudo aponta custo de €11B/ano
por CE não adotar os princípios
FAIR (resultado preliminar de
estudo da PWC)
Possível solução: EOSC
Gestão de dados
Internet dos dados e serviços FAIR
Treinamento de 500.000 experts em
dados
Financiamento
€2B para a fase inicial do EOSC
Mercado anual de gestão de dados
$85B
25. THE NIH
The NIH Commons initiative
The Commons Data
Vouchers for mandatory data
stewardship
FAIR NOS EUA (NIH)
26. SETEMBRO 2016: G20
“We support appropriate efforts to promote open science and facilitate appropriate access to publicly funded
research results on findable, accessible, interoperable and reusable (FAIR) principles.” (Statement 12)
http://europa.eu/rapid/press-release_STATEMENT-16-2967_en.htm
Let’s GO
FAIR
29. GO FAIR – INCIALMENTE APOIADO POR NL, DE E FR
GO CHANGEGO BUILD GO TRAIN
Treinamento
MOOCs SPOCs
Certificação
Implementação
Dados e serviços FAIR
Infraestrutura
Mudança cultural
Promoção de Ciência
Aberta
Sistema de recompensas
Regras de Engajamento
GO FAIR International Support and Coordination Office
Redes de
Implementação
31. PRINCÍPIOS FAIR
Findable (encontráveis):
F1. (meta)dados possuem identificadores persistentes e únicos
globalmente;
F2. dados são descritos por metadados ricos;
F3. metadados clara e explicitamente incluem os
identificadores dos dados que descrevem;
F4. (meta)dados são registrados e indexados em mecanismos
de busca;
Acessíveis:
A1. (meta)dados são recuperáveis através de seus identificados
utilizando um protocol de comunicação padronizado;
A1.1 o protocoloé aberto, gratis e universalmente
implementável;
A1.2. o protocolo possibilidade procedimentos de
autenticação e autorização, quando necessários;
A2. metadados são acessíveis mesmo quando os dados não estão
mais disponíveis;
Interoperáveis:
I1. (meta)dados usam linguagens de representação de
conhecimentos formais, acessíveis, compartilháveis e
amplamente aplicáveis.
I2. (meta)dados usam vocabulários que seguem os princípios
FAIR;
I3. (meta)dados incluem referências qualificadas para outros
(meta)dados.
Reusáveis:
R1. (meta)dados são ricamente descritos com uma pluralidades de
atributos relevantes e precisos;
R1.1. (meta)data are released with a clear and accessible data
usage license;
R1.2. (meta)data are associated with detailed provenance;
R1.3. (meta)data meet domain-relevant community
standards;
https://www.nature.com/articles/sdata201618
32. PRINCÍPIOS FAIR - METADADOS
Findable (localizáveis):
F1. metadados possuem identificadores persistentes e únicos
globalmente;
F2. dados são descritos por metadados ricos;
F3. metadados clara e explicitamente incluem os
identificadores dos dados que descrevem;
F4. metadados são registrados e indexados em mecanismos de
busca;
Acessíveis:
A1. metadados são recuperáveis através de seus identificados
utilizando um protocol de comunicação padronizado;
A1.1 o protocoloé aberto, gratis e universalmente
implementável;
A1.2. o protocolo possibilidade procedimentos de
autenticação e autorização, quando necessários;
A2. metadados são acessíveis mesmo quando os dados não estão
mais disponíveis;
Interoperáveis:
I1. metadados usam linguagens de representação de
conhecimentos formais, acessíveis, compartilháveis e
amplamente aplicáveis.
I2. metadados usam vocabulários que seguem os princípios
FAIR;
I3. metadados incluem referências qualificadas para outros
(meta)dados.
Reusáveis:
R1. metadados são ricamente descritos com uma pluralidades de
atributos relevantes e precisos;
R1.1. metadados possuem licenças de uso claras e acessíveis;
R1.2. metadados são associados a procedências detalhadas;
R1.3. metadados seguem padrões das comunidades
relevantes aos domínios;
https://www.nature.com/articles/sdata201618
33. PRINCÍPIOS FAIR – DADOS/OBJETOS DIGITAIS
Findable (localizáveis):
F1. dados possuem identificadores persistentes e únicos
globalmente;
F2. dados são descritos por metadados ricos;
F3. metadados clara e explicitamente incluem os
identificadores dos dados que descrevem;
F4. dados são registrados e indexados em mecanismos de
busca;
Acessíveis:
A1. dados são recuperáveis através de seus identificados utilizando
um protocol de comunicação padronizado;
A1.1 o protocoloé aberto, gratis e universalmente
implementável;
A1.2. o protocolo possibilidade procedimentos de
autenticação e autorização, quando necessários;
A2. metadados são acessíveis mesmo quando os dados não estão
mais disponíveis;
Interoperáveis:
I1. dados usam linguagens de representação de conhecimentos
formais, acessíveis, compartilháveis e amplamente aplicáveis.
I2. dados usam vocabulários que seguem os princípios FAIR;
I3. dados incluem referências qualificadas para outros
(meta)dados.
Reusáveis:
R1. dados são ricamente descritos com uma pluralidades de
atributos relevantes e precisos;
R1.1. dados possuem licenças de uso claras e acessíveis;
R1.2. dados são associados a procedências detalhadas;
R1.3. dados seguem padrões das comunidados relevantes aos
domínios;
https://www.nature.com/articles/sdata201618
34. PRINCÍPIOS FAIR – INFRAESTRUTURA DE APOIO
Findable (localizáveis):
F1. (meta)dados possuem identificadores persistentes e únicos
globalmente;
F2. dados são descritos por metadados ricos;
F3. metadados clara e explicitamente incluem os
identificadores dos dados que descrevem;
F4. (meta)dados são registrados e indexados em mecanismos
de busca;
Acessíveis:
A1. (meta)dados são recuperáveis através de seus identificados
utilizando um protocol de comunicação padronizado;
A1.1 o protocoloé aberto, gratis e universalmente
implementável;
A1.2. o protocolo possibilidade procedimentos de
autenticação e autorização, quando necessários;
A2. metadados são acessíveis mesmo quando os dados não estão
mais disponíveis;
Interoperáveis:
I1. (meta)dados usam linguagens de representação de
conhecimentos formais, acessíveis, compartilháveis e
amplamente aplicáveis.
I2. (meta)dados usam vocabulários que seguem os princípios
FAIR;
I3. (meta)dados incluem referências qualificadas para outros
(meta)dados.
Reusáveis:
R1. (meta)dados são ricamente descritos com uma pluralidades de
atributos relevantes e precisos;
R1.1. (meta)dados possuem licenças de uso claras e
acessíveis;
R1.2. (meta)dados são associados a procedências detalhadas;
R1.3. (meta)dados seguem padrões das comunidados
relevantes aos domínios;
https://www.nature.com/articles/sdata201618
35. EU PREFIRO COMPARTILHAR MINHA ESCOVA DE DENTES DO QUE MEUS DADOS
Se compartilhar é o problema:
não compartilhe os dados
Se não puder trazer os dados para a pesquisa
você leva a pesquisa aos dados
Não mais data warehousing
Mas “pontos” de dados distribuídos Precisamos
mesmo?
37. GESTÃO DE DADOS DE PESQUISA
37
Apoio
Infra-
estrutura
Políticas
entendimento:
Pesquisadores entendem o que é
importante, quando, porque e quem
clareza:
Pesquisadores sabem o que se esperam
deles
habilidade:
Pesquisadores tem os recursos necessários
para satisfazerem as expectativas
38. ELEMENTOS DE UM DEPARTAMENTO DE GESTÃO DE DADOS
• Bem integrado (portanto acessível e respeitado) à
organização
• Bem gerido e organizado de forma supra-
departamental (modelo hub and spokes)
• Responsável por formular a política de gestão de
dados da organização
• Organiza e supervisiona os recursos necessários para a
gestão de dados
• O lugar para encontrar especialistas em gestão de
dados que podem apoiar os pesquisadores durante
todo o ciclo de gestão
Desenvolver
idéia
Busca/
descoberta
Escrever
relatório
Projetar
estudo
Armazenar
dados
Publicar
relatório
Coletar
dados
Análise de
dados
39. ELEMENTOS DE UM DEPARTAMENTO DE GESTÃO DE DADOS (2)
Considere o Gestor de Dados:
Parte integrante da organização
com plano de carreira dedicado
Parceiro real do pesquisador
não somente um ‘tratador de dados’
Envolvido
no desenho do projeto de pesquisa
ao longo do ciclo de pesquisa completo
40. PAPÉIS NO DEPARTAMENTO DE GESTÃO DE DADOS FAIR
O Gestor de Dados FAIR
Subervisiona os ciclos de vida dos dados e de casos
de uso/projetos
O Gerente de Serviços de Dados FAIR
Coordena a infraestrutura/ferramentas de suporte
O Especialista em Dados FAIR
Trata e transforma dados em FAIR
O Especialista em Ontologias
Define os modelos semânticos
Planejamento FAIRificação Análise
1.
Definir
objetivos/
perguntas
2.
Inventório
de recursos
existentes
3.
Análise de
pré-
FAIRificação
4a.
Definir modelo
semântico dos
dados
4b.
Definir modelo
semântico dos
metadados
5.
Criar dados
linkáveis
6.
Publicar
dados e
metadados
7.
Responder pergunta
- Busca
- Interoperabilidade
- análise
Biblioteconomista?
Especialista em infra IT
IT + biblio?
Engenheiro em ontologia?
44. WORKFLOW FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Preparar e
analisar os
dados
Formatos padronizados (XML, RDF, API de BD relacional, VCF, DICOM, etc.)?
Qual. conteúdo?
Nomes de colunas e campos?
Relacionamentos?
Domínio e imagem dos dados?
Entender os dados
Ajustes e preparação dos dados
…
45. WORKFLOW DE FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Definir o
modelo
semântico
Quais são os conceitos envolvidos?
Quais as relações entre os conceitos?
Existem vocabulários para os conceitos e suas instâncias?
Preparar e
analisar os
dados
Interoperabilidade
Reuso
46. WORKFLOW DE FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Definir o
modelo
semântico
Dados
linkáveis
Aplicar o modelo semântico nos
dados originais para faze-los
interconectáveis (linkáveis)
Preparar e
analisar os
dados
Interoperabilidade
Reuso
48. WORKFLOW DE FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Definir o
modelo
semântico
Dados
linkáveis
Atribuir
licença
Definir
metadados
Autores
Versão
Distribuições
Proveniência
…
Preparar e
analisar os
dados
Findability
Acessibilidade
Interoperabilidade
Reuso
49. WORKFLOW DE FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Definir o
modelo
semântico
Dados
linkáveis
Atribuir
licença
Definir
metadados
Publicar
dados
FAIR
Como disponibilizar os dados e
metadados de uma forma FAIR?
Preparar e
analisar os
dados
Findability
Acessibilidade
Interoperabilidade
Reuso
50. WORKFLOW DE FAIRIFICAÇÃO
Acessar
dados
não-FAIR
Definir o
modelo
semântico
Dados
linkáveis
Atribuir
licença
Definir
metadados
Publicar
dados
FAIR
Preparar e
analisar os
dados
Integrar com
outros dados FAIR
Consultar dados
integrados
51. A INTERNET DE DADOS E SERVIÇOS FAIR, OU
INTERNET PARA MÁQUINAS
52. A INTERNET
A Internet resolveu o problema de
interoperabilidade de redes heterogêneas
O modelo de ampulheta da Internet possibilitou
tanto interoperabilidade quanto flexibilidade de
extensão
53. A INTERNET DE DADOS E SERVIÇOS FAIR (IFDS)
A IFDS pretende resolver o problema de
interoperabilidade de dados, serviços e
computação heterogêneas
O modelo de ampulheta da IFDS permitirá tanto
interoperabilidade quanto grande flexibilidade
de extensão