Painel: Dados abertos
Dados de pesquisa:
compartilhamento e publicação
I Simpósio Internacional Network Science e IV
Seminário de Big Data Brasil
Rio de Janeiro, 7-9/Nov/2017
Michael Stanton
Rede Nacional de Ensino e Pesquisa – RNP
www.rnp.br
Sumário
A primeira revista científica iniciou publicação em 1665 na Inglaterra:
”Philosophical Transactions of the Royal Society” (ainda existe!)
• Antes disto, cientistas comunicavam resultados de pesquisas informalmente
por correspondência ou em reuniões privadas
• Os cientistas determinavam quem deveriam saber dos resultados das suas
pesquisas
• Hoje, publicação e avaliação por pares são pontos centrais
Vivemos hoje uma mudança de importância semelhante, com a
preservação e o compartilhamento dos dados coletados nas
pesquisas. Isto promete provocar um segundo grande impacto na
condução de pesquisas científicas e na geração do conhecimento.
3
• Os dados ocupam um papel central na realização da pesquisa, mas
o que importa é publicar os resultados da sua análise
• Os dados são meramente tratados apenas como meio. Depois da
análise, seguida de publicação de relatório, os dados podem (e
são) descartados
• Esta situação vem mudando, perante a recente importância de
dados em forma digital, facilmente armazenados e reutilizáveis
Plane-jam
ento do
Projeto
Aquisição
dos
Dados
Análise
dos
Dados
Publicação
dos
Resultados
(artigo)
Ciclo de vida dos dados científicos - tradicional
Preservação e reutilização de dados científicos
A preservação de dados científicos permite sua reutilização de várias
maneiras:
• Nova realização da mesma pesquisa (por terceiros) para validar os
resultados originais
• Correlação mais simples com os resultados de trabalhos paralelos
• Aumento do volume de dados disponíveis para análise, permitindo
refinar a análise
• É necessário modificar o ciclo de vida dos dados científicos para
tirar proveito destas novas possibilidades
5
Ciclo de vida dos dados científicos - novo
Planejamento do
Projeto e da
Gestão de Dados Aquisição
dos
Dados
Análise
dos
DadosPublicação (artigo)
e compartilhamento
dos dados
Preservação
dos Dados
Reutilização
dos Dados
Gestão dos dados
Esta importância dos dados de pesquisa traz novas demandas para a
gestão dos dados
• Documentação
• metadados, uso de unidades padronizadas (ISO, etc)
• Organização
• Nomeação de arquivos por função, data de obtenção, etc
• Armazenamento e cópias de segurança (”backup”)
• Armazenamento e preservação de longo prazo
• Compartilhamento
• Reutilização
Planejando a gestão de dados
Torna-se comum as agências de fomento (ex. Fapesp) exigirem um
plano de gestão de dados em solicitações de apoio a novos projetos
Este plano deve considerar:
• Que dados serão criados?
• Como serão documentados e organizados os dados?
• Como serão armazenados seus dados em segurança?
• Como serão geridos seus dados depois do término do projeto?
• Como poderão ser disponibilizados seus dados para terceiros?
Políticas de dados: o plano de gestão de dados deverá
considerar restrições de diferentes tipos e categorias
Tipos de políticas:
• Legislação aplicável
• Governamentais
• da Agência de fomento
• Institucionais
• Normas específicas ao
campo da pesquisa
• do jornal científico
Categorias de políticas
• Privacidade dos dados
• Retenção dos dados
• Propriedade dos dados
• Direitos autorais
• Gestão dos dados
• Compartilhamento dos dados
8
Preservação de dados (longo prazo)
• O que preservar e por quanto tempo? Depende de:
• Políticas de retenção de dados
• Bom senso (dados que apoiam as publicações; que são difíceis ou caros para
obter; etc
• Preparação de dados para preservação
• Formatos de arquivos: usam padrões (txt, pdf, csv)
• Hardware: evitar uso de h/w de tecnologia pontual (p.ex. fitas magnéticas,
CDs, DVDs)
• Documentar seus dados adequadamente
• Terceirizar o trabalho: considerar usar repositórios de dados
10
Compartilhamento de dados
• Dados e propriedade intelectual
• Há casos onde se aplicam regras de autoria, licenças, patentes
• Compartilhamento local (com colegas)
• Colaborações (numa comunidade)
• Padrões de dados importantes
• Compartilhamento público
• Mais complexo e importante
11
Compartilhamento público de dados (mais complexo)
• Por quê compartilhar?
• Facilita testar reproducibilidade de resultados de pesquisa
• Publicação de dados conta para CV, e persiste mais que artigo
• Fontes de requisitos
• Financiador publico, transparência publica
• Preparação dos dados
• Documentação dos dados é fundamental
• Uso de repositórios é a melhor opção
• Aumenta o número de alternativas (no Brasil??)
• Licenciamento de dados compartilhados, para restringir uso
• Alternativas incluem Creative Commons (CC) e Open Data Commons (ODC)
Ciberinfraestrutura: suporte para e-Ciência
É o nome dado desde 2002
ao conjunto de recursos
usados para lidar com um
mundo de dados usados para
pesquisa.
• Coleta em laboratorio/
observatório/ no campo
• Processamento
• Visualização
• Armazenamento/
preservação
+ conectividade global
(redes de dados)
12
Cooperação global em grandes projetos de e-Ciência
• Física de Altas Energias (Large Hadron Collider – LHC, em Genebra)
• Astronomia (grandes observatórios, p.ex. nos Andes do Chile)
• Genética
• Clima e Tempo (especialmente mudanças climáticas)
• …
Seriam impossíveis sem a globalização da comunicação entre
cientistas, através das redes de comunicação acadêmicas
14
As principais redes acadêmicas do mundo
https://www.glif.is/publications/maps/
Foco na América do Sul
Mostra as principais redes
acadêmicas no continente:
Argentina (Innova|Rede)
Brasil (RNP)
Chile (REUNA)
Colômbia (RENATA)
Equador (CEDIA)
+
RedeCLARA (América Latina)
Conexões ao mundo (Américas
Lightpaths – Amlight)
15
16
Entidades internacionais que lidam com pesquisas científicas
ICSU - International Council for Science (Ciências da Natureza)
Reúne entidades científicas (como a Academia Brasileira de
Ciências) (122 Membbros, representando 142 países) e Uniões
Científicas Internacionais (31 Membros).
ISSC - International Social Science Council (Ciências Sociais)
Associação Nacional de Pos-Graduacao e Pesquisa em Ciencias
Sociais (ANPOCS)
que resolveram na semana retrasada juntar-se em 2018 para criar o
International Science Council
17
Entidades internacionais de dados científicas (1/2)
ICSU vem mantendo duas grandes iniciativas na área de dados:
• ICSU-WDS (World Data System) (http://www.icsu-wds.org/)
A missão do WDS é apoiar a visão do ICSU pela promoção do
custódio por longo prazo de, e o acesso universal e equitativo
a, dados científicos e serviços de dados, de qualidade assegurada,
produtos e informação relativos a diversas disciplinas das ciências
naturais, sociais e humanas.
• ICSU-CODATA (Committee on Data for Science and Technology)
(http://www.codata.org/about-codata/our-mission)
CODATA existe para promover collaboração global para melhorar a
disponibilidade e usabilidade de dados para todas áreas de pesquisa
18
Entidades internacionais de dados científicas (2/2)
RDA – Research Data Alliance (https://www.rd-alliance.org/)
• A RDA foi criada há 5 anos com apoio de entidades governamentais
(dos EUA, UE e Austrália) de fomento à pesquisa. Tem membros
individuais e corporativos. Inspirada no modelo da IETF (Internet
Engineering Task Force), que desenvolve a tecnologia da Internet.
• A missão da RDA é construir as pontes sociais e técnicas que
possibilitem o compartilhamento aberto de dados.
• A visão da RDA é o compartilhamento aberto de dados por
pesquisadores e inovadores.
19
IDW – International Data Week
Reuniões conjuntas do CODATA, RDA e WDS
016. Denver, CO, EUA, 11 a 17/9
018. Gaborone, Botswana, 22 a 26/10
WDS vem para o Rio em 2018
• Este workshop discutirá melhores práticas para repositórios de dados
localizados na América Latina e o Caribe.
• Mapeará também iniciativas em curso ou incipientes, suas forças e
limitações, e novas oportunidades para colaboração.
• Serão discutidos critérios e padrões para certificação de repositórios
de dados.
20
http://lacworkshop.icsu-wds.org/
Bibliografia
Data Management for Researchers
Kristin Briney
Pelagic Press, 2015
ISBN 978-1-78427-011-7
Managing and Sharing Research Data
L. Corti, V. van der Eynden, L. Bishop, M.
Woollard
Sage, 2014
ISBN 978-1-4462-6726-4
Obrigado!!
Michael Stanton
Diretor de Pesquisa e Desenvolvimento, RNP
michael@rnp.br

Dados de pesquisa: compartilhamento e publicação

  • 1.
    Painel: Dados abertos Dadosde pesquisa: compartilhamento e publicação I Simpósio Internacional Network Science e IV Seminário de Big Data Brasil Rio de Janeiro, 7-9/Nov/2017 Michael Stanton Rede Nacional de Ensino e Pesquisa – RNP www.rnp.br
  • 2.
    Sumário A primeira revistacientífica iniciou publicação em 1665 na Inglaterra: ”Philosophical Transactions of the Royal Society” (ainda existe!) • Antes disto, cientistas comunicavam resultados de pesquisas informalmente por correspondência ou em reuniões privadas • Os cientistas determinavam quem deveriam saber dos resultados das suas pesquisas • Hoje, publicação e avaliação por pares são pontos centrais Vivemos hoje uma mudança de importância semelhante, com a preservação e o compartilhamento dos dados coletados nas pesquisas. Isto promete provocar um segundo grande impacto na condução de pesquisas científicas e na geração do conhecimento.
  • 3.
    3 • Os dadosocupam um papel central na realização da pesquisa, mas o que importa é publicar os resultados da sua análise • Os dados são meramente tratados apenas como meio. Depois da análise, seguida de publicação de relatório, os dados podem (e são) descartados • Esta situação vem mudando, perante a recente importância de dados em forma digital, facilmente armazenados e reutilizáveis Plane-jam ento do Projeto Aquisição dos Dados Análise dos Dados Publicação dos Resultados (artigo) Ciclo de vida dos dados científicos - tradicional
  • 4.
    Preservação e reutilizaçãode dados científicos A preservação de dados científicos permite sua reutilização de várias maneiras: • Nova realização da mesma pesquisa (por terceiros) para validar os resultados originais • Correlação mais simples com os resultados de trabalhos paralelos • Aumento do volume de dados disponíveis para análise, permitindo refinar a análise • É necessário modificar o ciclo de vida dos dados científicos para tirar proveito destas novas possibilidades
  • 5.
    5 Ciclo de vidados dados científicos - novo Planejamento do Projeto e da Gestão de Dados Aquisição dos Dados Análise dos DadosPublicação (artigo) e compartilhamento dos dados Preservação dos Dados Reutilização dos Dados
  • 6.
    Gestão dos dados Estaimportância dos dados de pesquisa traz novas demandas para a gestão dos dados • Documentação • metadados, uso de unidades padronizadas (ISO, etc) • Organização • Nomeação de arquivos por função, data de obtenção, etc • Armazenamento e cópias de segurança (”backup”) • Armazenamento e preservação de longo prazo • Compartilhamento • Reutilização
  • 7.
    Planejando a gestãode dados Torna-se comum as agências de fomento (ex. Fapesp) exigirem um plano de gestão de dados em solicitações de apoio a novos projetos Este plano deve considerar: • Que dados serão criados? • Como serão documentados e organizados os dados? • Como serão armazenados seus dados em segurança? • Como serão geridos seus dados depois do término do projeto? • Como poderão ser disponibilizados seus dados para terceiros?
  • 8.
    Políticas de dados:o plano de gestão de dados deverá considerar restrições de diferentes tipos e categorias Tipos de políticas: • Legislação aplicável • Governamentais • da Agência de fomento • Institucionais • Normas específicas ao campo da pesquisa • do jornal científico Categorias de políticas • Privacidade dos dados • Retenção dos dados • Propriedade dos dados • Direitos autorais • Gestão dos dados • Compartilhamento dos dados 8
  • 9.
    Preservação de dados(longo prazo) • O que preservar e por quanto tempo? Depende de: • Políticas de retenção de dados • Bom senso (dados que apoiam as publicações; que são difíceis ou caros para obter; etc • Preparação de dados para preservação • Formatos de arquivos: usam padrões (txt, pdf, csv) • Hardware: evitar uso de h/w de tecnologia pontual (p.ex. fitas magnéticas, CDs, DVDs) • Documentar seus dados adequadamente • Terceirizar o trabalho: considerar usar repositórios de dados
  • 10.
    10 Compartilhamento de dados •Dados e propriedade intelectual • Há casos onde se aplicam regras de autoria, licenças, patentes • Compartilhamento local (com colegas) • Colaborações (numa comunidade) • Padrões de dados importantes • Compartilhamento público • Mais complexo e importante
  • 11.
    11 Compartilhamento público dedados (mais complexo) • Por quê compartilhar? • Facilita testar reproducibilidade de resultados de pesquisa • Publicação de dados conta para CV, e persiste mais que artigo • Fontes de requisitos • Financiador publico, transparência publica • Preparação dos dados • Documentação dos dados é fundamental • Uso de repositórios é a melhor opção • Aumenta o número de alternativas (no Brasil??) • Licenciamento de dados compartilhados, para restringir uso • Alternativas incluem Creative Commons (CC) e Open Data Commons (ODC)
  • 12.
    Ciberinfraestrutura: suporte parae-Ciência É o nome dado desde 2002 ao conjunto de recursos usados para lidar com um mundo de dados usados para pesquisa. • Coleta em laboratorio/ observatório/ no campo • Processamento • Visualização • Armazenamento/ preservação + conectividade global (redes de dados) 12
  • 13.
    Cooperação global emgrandes projetos de e-Ciência • Física de Altas Energias (Large Hadron Collider – LHC, em Genebra) • Astronomia (grandes observatórios, p.ex. nos Andes do Chile) • Genética • Clima e Tempo (especialmente mudanças climáticas) • … Seriam impossíveis sem a globalização da comunicação entre cientistas, através das redes de comunicação acadêmicas
  • 14.
    14 As principais redesacadêmicas do mundo https://www.glif.is/publications/maps/
  • 15.
    Foco na Américado Sul Mostra as principais redes acadêmicas no continente: Argentina (Innova|Rede) Brasil (RNP) Chile (REUNA) Colômbia (RENATA) Equador (CEDIA) + RedeCLARA (América Latina) Conexões ao mundo (Américas Lightpaths – Amlight) 15
  • 16.
    16 Entidades internacionais quelidam com pesquisas científicas ICSU - International Council for Science (Ciências da Natureza) Reúne entidades científicas (como a Academia Brasileira de Ciências) (122 Membbros, representando 142 países) e Uniões Científicas Internacionais (31 Membros). ISSC - International Social Science Council (Ciências Sociais) Associação Nacional de Pos-Graduacao e Pesquisa em Ciencias Sociais (ANPOCS) que resolveram na semana retrasada juntar-se em 2018 para criar o International Science Council
  • 17.
    17 Entidades internacionais dedados científicas (1/2) ICSU vem mantendo duas grandes iniciativas na área de dados: • ICSU-WDS (World Data System) (http://www.icsu-wds.org/) A missão do WDS é apoiar a visão do ICSU pela promoção do custódio por longo prazo de, e o acesso universal e equitativo a, dados científicos e serviços de dados, de qualidade assegurada, produtos e informação relativos a diversas disciplinas das ciências naturais, sociais e humanas. • ICSU-CODATA (Committee on Data for Science and Technology) (http://www.codata.org/about-codata/our-mission) CODATA existe para promover collaboração global para melhorar a disponibilidade e usabilidade de dados para todas áreas de pesquisa
  • 18.
    18 Entidades internacionais dedados científicas (2/2) RDA – Research Data Alliance (https://www.rd-alliance.org/) • A RDA foi criada há 5 anos com apoio de entidades governamentais (dos EUA, UE e Austrália) de fomento à pesquisa. Tem membros individuais e corporativos. Inspirada no modelo da IETF (Internet Engineering Task Force), que desenvolve a tecnologia da Internet. • A missão da RDA é construir as pontes sociais e técnicas que possibilitem o compartilhamento aberto de dados. • A visão da RDA é o compartilhamento aberto de dados por pesquisadores e inovadores.
  • 19.
    19 IDW – InternationalData Week Reuniões conjuntas do CODATA, RDA e WDS 016. Denver, CO, EUA, 11 a 17/9 018. Gaborone, Botswana, 22 a 26/10
  • 20.
    WDS vem parao Rio em 2018 • Este workshop discutirá melhores práticas para repositórios de dados localizados na América Latina e o Caribe. • Mapeará também iniciativas em curso ou incipientes, suas forças e limitações, e novas oportunidades para colaboração. • Serão discutidos critérios e padrões para certificação de repositórios de dados. 20 http://lacworkshop.icsu-wds.org/
  • 21.
    Bibliografia Data Management forResearchers Kristin Briney Pelagic Press, 2015 ISBN 978-1-78427-011-7 Managing and Sharing Research Data L. Corti, V. van der Eynden, L. Bishop, M. Woollard Sage, 2014 ISBN 978-1-4462-6726-4
  • 22.
    Obrigado!! Michael Stanton Diretor dePesquisa e Desenvolvimento, RNP michael@rnp.br