1. Gestão de Dados
dataset
2021
Curso de Difusão - USP
NPT – Núcleo de pesquisas em
tecnologias e ambientes educacionais
www.npt.com.br
José Dutra de Oliveira Neto
patrocinado pelo projeto Open Data initiative - IDRC
2. Agenda
► Crise de replicação
► Compartilhamento de dados
► Repositório
► Dados sensitivos
► Onde publicar?
► Dataset
► Artigo de Dados
Agenda
2
4. Crise de replicabilidade/ reprodutibilidade
da pesquisa?
In 1992, philosopher Karl Popper wrote: “Science may be described as the art
of systematic oversimplification — the art of discerning what we may with
advantage omit.”
Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you
can’, not ‘catch me if you can’.
Crise
4
5. Replicabilidade/ reprodutibilidade
► A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas
anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são
construídos sobre resultados das pesquisas anteriores.
► Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos
escassos e compromete a confiança na ciência
► Replicabilidade/ reprodutibilidade e transparência são temas importantes para a
ciência
► “Reproducibility” refers to independent researchers arriving at the same results using their own data and methods, while “replicability” refers to a
different team arriving at the same results using the original author's artifacts.
► https://www.ncbi.nlm.nih.gov/books/NBK547546/
https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web
Crise
5
6. Replicabilidade/ reprodutibilidade : É um problema?
► More than 70% of researchers have tried and
failed to reproduce another scientist's
experiments, and more than half have failed to
reproduce their own experiments. Those are some
of the telling figures that emerged from Nature's
survey of 1,576 researchers who took a brief online
questionnaire on reproducibility in research (2016)
► https://www.nature.com/news/1-500-scientists-lift-
the-lid-on-reproducibility-1.19970
Crise
6
7. Existe uma crise de replicabilidade/ reprodutibilidade na
pesquisa?
► Sim, existe uma crise significativa
► Sim, existe um crise pequena
► Não existe esta crise
► Não sei
Responda aqui: https://www.menti.com/udarxro5z5
Crise
7
8. Existe uma crise de replicabilidade/ reprodutibilidade ?
https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Crise
Detalhando mais...
8
10. A maior explicação para a não repetibilidade
foi a indisponibilidade dos dados (nature genetics)
https://www.nature.com/articles/ng.295/figures/1?pr
oof=true
Crise
10
11. Iniciativas das revistas
► Seção de métodos limitados
► Não limitar o tamanho da seção de métodos
► Lançamento de artigos no formato de métodos (Wellcome Open
Research- https://wellcomeopenresearch.org/browse/articles - Method
Articles)
► Falta de estatísticas adequadas
► Fornecer instruções ou guias para relatar as formas de descrever as
estatísticas
Crise
11
12. Por que publicar os dados?
Vantagens?
► Crédito pela publicação indexada e citável
► Acesso aberto (Ex: Licença tipo Creative Commons)
► Validade a pesquisa
► Garantir a reprodução da pesquisa acadêmica
► Promover comportamentos éticos na pesquisa
► Melhorar a reputação da instituição ou mesmo pessoal
Por que publicar?
12
Artigo de dados
Repositório de dados
13. Alguns financiadores e editores já estão exigindo o
compartilhamento dos dados da pesquisa
https://dataservices.gfz-
potsdam.de/portal/drr.html
Compartilhar
13
15. Repositório – Para que?
► Disseminar dados para outros pesquisadores
► Incentivar o reuso
► Facilitar acesso
► Exemplo: Figshare - https://figshare.com/
Repositório
15
https://doi.org/10.6084/m9.figshare.12195075
16. Repositório x Website
Website ?
Repositório
Repositório
Organização
padrão
Facilita
procura e
inclui
metadados
Preserva
data por
longo tempo
Acesso
centralizado
por tema ou
área
Website
Organização
padrão
Facilita
procura e
inclui
metadados
Preserva
data por
longo tempo
Acesso
centralizado
por tema ou
área
16
17. Publicar o DMP no repositório de dados -> Lattes
► Por área
► Worldwide Protein Data Bank : http://www.wwpdb.org/,
► The Cancer Imaging Archive; https://www.cancerimagingarchive.net/collections/,
► DataMed (https://datamed.org/),
► GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/,
► Zenodo - https://zenodo.org/.
► Geral
► Figshare : https://figshare.com/,
► Purdue :https://purr.purdue.edu/,
► Dryad: https://datadryad.org/stash ,
► Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse,
► Google dataset search https://datasetsearch.research.google.com/ ,
► PANGAEA (https://www.pangaea.de/), https://www.mendeley.com/)
17
Entrar no meu plano-> https://dmponline.dcc.ac.uk/plans
18. Repositório – como citar
https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data
Onde publicar?
18
de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data on the Open Educational Resources
differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020).
19. Seus dados são sensitivos ?
Dados Sensitivos
19
Estão seguros?
20. Dados sensitivos
► Dados que identificam as pessoas ou organização
► Diretos – Nome, assinatura, telefone, foto, digital
► Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de
nascimento, raça, características incomuns (doença rara, empregos específicos e
raros)
► Alguns dados protegidos pelas legislação vigente
► Dados comerciais sensitivos
Dados Sensitivos
20
21. Dados sensitivos: Riscos
► Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou
organizações?
► Se combinar diversos datasets é possível identificar pessoas ou organizações?
► Existem aspectos legais ou éticos que limitam o seu compartilhamento?
► A publicação pode prejudicar alguém?
Dados Sensitivos
21
22. Algum risco?
► It was found that 87% (216 million of 248 million) of the population in
the United States had reported characteristics that likely made them
unique based only on {5-digit ZIP, gender, date of birth}.
► About half of the U.S. population (132 million of 248 million or 53%)
are likely to be uniquely identified by only {place, gender, date of
birth}, where place is basically the city, town, or municipality in
which the person resides.
► And even at the county level, {county, gender, date of birth} are
likely to uniquely identify 18% of the U.S. population. In general, few
characteristics are needed to uniquely identify a person.
Fonte:
https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half%
20of%20the%20U.S.,in%20which%20the%20person%20resides.
Dados Sensitivos
22
23. Como proteger dados sensitivos?
► Comitê de ética interno e plataforma Brasil (Plataforma Brasil
(saude.gov.br))
► Agregar os dados para tornar mais seguros
► Acesso controlado ao repositório?
► Pedir autorização aos participantes
► Anonimizar ou de-identificar os dados
► Fechar o acesso até a morte dos participantes
Dados Sensitivos
23
24. Caso Netflix
► On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix
Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a
dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December
1999 and December 2005.
► Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she
liked them or not, maybe even approximate dates when she watched them.
► Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by
privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify
individual users by matching the data sets with film ratings on the Internet Movie Database[29][30]
uncovering their apparent political preferences and other potentially sensitive information.
► On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had
violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was
public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement
with the plaintiffs, after which they voluntarily dismissed the lawsuit
► On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had
announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission
privacy concerns.[28]
Dados Sensitivos
24
25. Dados sensitivos: Planejamento
► Comitê de ética
► Plano
► Permissão para coleta – Consent form[https://tinyurl.com/yxmwrvl4 ]
► Guardar permissão com data de aceite
► Descrição detalhada e clara
► Deixar claro que a coleta é opcional
► Deixar claro que os respondentes podem desistir a qualquer momento
► Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância)
► Esclarecer o que e como vai usar os dados
► Identificar o repositório oficial onde ficará hospedado os dados
► Plano de armazenamento e gestão dos dados
► Tipo de permissão para reuso : deixar claro
► Metadados, descrição e dados de contato
Dados Sensitivos
25
26. Remover identificadores de dados
sensitivos
► Anonimação - definitivo
► De-identificação – Pode ser revertido com o processo de re-
identificação. Pode ser usado para estudos longitudinais.
Documentar todo o processo!
► Diminuir risco
► Eliminar identificadores
► Substituir identificadores
► Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e
Ribeirão Preto por Estado de São Paulo
► Substituir caracteres por * . E****.I****. (nome da escola)
► Morte? Mudança de Lei?
Dados Sensitivos
26
27. Compartilhar dados sensitivos qualitativos
► Como anonimizar?
► Textual
► Áudio
► Vídeo
► Pseudônimos
► Remover trechos
► Alterar trechos
► Acesso controlado dos dados
► Embargo
Dados Sensitivos
27
28. Quem compartilha ?
Link responda agora -
https://www.menti.com/duu3v74gtw
Quem compartilha?
28
Não compartilho os meus dados
Sim, compartilho só de modo privado
Sim, compartilho via email
Sim, compartilho nas nuvens
Sim, compartilho como dados complementares em revistas científicas
Sim, compartilho em sites pessoais ou corporativos
Sim, compartilho em repositórios públicos ou privados
Sim, compartilho em artigo de dados
29. Como os pesquisadores
compartilham os dados
► Quantos? 36% só compartilha privado
► Como? 65% por email e 39% nas nuvens
► Onde? Revistas científicas como informações suplementares (51%),
sites pessoais (27%) e repositórios (25%)
https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf
Quem compartilha?
29
Qual o
Problema?
30. Quais dados podem ser publicados?
► Dados antigos
► Dados já utilizados em um artigo
► dados associados a um artigo de alto impacto
► Dados de um único experimento
Quando pode ser publicado?
► Depois da análise de dados ser publicada
► Antes da análise de dados ser publicada
► Junto com a publicação da análise de dados
► Quando o autor não tem intenção de publicar o artigo tradicional
Onde publicar?
30
32. Artigo de dados
► Artigo de dados apenas descreve o dataset e normalmente não
inclui nenhuma interpretação ou discussão acerca dos dados
► As revistas normalmente requerem o depósito em um repositório de
dados
► Nem todos exigem análise, interpretação e conclusão
► Não tem o foco na geração de dados e nem nos métodos
► Não existe teste de hipótese
Onde publicar?
32
33. Exemplo de um artigo de dados
Abstract
Especificações
Valor dos dados
Dados
Design experimento, materiais
e métodos
Local dos dados
Onde publicar?
33
34. Artigo de dados - achar revista compatível
com seu projeto/bolso
► Biodiversity data jornal - https://bdj.pensoft.net/
► BMC research notes - https://bmcresnotes.biomedcentral.com/
► Data science Journal - https://datascience.codata.org/
► Data in Brief - https://www.journals.elsevier.com/data-in-brief
► Earth System Science Data - https://www.earth-system-science-data.net/
► Giga Science - https://gigascience.biomedcentral.com/
► Journal of open humanities data -https://openhumanitiesdata.metajnl.com/
► Journal of big data - https://journalofbigdata.springeropen.com/
► Research data journal for the humanities and social sciences -
https://brill.com/view/journals/rdj/rdj-overview.xml
► Scientifica data - https://www.nature.com/sdata/
34
Scientific data - submission guidelines
https://www.nature.com/sdata/publish/submission-guidelines
36. Referências
► Workshop IDRC - Open data initiative
► Material sobre data sharing da Nature research -
https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-
research-data
Referências
36
38. Copyright license information:
No rights reserved; you may enhance and reuse for
your own purposes. We do ask that you provide
appropriate citation and attribution to DataONE.