SlideShare uma empresa Scribd logo
1 de 38
Gestão de Dados
dataset
2021
Curso de Difusão - USP
NPT – Núcleo de pesquisas em
tecnologias e ambientes educacionais
www.npt.com.br
José Dutra de Oliveira Neto
patrocinado pelo projeto Open Data initiative - IDRC
Agenda
► Crise de replicação
► Compartilhamento de dados
► Repositório
► Dados sensitivos
► Onde publicar?
► Dataset
► Artigo de Dados
Agenda
2
Crise de replicabilidade/
reprodutibilidade da pesquisa?
Crise
Erro, falseamento de dados, omissão e manipulação ameaçam a qualidade das pesquisas
3
Crise de replicabilidade/ reprodutibilidade
da pesquisa?
In 1992, philosopher Karl Popper wrote: “Science may be described as the art
of systematic oversimplification — the art of discerning what we may with
advantage omit.”
Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you
can’, not ‘catch me if you can’.
Crise
4
Replicabilidade/ reprodutibilidade
► A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas
anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são
construídos sobre resultados das pesquisas anteriores.
► Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos
escassos e compromete a confiança na ciência
► Replicabilidade/ reprodutibilidade e transparência são temas importantes para a
ciência
► “Reproducibility” refers to independent researchers arriving at the same results using their own data and methods, while “replicability” refers to a
different team arriving at the same results using the original author's artifacts.
► https://www.ncbi.nlm.nih.gov/books/NBK547546/
https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web
Crise
5
Replicabilidade/ reprodutibilidade : É um problema?
► More than 70% of researchers have tried and
failed to reproduce another scientist's
experiments, and more than half have failed to
reproduce their own experiments. Those are some
of the telling figures that emerged from Nature's
survey of 1,576 researchers who took a brief online
questionnaire on reproducibility in research (2016)
► https://www.nature.com/news/1-500-scientists-lift-
the-lid-on-reproducibility-1.19970
Crise
6
Existe uma crise de replicabilidade/ reprodutibilidade na
pesquisa?
► Sim, existe uma crise significativa
► Sim, existe um crise pequena
► Não existe esta crise
► Não sei
Responda aqui: https://www.menti.com/udarxro5z5
Crise
7
Existe uma crise de replicabilidade/ reprodutibilidade ?
https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Crise
Detalhando mais...
8
Potenciais causas do problema com a
replicabilidade/ reprodutibilidade
Crise
9
A maior explicação para a não repetibilidade
foi a indisponibilidade dos dados (nature genetics)
https://www.nature.com/articles/ng.295/figures/1?pr
oof=true
Crise
10
Iniciativas das revistas
► Seção de métodos limitados
► Não limitar o tamanho da seção de métodos
► Lançamento de artigos no formato de métodos (Wellcome Open
Research- https://wellcomeopenresearch.org/browse/articles - Method
Articles)
► Falta de estatísticas adequadas
► Fornecer instruções ou guias para relatar as formas de descrever as
estatísticas
Crise
11
Por que publicar os dados?
Vantagens?
► Crédito pela publicação indexada e citável
► Acesso aberto (Ex: Licença tipo Creative Commons)
► Validade a pesquisa
► Garantir a reprodução da pesquisa acadêmica
► Promover comportamentos éticos na pesquisa
► Melhorar a reputação da instituição ou mesmo pessoal
Por que publicar?
12
Artigo de dados
Repositório de dados
Alguns financiadores e editores já estão exigindo o
compartilhamento dos dados da pesquisa
https://dataservices.gfz-
potsdam.de/portal/drr.html
Compartilhar
13
Repositório de dados
Repositório
14
Repositório – Para que?
► Disseminar dados para outros pesquisadores
► Incentivar o reuso
► Facilitar acesso
► Exemplo: Figshare - https://figshare.com/
Repositório
15
https://doi.org/10.6084/m9.figshare.12195075
Repositório x Website
Website ?
Repositório
Repositório
Organização
padrão
Facilita
procura e
inclui
metadados
Preserva
data por
longo tempo
Acesso
centralizado
por tema ou
área
Website
Organização
padrão
Facilita
procura e
inclui
metadados
Preserva
data por
longo tempo
Acesso
centralizado
por tema ou
área
16
Publicar o DMP no repositório de dados -> Lattes
► Por área
► Worldwide Protein Data Bank : http://www.wwpdb.org/,
► The Cancer Imaging Archive; https://www.cancerimagingarchive.net/collections/,
► DataMed (https://datamed.org/),
► GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/,
► Zenodo - https://zenodo.org/.
► Geral
► Figshare : https://figshare.com/,
► Purdue :https://purr.purdue.edu/,
► Dryad: https://datadryad.org/stash ,
► Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse,
► Google dataset search https://datasetsearch.research.google.com/ ,
► PANGAEA (https://www.pangaea.de/), https://www.mendeley.com/)
17
Entrar no meu plano-> https://dmponline.dcc.ac.uk/plans
Repositório – como citar
https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data
Onde publicar?
18
de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data on the Open Educational Resources
differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020).
Seus dados são sensitivos ?
Dados Sensitivos
19
Estão seguros?
Dados sensitivos
► Dados que identificam as pessoas ou organização
► Diretos – Nome, assinatura, telefone, foto, digital
► Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de
nascimento, raça, características incomuns (doença rara, empregos específicos e
raros)
► Alguns dados protegidos pelas legislação vigente
► Dados comerciais sensitivos
Dados Sensitivos
20
Dados sensitivos: Riscos
► Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou
organizações?
► Se combinar diversos datasets é possível identificar pessoas ou organizações?
► Existem aspectos legais ou éticos que limitam o seu compartilhamento?
► A publicação pode prejudicar alguém?
Dados Sensitivos
21
Algum risco?
► It was found that 87% (216 million of 248 million) of the population in
the United States had reported characteristics that likely made them
unique based only on {5-digit ZIP, gender, date of birth}.
► About half of the U.S. population (132 million of 248 million or 53%)
are likely to be uniquely identified by only {place, gender, date of
birth}, where place is basically the city, town, or municipality in
which the person resides.
► And even at the county level, {county, gender, date of birth} are
likely to uniquely identify 18% of the U.S. population. In general, few
characteristics are needed to uniquely identify a person.
Fonte:
https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half%
20of%20the%20U.S.,in%20which%20the%20person%20resides.
Dados Sensitivos
22
Como proteger dados sensitivos?
► Comitê de ética interno e plataforma Brasil (Plataforma Brasil
(saude.gov.br))
► Agregar os dados para tornar mais seguros
► Acesso controlado ao repositório?
► Pedir autorização aos participantes
► Anonimizar ou de-identificar os dados
► Fechar o acesso até a morte dos participantes
Dados Sensitivos
23
Caso Netflix
► On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix
Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a
dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December
1999 and December 2005.
► Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she
liked them or not, maybe even approximate dates when she watched them.
► Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by
privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify
individual users by matching the data sets with film ratings on the Internet Movie Database[29][30]
uncovering their apparent political preferences and other potentially sensitive information.
► On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had
violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was
public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement
with the plaintiffs, after which they voluntarily dismissed the lawsuit
► On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had
announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission
privacy concerns.[28]
Dados Sensitivos
24
Dados sensitivos: Planejamento
► Comitê de ética
► Plano
► Permissão para coleta – Consent form[https://tinyurl.com/yxmwrvl4 ]
► Guardar permissão com data de aceite
► Descrição detalhada e clara
► Deixar claro que a coleta é opcional
► Deixar claro que os respondentes podem desistir a qualquer momento
► Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância)
► Esclarecer o que e como vai usar os dados
► Identificar o repositório oficial onde ficará hospedado os dados
► Plano de armazenamento e gestão dos dados
► Tipo de permissão para reuso : deixar claro
► Metadados, descrição e dados de contato
Dados Sensitivos
25
Remover identificadores de dados
sensitivos
► Anonimação - definitivo
► De-identificação – Pode ser revertido com o processo de re-
identificação. Pode ser usado para estudos longitudinais.
Documentar todo o processo!
► Diminuir risco
► Eliminar identificadores
► Substituir identificadores
► Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e
Ribeirão Preto por Estado de São Paulo
► Substituir caracteres por * . E****.I****. (nome da escola)
► Morte? Mudança de Lei?
Dados Sensitivos
26
Compartilhar dados sensitivos qualitativos
► Como anonimizar?
► Textual
► Áudio
► Vídeo
► Pseudônimos
► Remover trechos
► Alterar trechos
► Acesso controlado dos dados
► Embargo
Dados Sensitivos
27
Quem compartilha ?
Link responda agora -
https://www.menti.com/duu3v74gtw
Quem compartilha?
28
Não compartilho os meus dados
Sim, compartilho só de modo privado
Sim, compartilho via email
Sim, compartilho nas nuvens
Sim, compartilho como dados complementares em revistas científicas
Sim, compartilho em sites pessoais ou corporativos
Sim, compartilho em repositórios públicos ou privados
Sim, compartilho em artigo de dados
Como os pesquisadores
compartilham os dados
► Quantos? 36% só compartilha privado
► Como? 65% por email e 39% nas nuvens
► Onde? Revistas científicas como informações suplementares (51%),
sites pessoais (27%) e repositórios (25%)
https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf
Quem compartilha?
29
Qual o
Problema?
Quais dados podem ser publicados?
► Dados antigos
► Dados já utilizados em um artigo
► dados associados a um artigo de alto impacto
► Dados de um único experimento
Quando pode ser publicado?
► Depois da análise de dados ser publicada
► Antes da análise de dados ser publicada
► Junto com a publicação da análise de dados
► Quando o autor não tem intenção de publicar o artigo tradicional
Onde publicar?
30
E o “artigo” de dados?
Onde publicar?
31
Artigo de dados
► Artigo de dados apenas descreve o dataset e normalmente não
inclui nenhuma interpretação ou discussão acerca dos dados
► As revistas normalmente requerem o depósito em um repositório de
dados
► Nem todos exigem análise, interpretação e conclusão
► Não tem o foco na geração de dados e nem nos métodos
► Não existe teste de hipótese
Onde publicar?
32
Exemplo de um artigo de dados
Abstract
Especificações
Valor dos dados
Dados
Design experimento, materiais
e métodos
Local dos dados
Onde publicar?
33
Artigo de dados - achar revista compatível
com seu projeto/bolso
► Biodiversity data jornal - https://bdj.pensoft.net/
► BMC research notes - https://bmcresnotes.biomedcentral.com/
► Data science Journal - https://datascience.codata.org/
► Data in Brief - https://www.journals.elsevier.com/data-in-brief
► Earth System Science Data - https://www.earth-system-science-data.net/
► Giga Science - https://gigascience.biomedcentral.com/
► Journal of open humanities data -https://openhumanitiesdata.metajnl.com/
► Journal of big data - https://journalofbigdata.springeropen.com/
► Research data journal for the humanities and social sciences -
https://brill.com/view/journals/rdj/rdj-overview.xml
► Scientifica data - https://www.nature.com/sdata/
34
Scientific data - submission guidelines
https://www.nature.com/sdata/publish/submission-guidelines
Obrigado
DUTRA@USP.BR
Material disponível no Slideserve
35
Referências
► Workshop IDRC - Open data initiative
► Material sobre data sharing da Nature research -
https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-
research-data
Referências
36
Repositório
► Slides no servidor slideserve - https://www.slideserve.com/
37
Copyright license information:
No rights reserved; you may enhance and reuse for
your own purposes. We do ask that you provide
appropriate citation and attribution to DataONE.

Mais conteúdo relacionado

Semelhante a Pos FEA - USP - 2021

Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Pedro Príncipe
 
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...André Ribeiro
 
Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosCariniana Rede
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosLiber UFPE
 
Apresentacao fea gestao de dados agosto 2019
Apresentacao  fea gestao de dados agosto 2019Apresentacao  fea gestao de dados agosto 2019
Apresentacao fea gestao de dados agosto 2019Ícaro Augusto
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no MercadoJoel Pinho Lucas
 
Boas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosBoas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosCentro Web
 
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...http://bvsalud.org/
 
Gestão de Dados Científicos e seu Ciclo de Vida
Gestão de Dados Científicos e seu Ciclo de VidaGestão de Dados Científicos e seu Ciclo de Vida
Gestão de Dados Científicos e seu Ciclo de VidaDaniel Lins da Silva
 
PPGGI Ricardo Mendes Jr 2018
PPGGI Ricardo Mendes Jr 2018PPGGI Ricardo Mendes Jr 2018
PPGGI Ricardo Mendes Jr 2018Ricardo Mendes Jr
 
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”Clavis Segurança da Informação
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 

Semelhante a Pos FEA - USP - 2021 (20)

Dmp h2020 v6
Dmp h2020 v6Dmp h2020 v6
Dmp h2020 v6
 
A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...A construção do plano de dados abertos de uma organização pública de pesquisa...
A construção do plano de dados abertos de uma organização pública de pesquisa...
 
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
 
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
 
Semeando saberes e inspirando soluções: Dimensões informacionais interdiscipl...
Semeando saberes e inspirando soluções: Dimensões informacionais interdiscipl...Semeando saberes e inspirando soluções: Dimensões informacionais interdiscipl...
Semeando saberes e inspirando soluções: Dimensões informacionais interdiscipl...
 
Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados Científicos
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificos
 
Apresentacao fea gestao de dados agosto 2019
Apresentacao  fea gestao de dados agosto 2019Apresentacao  fea gestao de dados agosto 2019
Apresentacao fea gestao de dados agosto 2019
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
Boas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosBoas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e Benefícios
 
Dados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicaçãoDados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicação
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...
Sessão 06 de 06 - Criação de registros Multimídia (vídeos, imagens e apresent...
 
A Influência das Revistas Científicas de Acesso Aberto para o Depósito e Publ...
A Influência das Revistas Científicas de Acesso Aberto para o Depósito e Publ...A Influência das Revistas Científicas de Acesso Aberto para o Depósito e Publ...
A Influência das Revistas Científicas de Acesso Aberto para o Depósito e Publ...
 
Gestão de Dados Científicos e seu Ciclo de Vida
Gestão de Dados Científicos e seu Ciclo de VidaGestão de Dados Científicos e seu Ciclo de Vida
Gestão de Dados Científicos e seu Ciclo de Vida
 
PPGGI Ricardo Mendes Jr 2018
PPGGI Ricardo Mendes Jr 2018PPGGI Ricardo Mendes Jr 2018
PPGGI Ricardo Mendes Jr 2018
 
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”
V SEGINFO - “Recuperando Dados (Data Carving) em Mídias e em Redes”
 
Ecossistema de Uso dos dados abertos
Ecossistema de Uso dos dados abertosEcossistema de Uso dos dados abertos
Ecossistema de Uso dos dados abertos
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 

Mais de dutra2009

Soft skills in Accounting
Soft skills in AccountingSoft skills in Accounting
Soft skills in Accountingdutra2009
 
Problem based learning (PBL) in accounting
Problem based learning (PBL)  in accountingProblem based learning (PBL)  in accounting
Problem based learning (PBL) in accountingdutra2009
 
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiências
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando ExperiênciasUso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiências
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiênciasdutra2009
 
Projeto enem 2019
Projeto enem 2019Projeto enem 2019
Projeto enem 2019dutra2009
 
Audio or text ?
Audio or text ?Audio or text ?
Audio or text ?dutra2009
 
Active Methodology in Accounting
Active Methodology in AccountingActive Methodology in Accounting
Active Methodology in Accountingdutra2009
 
CIL Model for online design
CIL Model for online designCIL Model for online design
CIL Model for online designdutra2009
 
Projeto rea abed_21_set_2016_sala07_14h30
Projeto rea abed_21_set_2016_sala07_14h30Projeto rea abed_21_set_2016_sala07_14h30
Projeto rea abed_21_set_2016_sala07_14h30dutra2009
 
Flipped class aaa2016_ny_dutra
Flipped class aaa2016_ny_dutraFlipped class aaa2016_ny_dutra
Flipped class aaa2016_ny_dutradutra2009
 
Sala Invertida 2.0
Sala Invertida 2.0Sala Invertida 2.0
Sala Invertida 2.0dutra2009
 
OER Global South
OER Global SouthOER Global South
OER Global Southdutra2009
 
State of the art literature review on ...
State of the art literature review on ...State of the art literature review on ...
State of the art literature review on ...dutra2009
 
Self-, peer-, and instructor-assessment from Bloom’s perspective
Self-, peer-, and instructor-assessment from Bloom’s perspective Self-, peer-, and instructor-assessment from Bloom’s perspective
Self-, peer-, and instructor-assessment from Bloom’s perspective dutra2009
 
OER differentiation
OER differentiationOER differentiation
OER differentiationdutra2009
 

Mais de dutra2009 (15)

Fapesp.pptx
Fapesp.pptxFapesp.pptx
Fapesp.pptx
 
Soft skills in Accounting
Soft skills in AccountingSoft skills in Accounting
Soft skills in Accounting
 
Problem based learning (PBL) in accounting
Problem based learning (PBL)  in accountingProblem based learning (PBL)  in accounting
Problem based learning (PBL) in accounting
 
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiências
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando ExperiênciasUso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiências
Uso de Recursos Tecnológicos e Metodologias Ativas: Compartilhando Experiências
 
Projeto enem 2019
Projeto enem 2019Projeto enem 2019
Projeto enem 2019
 
Audio or text ?
Audio or text ?Audio or text ?
Audio or text ?
 
Active Methodology in Accounting
Active Methodology in AccountingActive Methodology in Accounting
Active Methodology in Accounting
 
CIL Model for online design
CIL Model for online designCIL Model for online design
CIL Model for online design
 
Projeto rea abed_21_set_2016_sala07_14h30
Projeto rea abed_21_set_2016_sala07_14h30Projeto rea abed_21_set_2016_sala07_14h30
Projeto rea abed_21_set_2016_sala07_14h30
 
Flipped class aaa2016_ny_dutra
Flipped class aaa2016_ny_dutraFlipped class aaa2016_ny_dutra
Flipped class aaa2016_ny_dutra
 
Sala Invertida 2.0
Sala Invertida 2.0Sala Invertida 2.0
Sala Invertida 2.0
 
OER Global South
OER Global SouthOER Global South
OER Global South
 
State of the art literature review on ...
State of the art literature review on ...State of the art literature review on ...
State of the art literature review on ...
 
Self-, peer-, and instructor-assessment from Bloom’s perspective
Self-, peer-, and instructor-assessment from Bloom’s perspective Self-, peer-, and instructor-assessment from Bloom’s perspective
Self-, peer-, and instructor-assessment from Bloom’s perspective
 
OER differentiation
OER differentiationOER differentiation
OER differentiation
 

Pos FEA - USP - 2021

  • 1. Gestão de Dados dataset 2021 Curso de Difusão - USP NPT – Núcleo de pesquisas em tecnologias e ambientes educacionais www.npt.com.br José Dutra de Oliveira Neto patrocinado pelo projeto Open Data initiative - IDRC
  • 2. Agenda ► Crise de replicação ► Compartilhamento de dados ► Repositório ► Dados sensitivos ► Onde publicar? ► Dataset ► Artigo de Dados Agenda 2
  • 3. Crise de replicabilidade/ reprodutibilidade da pesquisa? Crise Erro, falseamento de dados, omissão e manipulação ameaçam a qualidade das pesquisas 3
  • 4. Crise de replicabilidade/ reprodutibilidade da pesquisa? In 1992, philosopher Karl Popper wrote: “Science may be described as the art of systematic oversimplification — the art of discerning what we may with advantage omit.” Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you can’, not ‘catch me if you can’. Crise 4
  • 5. Replicabilidade/ reprodutibilidade ► A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são construídos sobre resultados das pesquisas anteriores. ► Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos escassos e compromete a confiança na ciência ► Replicabilidade/ reprodutibilidade e transparência são temas importantes para a ciência ► “Reproducibility” refers to independent researchers arriving at the same results using their own data and methods, while “replicability” refers to a different team arriving at the same results using the original author's artifacts. ► https://www.ncbi.nlm.nih.gov/books/NBK547546/ https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web Crise 5
  • 6. Replicabilidade/ reprodutibilidade : É um problema? ► More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments. Those are some of the telling figures that emerged from Nature's survey of 1,576 researchers who took a brief online questionnaire on reproducibility in research (2016) ► https://www.nature.com/news/1-500-scientists-lift- the-lid-on-reproducibility-1.19970 Crise 6
  • 7. Existe uma crise de replicabilidade/ reprodutibilidade na pesquisa? ► Sim, existe uma crise significativa ► Sim, existe um crise pequena ► Não existe esta crise ► Não sei Responda aqui: https://www.menti.com/udarxro5z5 Crise 7
  • 8. Existe uma crise de replicabilidade/ reprodutibilidade ? https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970 Crise Detalhando mais... 8
  • 9. Potenciais causas do problema com a replicabilidade/ reprodutibilidade Crise 9
  • 10. A maior explicação para a não repetibilidade foi a indisponibilidade dos dados (nature genetics) https://www.nature.com/articles/ng.295/figures/1?pr oof=true Crise 10
  • 11. Iniciativas das revistas ► Seção de métodos limitados ► Não limitar o tamanho da seção de métodos ► Lançamento de artigos no formato de métodos (Wellcome Open Research- https://wellcomeopenresearch.org/browse/articles - Method Articles) ► Falta de estatísticas adequadas ► Fornecer instruções ou guias para relatar as formas de descrever as estatísticas Crise 11
  • 12. Por que publicar os dados? Vantagens? ► Crédito pela publicação indexada e citável ► Acesso aberto (Ex: Licença tipo Creative Commons) ► Validade a pesquisa ► Garantir a reprodução da pesquisa acadêmica ► Promover comportamentos éticos na pesquisa ► Melhorar a reputação da instituição ou mesmo pessoal Por que publicar? 12 Artigo de dados Repositório de dados
  • 13. Alguns financiadores e editores já estão exigindo o compartilhamento dos dados da pesquisa https://dataservices.gfz- potsdam.de/portal/drr.html Compartilhar 13
  • 15. Repositório – Para que? ► Disseminar dados para outros pesquisadores ► Incentivar o reuso ► Facilitar acesso ► Exemplo: Figshare - https://figshare.com/ Repositório 15 https://doi.org/10.6084/m9.figshare.12195075
  • 16. Repositório x Website Website ? Repositório Repositório Organização padrão Facilita procura e inclui metadados Preserva data por longo tempo Acesso centralizado por tema ou área Website Organização padrão Facilita procura e inclui metadados Preserva data por longo tempo Acesso centralizado por tema ou área 16
  • 17. Publicar o DMP no repositório de dados -> Lattes ► Por área ► Worldwide Protein Data Bank : http://www.wwpdb.org/, ► The Cancer Imaging Archive; https://www.cancerimagingarchive.net/collections/, ► DataMed (https://datamed.org/), ► GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/, ► Zenodo - https://zenodo.org/. ► Geral ► Figshare : https://figshare.com/, ► Purdue :https://purr.purdue.edu/, ► Dryad: https://datadryad.org/stash , ► Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse, ► Google dataset search https://datasetsearch.research.google.com/ , ► PANGAEA (https://www.pangaea.de/), https://www.mendeley.com/) 17 Entrar no meu plano-> https://dmponline.dcc.ac.uk/plans
  • 18. Repositório – como citar https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data Onde publicar? 18 de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data on the Open Educational Resources differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020).
  • 19. Seus dados são sensitivos ? Dados Sensitivos 19 Estão seguros?
  • 20. Dados sensitivos ► Dados que identificam as pessoas ou organização ► Diretos – Nome, assinatura, telefone, foto, digital ► Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de nascimento, raça, características incomuns (doença rara, empregos específicos e raros) ► Alguns dados protegidos pelas legislação vigente ► Dados comerciais sensitivos Dados Sensitivos 20
  • 21. Dados sensitivos: Riscos ► Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou organizações? ► Se combinar diversos datasets é possível identificar pessoas ou organizações? ► Existem aspectos legais ou éticos que limitam o seu compartilhamento? ► A publicação pode prejudicar alguém? Dados Sensitivos 21
  • 22. Algum risco? ► It was found that 87% (216 million of 248 million) of the population in the United States had reported characteristics that likely made them unique based only on {5-digit ZIP, gender, date of birth}. ► About half of the U.S. population (132 million of 248 million or 53%) are likely to be uniquely identified by only {place, gender, date of birth}, where place is basically the city, town, or municipality in which the person resides. ► And even at the county level, {county, gender, date of birth} are likely to uniquely identify 18% of the U.S. population. In general, few characteristics are needed to uniquely identify a person. Fonte: https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half% 20of%20the%20U.S.,in%20which%20the%20person%20resides. Dados Sensitivos 22
  • 23. Como proteger dados sensitivos? ► Comitê de ética interno e plataforma Brasil (Plataforma Brasil (saude.gov.br)) ► Agregar os dados para tornar mais seguros ► Acesso controlado ao repositório? ► Pedir autorização aos participantes ► Anonimizar ou de-identificar os dados ► Fechar o acesso até a morte dos participantes Dados Sensitivos 23
  • 24. Caso Netflix ► On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December 1999 and December 2005. ► Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she liked them or not, maybe even approximate dates when she watched them. ► Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify individual users by matching the data sets with film ratings on the Internet Movie Database[29][30] uncovering their apparent political preferences and other potentially sensitive information. ► On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement with the plaintiffs, after which they voluntarily dismissed the lawsuit ► On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission privacy concerns.[28] Dados Sensitivos 24
  • 25. Dados sensitivos: Planejamento ► Comitê de ética ► Plano ► Permissão para coleta – Consent form[https://tinyurl.com/yxmwrvl4 ] ► Guardar permissão com data de aceite ► Descrição detalhada e clara ► Deixar claro que a coleta é opcional ► Deixar claro que os respondentes podem desistir a qualquer momento ► Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância) ► Esclarecer o que e como vai usar os dados ► Identificar o repositório oficial onde ficará hospedado os dados ► Plano de armazenamento e gestão dos dados ► Tipo de permissão para reuso : deixar claro ► Metadados, descrição e dados de contato Dados Sensitivos 25
  • 26. Remover identificadores de dados sensitivos ► Anonimação - definitivo ► De-identificação – Pode ser revertido com o processo de re- identificação. Pode ser usado para estudos longitudinais. Documentar todo o processo! ► Diminuir risco ► Eliminar identificadores ► Substituir identificadores ► Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e Ribeirão Preto por Estado de São Paulo ► Substituir caracteres por * . E****.I****. (nome da escola) ► Morte? Mudança de Lei? Dados Sensitivos 26
  • 27. Compartilhar dados sensitivos qualitativos ► Como anonimizar? ► Textual ► Áudio ► Vídeo ► Pseudônimos ► Remover trechos ► Alterar trechos ► Acesso controlado dos dados ► Embargo Dados Sensitivos 27
  • 28. Quem compartilha ? Link responda agora - https://www.menti.com/duu3v74gtw Quem compartilha? 28 Não compartilho os meus dados Sim, compartilho só de modo privado Sim, compartilho via email Sim, compartilho nas nuvens Sim, compartilho como dados complementares em revistas científicas Sim, compartilho em sites pessoais ou corporativos Sim, compartilho em repositórios públicos ou privados Sim, compartilho em artigo de dados
  • 29. Como os pesquisadores compartilham os dados ► Quantos? 36% só compartilha privado ► Como? 65% por email e 39% nas nuvens ► Onde? Revistas científicas como informações suplementares (51%), sites pessoais (27%) e repositórios (25%) https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf Quem compartilha? 29 Qual o Problema?
  • 30. Quais dados podem ser publicados? ► Dados antigos ► Dados já utilizados em um artigo ► dados associados a um artigo de alto impacto ► Dados de um único experimento Quando pode ser publicado? ► Depois da análise de dados ser publicada ► Antes da análise de dados ser publicada ► Junto com a publicação da análise de dados ► Quando o autor não tem intenção de publicar o artigo tradicional Onde publicar? 30
  • 31. E o “artigo” de dados? Onde publicar? 31
  • 32. Artigo de dados ► Artigo de dados apenas descreve o dataset e normalmente não inclui nenhuma interpretação ou discussão acerca dos dados ► As revistas normalmente requerem o depósito em um repositório de dados ► Nem todos exigem análise, interpretação e conclusão ► Não tem o foco na geração de dados e nem nos métodos ► Não existe teste de hipótese Onde publicar? 32
  • 33. Exemplo de um artigo de dados Abstract Especificações Valor dos dados Dados Design experimento, materiais e métodos Local dos dados Onde publicar? 33
  • 34. Artigo de dados - achar revista compatível com seu projeto/bolso ► Biodiversity data jornal - https://bdj.pensoft.net/ ► BMC research notes - https://bmcresnotes.biomedcentral.com/ ► Data science Journal - https://datascience.codata.org/ ► Data in Brief - https://www.journals.elsevier.com/data-in-brief ► Earth System Science Data - https://www.earth-system-science-data.net/ ► Giga Science - https://gigascience.biomedcentral.com/ ► Journal of open humanities data -https://openhumanitiesdata.metajnl.com/ ► Journal of big data - https://journalofbigdata.springeropen.com/ ► Research data journal for the humanities and social sciences - https://brill.com/view/journals/rdj/rdj-overview.xml ► Scientifica data - https://www.nature.com/sdata/ 34 Scientific data - submission guidelines https://www.nature.com/sdata/publish/submission-guidelines
  • 36. Referências ► Workshop IDRC - Open data initiative ► Material sobre data sharing da Nature research - https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing- research-data Referências 36
  • 37. Repositório ► Slides no servidor slideserve - https://www.slideserve.com/ 37
  • 38. Copyright license information: No rights reserved; you may enhance and reuse for your own purposes. We do ask that you provide appropriate citation and attribution to DataONE.