Au cours des dernières années, la crise de la reproductibilité est devenu un sujet récurrent dans presque tous les domaines de la recherche scientifique. En effet, un grand nombre d'études scientifiques publiées se sont avérées non reproductibles : d'autres chercheurs ont répété les travaux décrits, mais n'ont réussi, ou ont obtenu des résultats différents. Ceci crée un doute sur la fiabilité des résultats de la recherche, et laisse soupçonner une négligence généralisée ou même des tentatives de fraude. Mais la réalité est plus compliquée : le même terme "reproductibilité" désigne des caractéristiques très différents quand il est appliqué aux expériences, aux inférences statistiques, et aux calculs. Bien que la reproductibilité soit toujours désirable en principe, sa défaillance indique des problèmes de fond très différents, et pas toujours attribuables à des fautes professionnelles. Je vais essayer de démêler les différents types de reproductibilité afin d'aider à l'appréciation de la problématique, qui est un premier pas nécessaire à une amélioration de la qualité de nos recherches.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Expérience, statistique, calcul : La trinité de la reproductibilité scientifique
1. Exp´erience, statistique, calcul:
La trinit´e de la reproductibilit´e scientifique
Konrad HINSEN
Centre de Biophysique Mol´eculaire, Orl´eans, France
Synchrotron SOLEIL, Saint Aubin, France
11 octobre 2019
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 1 / 31
2. La science doit ˆetre v´erifiable
La nature humaine
L’erreur est humaine.
Les biais personnels sont en conflit avec la recherche de la v´erit´e.
La m´ethode scientifique
Un processus collectif pour ´eliminer les erreurs et biais individuels, grˆace
`a une v´erification continue par les pairs.
Une r`egle fondamentale
Les affirmations non v´erifiables sont irrecevables.
D´ecrire les exp´eriences en d´etail pour qu’on puisse les refaire.
Expliquer les raisonnements assez bien pour qu’un lecteur puisse les
suivre pas par pas.
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 2 / 31
3. Techniques de v´erification
Reproduction
Refaire toutes les ´etapes `a l’identique
Comparer les r´esultats
R´eplication
Refaire en respectant les principes mais en variant les techniques
... par n´ecessit´e ou par choix
Comparer les r´esultats
Attention : pas de consensus sur la terminologie !
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 3 / 31
4. La crise de la reproductibilit´e
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 4 / 31
5. La crise de la reproductibilit´e
52%
Yes, a significant
crisis
3%
No, there is no crisis
7%
Don’t know
38%
Yes, a slight
crisis
38%
Yes, a slight
crisis
1,576
RESEARCHERS SURVEYED
M
ore than 70% of researchers have tried and failed to
reproduce another scientist’s experiments, and more
than half have failed to reproduce their own experi-
ments. Those are some of the telling figures that
emerged from Nature’s survey of 1,576 researchers
Failing to reproduce results is a rite of passage, says Marcus Munafo, a
biological psychologist at the University of Bristol, UK, who has a long-
standing interest in scientific reproducibility. When he was a student,
he says, “I tried to replicate what looked simple from the literature, and
wasn’t able to. Then I had a crisis of confidence, and then I learned that
BY MONYA BAKER
IS THERE A
REPRODUCIBILITY
CRISIS?A Nature survey lifts the lid on
how researchers view the ‘crisis’
rocking science and what they
think will help.
M. Baker, Nature, 2016
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 5 / 31
6. Biophysique : les d´eplacements chimiques al´eatoires
Characterization of Leptazolines A−D, Polar Oxazolines from the
Cyanobacterium Leptolyngbya sp., Reveals a Glitch with the
“Willoughby−Hoye” Scripts for Calculating NMR Chemical Shifts
Jayanti Bhandari Neupane, Ram P. Neupane, Yuheng Luo, Wesley Y. Yoshida, Rui Sun,
and Philip G. Williams*
Department of Chemistry, University of Hawai‘i at Ma̅noa, 2545 McCarthy Mall, Honolulu, Hawaii 96822, United States
*S Supporting Information
ABSTRACT: The bioactivity-guided examination of a Leptolyngbya sp.
led to the isolation of leptazolines A−D (1−4 ), from the culture media,
along with two degradation products (5 and 6 ). Density functional theory
nuclear magnetic resonance calculations established the relative
configurations of 1 and 2 and revealed that the calculated shifts depended
on the operating system when using the “Willoughby−Hoye” Python
scripts to streamline the processing of the output files, a previously
unrecognized flaw that could lead to incorrect conclusions.
As part of our long-standing interest in cyanobacterial
natural products, we recently began screening strains
within our culture collection against pancreatic adenocarcinoma
(PANCA).1
This screen flagged several media extracts. Whereas
mean average error (MAE) of the calculated 13
C NMR shifts
given the other possible isomers (Table S2).
Letter
pubs.acs.org/OrgLettCite This: Org. Lett. XXXX, XXX, XXX−XXX
NRSINConOctober9,2019at18:45:24(UTC).
linesforoptionsonhowtolegitimatelysharepublishedarticles.
J.B. Neupane et al., Organic Letters, 2019
“Published in 2014, this Nature Protocols manuscript provides detailed
instructions aimed at enabling those with minimal theoretical knowledge of
the subject area to calculate gauge- including atomic orbital (GIAO) NMR
chemical shifts and includes Python scripts to streamline the process. It
has been cited over 130 times in the last 5 years.”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 6 / 31
7. Biophysique : les fausses structures de prot´eines
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 7 / 31
8. Biophysique : les fausses structures de prot´eines
COMMENTARY
Five retracted structure reports: Inverted or incorrect?
BRIAN W. MATTHEWS
Institute of Molecular Biology, Howard Hughes Medical Institute, and Department of Physics, University of Oregon,
Eugene, Oregon 97403, USA
Recently, Chang et al. (2006) withdrew five articles that
included reports of the structure of the ABC transporter
MsbA (Chang and Roth 2001) and the EmrE multidrug
transporter in complex with a substrate (Pornillos et al.
2005). The stated reason for the retractions was as
follows: ‘‘An in-house data reduction program, which
was not part of a conventional data processing package,
converted the anomalous pairs (I+ and IÀ) to (FÀ and F+),
thereby introducing a sign change. As the diffraction data
collected for each set of MsbA crystals and for the EmrE
crystals were processed with the same program the
structures reported. . .had the wrong hand.’’
The purpose of the present commentary is to point out
that the interconversion of F+ and FÀ does not, in general,
lead to an inverted structure. Rather, it leads to a ‘‘non-
sense’’ electron density map that has no relation to the
true structure or to its mirror image. There are special
increasingly difficult. Procedures in which multiple cop-
ies of the protein are refined (Chang and Roth 2001) can
improve refinement statistics but are of questionable
validity with low-resolution data in that they increase
what is already a very unfavorable ratio of model param-
eters to X-ray observations.
The atoms in a crystal can be considered as lying on
sets of parallel planes, each set of planes being identified
by three integers, h, k, and l. F(h,k,l) gives the amplitude
of X-rays scattered from the ‘‘front-side’’ of the (h,k,l)
planes and F(Àh,Àk,Àl) the amplitude of scattering from
the ‘‘back-side’’ of the same planes. F(h,k,l) and
F(Àh,Àk,Àl) are often abbreviated as F+ and FÀ. If a
protein crystal contains only light atoms such as hydro-
gen, oxygen, etc., the amplitudes F+ and FÀ will be iden-
tical. If, on the other hand, the protein crystal includes
heavy atoms such as mercury or selenium, then F+ and FÀ
BW Matthews, Protein Science, 2007
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 8 / 31
9. Physique de la mati`ere : le myst`ere de l’eau surrefroidie
A.G. Smart, Physics Today, 2018
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 9 / 31
10. ´Economie : la base de la politique d’aust´erit´e
C.M. Reinhart & K.S. Rogoff, American Economic Review, 2010
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 10 / 31
11. ´Economie : la base de la politique d’aust´erit´e
T. Herndon, M. Ash, R. Pollin, Cambridge Journal of Economics, 2014
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 11 / 31
12. G´en´etique : des analyses non reproductibles
Ioannidis et al.
Repeatability of published microarray gene expression analyses
Nature Genetics 41, 149-155 (2009)
A N A LY S I S
Can reproduce partially with some
discrepancies
Can reproduce with some
discrepancies
Can reproduce in principle
Can reproduce
from processed data
with some discrepancies Different result
Methods unclear
Software not available
Data not availableCannot reproduce
Figure 1 Summary of the efforts to replicate the published analyses.Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 12 / 31
13. Psychologie : pas facile d’adopter des bonnes pratiques
D. Adam, Science 23 May 2019
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 13 / 31
14. Recherche m´edicale : tout est faux ?
J.P.A. Ioannidis, PLoS Medicine, 2005
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 14 / 31
15. L’avis d’un jeune prix Nobel
W.G. Kaelin Jr, Nature, 2019Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 15 / 31
16. La trinit´e de la reproductibilit´e
Reproductibilit´e exp´erimentale
Refaire une exp´erience d’apr`es la description publi´ee
Obtenir des r´esultats suffisamment proches
Reproductibilit´e statistique
Refaire une ´etude avec un autre ´echantillon ou une autre technique
Inf´erer des conclusions suffisamment proches
Reproductibilit´e computationnelle
Refaire un calcul `a l’identique
Obtenir des r´esultats identiques
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 16 / 31
17. La reproductibilit´e exp´erimentale
Proc´ed´e
´Equipe A fait une exp´erience, publie les r´esultats
´Equipe B tente une reproduction ou r´eplication
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Une d´efaillance des instruments scientifiques
Une erreur dans l’ex´ecution
Une description incompl`ete ou erron´ee
Des donn´ees truqu´ees
Un facteur important pass´e inaper¸cu
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 17 / 31
18. La reproductibilit´e statistique
Proc´ed´e
´Equipe A fait une exp´erience sur un ´echantillon d’une population (de
personnes, souris, ´electrons, ...) et publie des inf´erences statistiques
´Equipe B tente une r´eplication
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Un ´echantillon trop petit
Une collecte ou s´election de donn´ees douteuse
(“p-hacking”, “HARKing”)
Des m´ethodes statistiques inadapt´ees ou mal appliqu´ees
Une description incompl`ete ou erron´ee
Des donn´ees truqu´ees
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 18 / 31
19. La reproductibilit´e computationnelle
Proc´ed´e
´Equipe A publie des r´esultats obtenus par ordinateur
´Equipe B tente une reproduction
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Une description incompl`ete ou erron´ee
(num´eros de version, d´ependances, ´etapes manuelles, ...)
Un calcul truqu´e
Particularit´es du calcul
D´eterminisme : aucun facteur inconnu n’intervient
D´efaillances mat´erielles extrˆemement rares
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 19 / 31
20. L’informatique dans la recherche
Omnipr´esent
“Recherche assist´ee par ordinateur” (RAO)
Tout le monde : analyse de donn´ees, visualisation
Sp´ecialistes : simulations, calculs complexes
`A ne pas oublier : les ordinateurs embarqu´es dans les instruments
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 20 / 31
21. La description des logiciels est tr`es insuffisante
“Pour analyser nos observations, nous avons appliqu´e des tech-
niques statistiques sophistiqu´ees impl´ement´ees en langage R.”
“Nous supposons qu’il s’agit d’artefacts introduits par les algo-
rithmes de pr´e-traitement int´egr´es dans les capteurs, qui ne sont
pas document´es.”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 21 / 31
22. Une (non-)reproductibilit´e peut en cacher une autre
Donn´ees exp´erimentales analys´ees par ordinateur
−→ reproductibilit´es exp´erimentale et computationnelle
Inf´erences statistiques faites par ordinateur
−→ reproductibilit´es statistique et computationnelle
Inf´erences statistiques bas´ees sur des donn´ees exp´erimentales
−→ reproductibilit´es exp´erimentale et statistique et computationnelle
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 22 / 31
23. Est-ce grave docteur ?
(Non-)reproductibilit´e exp´erimentale
Bien connue depuis des si`ecles
Globalement bien maˆıtris´ee
Aucune contribution majeure `a “la crise”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 23 / 31
24. Est-ce grave docteur ?
(Non-)reproductibilit´e statistique
Un ph´enom`ene r´ecent
Indicateur fr´equent d’erreurs et de tentatives de fraude
Causes principales :
la complexit´e des m´ethodes statistiques
une formation inad´equate de la plupart des chercheurs
le biais de confirmation
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 24 / 31
25. Est-ce grave docteur ?
(Non-)reproductibilit´e computationnelle
Un ph´enom`ene r´ecent
Arriv´ee avec la mont´ee en importance de l’informatique
Probl`eme tr`es fr´equent : la reproductibilit´e est l’exception
Causes principales :
la complexit´e des logiciels
la non-publication du code source
les fausses manips pass´ees inaper¸cues
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 25 / 31
26. La reproductibilit´e au service de la fiabilit´e
Une communaut´e qui appr´ecie et v´erifie la reproductibilit´e
encourage la publication de tous les d´etails d’une ´etude scientifique
(“Science Ouverte”)
facilite la d´ecouverte d’erreurs
pousse les chercheurs vers plus de prudence
rend la fraude plus risqu´ee
facilite la r´eutilisation des donn´ees et m´ethodes
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 26 / 31
27. Au-del`a de la reproductibilit´e
Un calcul reproductible peut ˆetre erron´e !
hen hackers leaked thousands of
e-mails from the Climatic Research
biological structures, simulate the early evolu-
tion of the Universe and analyse past climate
BY ZEEYA MERALI
Z. Merali, Nature 467, 775 (2010)
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 27 / 31
28. Publicit´e : Un MOOC sur la recherche reproductible
Recherche reproductible: principes m´ethodologiques pour une science
transparente
Sujets : gestion de notes, gestion de donn´ees, documents
computationnels, analyses de donn´ees reproductibles
Cours et travaux pratiques
Pr´epar´e par trois chercheurs CNRS et trois ing´enieurs Inria
Troisi`eme s´eance pr´evue pour le printemps 2020
Vise particuli`erement les doctorants
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 28 / 31
29. Publicit´e : ReScience
Un journal en ligne enti`erement d´edi´e `a la publication de r´eplications
d’´etudes computationnelles.
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 29 / 31
30. L’industrialisation dans la recherche
Fabrication
artisan
atelier
r´eseau d’artisans
industrie
chaˆınes logistiques
Recherche
chercheur seul
´equipe
collaboration
? ? ?
? ? ?
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 30 / 31
31. L’industrialisation dans la recherche
Un facteur majeur : l’informatique
Logiciels : m´ethodes scientifiques automatis´es
Faire tourner un logiciel = collaborer avec son auteur
A d´evelopper : les bonnes pratiques de la RAO :
Formation : ´evaluer un logiciel, comprendre ses limites
Documentation : faciliter l’´evaluation
Contrˆole qualit´e : audit, certification, ...
...... reproductibilit´e
Aspects soci´etaux : le manag´erisme
Indicateurs d’´evaluation, objectifs chiffr´es
Ce qui compte ne peut pas toujours ˆetre compt´e, et ce qui peut ˆetre
compt´e ne compte pas forc´ement
Approche top-down (recherche sur projet, ...)
Marche seulement pour les processus maˆıtris´es
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 31 / 31