SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
Exp´erience, statistique, calcul:
La trinit´e de la reproductibilit´e scientifique
Konrad HINSEN
Centre de Biophysique Mol´eculaire, Orl´eans, France
Synchrotron SOLEIL, Saint Aubin, France
11 octobre 2019
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 1 / 31
La science doit ˆetre v´erifiable
La nature humaine
L’erreur est humaine.
Les biais personnels sont en conflit avec la recherche de la v´erit´e.
La m´ethode scientifique
Un processus collectif pour ´eliminer les erreurs et biais individuels, grˆace
`a une v´erification continue par les pairs.
Une r`egle fondamentale
Les affirmations non v´erifiables sont irrecevables.
D´ecrire les exp´eriences en d´etail pour qu’on puisse les refaire.
Expliquer les raisonnements assez bien pour qu’un lecteur puisse les
suivre pas par pas.
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 2 / 31
Techniques de v´erification
Reproduction
Refaire toutes les ´etapes `a l’identique
Comparer les r´esultats
R´eplication
Refaire en respectant les principes mais en variant les techniques
... par n´ecessit´e ou par choix
Comparer les r´esultats
Attention : pas de consensus sur la terminologie !
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 3 / 31
La crise de la reproductibilit´e
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 4 / 31
La crise de la reproductibilit´e
52%
Yes, a significant
crisis
3%
No, there is no crisis
7%
Don’t know
38%
Yes, a slight
crisis
38%
Yes, a slight
crisis
1,576
RESEARCHERS SURVEYED
M
ore than 70% of researchers have tried and failed to
reproduce another scientist’s experiments, and more
than half have failed to reproduce their own experi-
ments. Those are some of the telling figures that
emerged from Nature’s survey of 1,576 researchers
Failing to reproduce results is a rite of passage, says Marcus Munafo, a
biological psychologist at the University of Bristol, UK, who has a long-
standing interest in scientific reproducibility. When he was a student,
he says, “I tried to replicate what looked simple from the literature, and
wasn’t able to. Then I had a crisis of confidence, and then I learned that
BY MONYA BAKER
IS THERE A
REPRODUCIBILITY
CRISIS?A Nature survey lifts the lid on
how researchers view the ‘crisis’
rocking science and what they
think will help.
M. Baker, Nature, 2016
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 5 / 31
Biophysique : les d´eplacements chimiques al´eatoires
Characterization of Leptazolines A−D, Polar Oxazolines from the
Cyanobacterium Leptolyngbya sp., Reveals a Glitch with the
“Willoughby−Hoye” Scripts for Calculating NMR Chemical Shifts
Jayanti Bhandari Neupane, Ram P. Neupane, Yuheng Luo, Wesley Y. Yoshida, Rui Sun,
and Philip G. Williams*
Department of Chemistry, University of Hawai‘i at Ma̅noa, 2545 McCarthy Mall, Honolulu, Hawaii 96822, United States
*S Supporting Information
ABSTRACT: The bioactivity-guided examination of a Leptolyngbya sp.
led to the isolation of leptazolines A−D (1−4 ), from the culture media,
along with two degradation products (5 and 6 ). Density functional theory
nuclear magnetic resonance calculations established the relative
configurations of 1 and 2 and revealed that the calculated shifts depended
on the operating system when using the “Willoughby−Hoye” Python
scripts to streamline the processing of the output files, a previously
unrecognized flaw that could lead to incorrect conclusions.
As part of our long-standing interest in cyanobacterial
natural products, we recently began screening strains
within our culture collection against pancreatic adenocarcinoma
(PANCA).1
This screen flagged several media extracts. Whereas
mean average error (MAE) of the calculated 13
C NMR shifts
given the other possible isomers (Table S2).
Letter
pubs.acs.org/OrgLettCite This: Org. Lett. XXXX, XXX, XXX−XXX
NRSINConOctober9,2019at18:45:24(UTC).
linesforoptionsonhowtolegitimatelysharepublishedarticles.
J.B. Neupane et al., Organic Letters, 2019
“Published in 2014, this Nature Protocols manuscript provides detailed
instructions aimed at enabling those with minimal theoretical knowledge of
the subject area to calculate gauge- including atomic orbital (GIAO) NMR
chemical shifts and includes Python scripts to streamline the process. It
has been cited over 130 times in the last 5 years.”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 6 / 31
Biophysique : les fausses structures de prot´eines
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 7 / 31
Biophysique : les fausses structures de prot´eines
COMMENTARY
Five retracted structure reports: Inverted or incorrect?
BRIAN W. MATTHEWS
Institute of Molecular Biology, Howard Hughes Medical Institute, and Department of Physics, University of Oregon,
Eugene, Oregon 97403, USA
Recently, Chang et al. (2006) withdrew five articles that
included reports of the structure of the ABC transporter
MsbA (Chang and Roth 2001) and the EmrE multidrug
transporter in complex with a substrate (Pornillos et al.
2005). The stated reason for the retractions was as
follows: ‘‘An in-house data reduction program, which
was not part of a conventional data processing package,
converted the anomalous pairs (I+ and IÀ) to (FÀ and F+),
thereby introducing a sign change. As the diffraction data
collected for each set of MsbA crystals and for the EmrE
crystals were processed with the same program the
structures reported. . .had the wrong hand.’’
The purpose of the present commentary is to point out
that the interconversion of F+ and FÀ does not, in general,
lead to an inverted structure. Rather, it leads to a ‘‘non-
sense’’ electron density map that has no relation to the
true structure or to its mirror image. There are special
increasingly difficult. Procedures in which multiple cop-
ies of the protein are refined (Chang and Roth 2001) can
improve refinement statistics but are of questionable
validity with low-resolution data in that they increase
what is already a very unfavorable ratio of model param-
eters to X-ray observations.
The atoms in a crystal can be considered as lying on
sets of parallel planes, each set of planes being identified
by three integers, h, k, and l. F(h,k,l) gives the amplitude
of X-rays scattered from the ‘‘front-side’’ of the (h,k,l)
planes and F(Àh,Àk,Àl) the amplitude of scattering from
the ‘‘back-side’’ of the same planes. F(h,k,l) and
F(Àh,Àk,Àl) are often abbreviated as F+ and FÀ. If a
protein crystal contains only light atoms such as hydro-
gen, oxygen, etc., the amplitudes F+ and FÀ will be iden-
tical. If, on the other hand, the protein crystal includes
heavy atoms such as mercury or selenium, then F+ and FÀ
BW Matthews, Protein Science, 2007
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 8 / 31
Physique de la mati`ere : le myst`ere de l’eau surrefroidie
A.G. Smart, Physics Today, 2018
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 9 / 31
´Economie : la base de la politique d’aust´erit´e
C.M. Reinhart & K.S. Rogoff, American Economic Review, 2010
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 10 / 31
´Economie : la base de la politique d’aust´erit´e
T. Herndon, M. Ash, R. Pollin, Cambridge Journal of Economics, 2014
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 11 / 31
G´en´etique : des analyses non reproductibles
Ioannidis et al.
Repeatability of published microarray gene expression analyses
Nature Genetics 41, 149-155 (2009)
A N A LY S I S
Can reproduce partially with some
discrepancies
Can reproduce with some
discrepancies
Can reproduce in principle
Can reproduce
from processed data
with some discrepancies Different result
Methods unclear
Software not available
Data not availableCannot reproduce
Figure 1 Summary of the efforts to replicate the published analyses.Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 12 / 31
Psychologie : pas facile d’adopter des bonnes pratiques
D. Adam, Science 23 May 2019
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 13 / 31
Recherche m´edicale : tout est faux ?
J.P.A. Ioannidis, PLoS Medicine, 2005
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 14 / 31
L’avis d’un jeune prix Nobel
W.G. Kaelin Jr, Nature, 2019Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 15 / 31
La trinit´e de la reproductibilit´e
Reproductibilit´e exp´erimentale
Refaire une exp´erience d’apr`es la description publi´ee
Obtenir des r´esultats suffisamment proches
Reproductibilit´e statistique
Refaire une ´etude avec un autre ´echantillon ou une autre technique
Inf´erer des conclusions suffisamment proches
Reproductibilit´e computationnelle
Refaire un calcul `a l’identique
Obtenir des r´esultats identiques
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 16 / 31
La reproductibilit´e exp´erimentale
Proc´ed´e
´Equipe A fait une exp´erience, publie les r´esultats
´Equipe B tente une reproduction ou r´eplication
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Une d´efaillance des instruments scientifiques
Une erreur dans l’ex´ecution
Une description incompl`ete ou erron´ee
Des donn´ees truqu´ees
Un facteur important pass´e inaper¸cu
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 17 / 31
La reproductibilit´e statistique
Proc´ed´e
´Equipe A fait une exp´erience sur un ´echantillon d’une population (de
personnes, souris, ´electrons, ...) et publie des inf´erences statistiques
´Equipe B tente une r´eplication
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Un ´echantillon trop petit
Une collecte ou s´election de donn´ees douteuse
(“p-hacking”, “HARKing”)
Des m´ethodes statistiques inadapt´ees ou mal appliqu´ees
Une description incompl`ete ou erron´ee
Des donn´ees truqu´ees
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 18 / 31
La reproductibilit´e computationnelle
Proc´ed´e
´Equipe A publie des r´esultats obtenus par ordinateur
´Equipe B tente une reproduction
´Equipe B compare ses r´esultats `a ceux de A
Une non-reproductibilit´e sugg`ere...
Une description incompl`ete ou erron´ee
(num´eros de version, d´ependances, ´etapes manuelles, ...)
Un calcul truqu´e
Particularit´es du calcul
D´eterminisme : aucun facteur inconnu n’intervient
D´efaillances mat´erielles extrˆemement rares
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 19 / 31
L’informatique dans la recherche
Omnipr´esent
“Recherche assist´ee par ordinateur” (RAO)
Tout le monde : analyse de donn´ees, visualisation
Sp´ecialistes : simulations, calculs complexes
`A ne pas oublier : les ordinateurs embarqu´es dans les instruments
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 20 / 31
La description des logiciels est tr`es insuffisante
“Pour analyser nos observations, nous avons appliqu´e des tech-
niques statistiques sophistiqu´ees impl´ement´ees en langage R.”
“Nous supposons qu’il s’agit d’artefacts introduits par les algo-
rithmes de pr´e-traitement int´egr´es dans les capteurs, qui ne sont
pas document´es.”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 21 / 31
Une (non-)reproductibilit´e peut en cacher une autre
Donn´ees exp´erimentales analys´ees par ordinateur
−→ reproductibilit´es exp´erimentale et computationnelle
Inf´erences statistiques faites par ordinateur
−→ reproductibilit´es statistique et computationnelle
Inf´erences statistiques bas´ees sur des donn´ees exp´erimentales
−→ reproductibilit´es exp´erimentale et statistique et computationnelle
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 22 / 31
Est-ce grave docteur ?
(Non-)reproductibilit´e exp´erimentale
Bien connue depuis des si`ecles
Globalement bien maˆıtris´ee
Aucune contribution majeure `a “la crise”
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 23 / 31
Est-ce grave docteur ?
(Non-)reproductibilit´e statistique
Un ph´enom`ene r´ecent
Indicateur fr´equent d’erreurs et de tentatives de fraude
Causes principales :
la complexit´e des m´ethodes statistiques
une formation inad´equate de la plupart des chercheurs
le biais de confirmation
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 24 / 31
Est-ce grave docteur ?
(Non-)reproductibilit´e computationnelle
Un ph´enom`ene r´ecent
Arriv´ee avec la mont´ee en importance de l’informatique
Probl`eme tr`es fr´equent : la reproductibilit´e est l’exception
Causes principales :
la complexit´e des logiciels
la non-publication du code source
les fausses manips pass´ees inaper¸cues
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 25 / 31
La reproductibilit´e au service de la fiabilit´e
Une communaut´e qui appr´ecie et v´erifie la reproductibilit´e
encourage la publication de tous les d´etails d’une ´etude scientifique
(“Science Ouverte”)
facilite la d´ecouverte d’erreurs
pousse les chercheurs vers plus de prudence
rend la fraude plus risqu´ee
facilite la r´eutilisation des donn´ees et m´ethodes
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 26 / 31
Au-del`a de la reproductibilit´e
Un calcul reproductible peut ˆetre erron´e !
hen hackers leaked thousands of
e-mails from the Climatic Research
biological structures, simulate the early evolu-
tion of the Universe and analyse past climate
BY ZEEYA MERALI
Z. Merali, Nature 467, 775 (2010)
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 27 / 31
Publicit´e : Un MOOC sur la recherche reproductible
Recherche reproductible: principes m´ethodologiques pour une science
transparente
Sujets : gestion de notes, gestion de donn´ees, documents
computationnels, analyses de donn´ees reproductibles
Cours et travaux pratiques
Pr´epar´e par trois chercheurs CNRS et trois ing´enieurs Inria
Troisi`eme s´eance pr´evue pour le printemps 2020
Vise particuli`erement les doctorants
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 28 / 31
Publicit´e : ReScience
Un journal en ligne enti`erement d´edi´e `a la publication de r´eplications
d’´etudes computationnelles.
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 29 / 31
L’industrialisation dans la recherche
Fabrication
artisan
atelier
r´eseau d’artisans
industrie
chaˆınes logistiques
Recherche
chercheur seul
´equipe
collaboration
? ? ?
? ? ?
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 30 / 31
L’industrialisation dans la recherche
Un facteur majeur : l’informatique
Logiciels : m´ethodes scientifiques automatis´es
Faire tourner un logiciel = collaborer avec son auteur
A d´evelopper : les bonnes pratiques de la RAO :
Formation : ´evaluer un logiciel, comprendre ses limites
Documentation : faciliter l’´evaluation
Contrˆole qualit´e : audit, certification, ...
...... reproductibilit´e
Aspects soci´etaux : le manag´erisme
Indicateurs d’´evaluation, objectifs chiffr´es
Ce qui compte ne peut pas toujours ˆetre compt´e, et ce qui peut ˆetre
compt´e ne compte pas forc´ement
Approche top-down (recherche sur projet, ...)
Marche seulement pour les processus maˆıtris´es
Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 31 / 31

Mais conteúdo relacionado

Destaque

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destaque (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Expérience, statistique, calcul : La trinité de la reproductibilité scientifique

  • 1. Exp´erience, statistique, calcul: La trinit´e de la reproductibilit´e scientifique Konrad HINSEN Centre de Biophysique Mol´eculaire, Orl´eans, France Synchrotron SOLEIL, Saint Aubin, France 11 octobre 2019 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 1 / 31
  • 2. La science doit ˆetre v´erifiable La nature humaine L’erreur est humaine. Les biais personnels sont en conflit avec la recherche de la v´erit´e. La m´ethode scientifique Un processus collectif pour ´eliminer les erreurs et biais individuels, grˆace `a une v´erification continue par les pairs. Une r`egle fondamentale Les affirmations non v´erifiables sont irrecevables. D´ecrire les exp´eriences en d´etail pour qu’on puisse les refaire. Expliquer les raisonnements assez bien pour qu’un lecteur puisse les suivre pas par pas. Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 2 / 31
  • 3. Techniques de v´erification Reproduction Refaire toutes les ´etapes `a l’identique Comparer les r´esultats R´eplication Refaire en respectant les principes mais en variant les techniques ... par n´ecessit´e ou par choix Comparer les r´esultats Attention : pas de consensus sur la terminologie ! Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 3 / 31
  • 4. La crise de la reproductibilit´e Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 4 / 31
  • 5. La crise de la reproductibilit´e 52% Yes, a significant crisis 3% No, there is no crisis 7% Don’t know 38% Yes, a slight crisis 38% Yes, a slight crisis 1,576 RESEARCHERS SURVEYED M ore than 70% of researchers have tried and failed to reproduce another scientist’s experiments, and more than half have failed to reproduce their own experi- ments. Those are some of the telling figures that emerged from Nature’s survey of 1,576 researchers Failing to reproduce results is a rite of passage, says Marcus Munafo, a biological psychologist at the University of Bristol, UK, who has a long- standing interest in scientific reproducibility. When he was a student, he says, “I tried to replicate what looked simple from the literature, and wasn’t able to. Then I had a crisis of confidence, and then I learned that BY MONYA BAKER IS THERE A REPRODUCIBILITY CRISIS?A Nature survey lifts the lid on how researchers view the ‘crisis’ rocking science and what they think will help. M. Baker, Nature, 2016 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 5 / 31
  • 6. Biophysique : les d´eplacements chimiques al´eatoires Characterization of Leptazolines A−D, Polar Oxazolines from the Cyanobacterium Leptolyngbya sp., Reveals a Glitch with the “Willoughby−Hoye” Scripts for Calculating NMR Chemical Shifts Jayanti Bhandari Neupane, Ram P. Neupane, Yuheng Luo, Wesley Y. Yoshida, Rui Sun, and Philip G. Williams* Department of Chemistry, University of Hawai‘i at Ma̅noa, 2545 McCarthy Mall, Honolulu, Hawaii 96822, United States *S Supporting Information ABSTRACT: The bioactivity-guided examination of a Leptolyngbya sp. led to the isolation of leptazolines A−D (1−4 ), from the culture media, along with two degradation products (5 and 6 ). Density functional theory nuclear magnetic resonance calculations established the relative configurations of 1 and 2 and revealed that the calculated shifts depended on the operating system when using the “Willoughby−Hoye” Python scripts to streamline the processing of the output files, a previously unrecognized flaw that could lead to incorrect conclusions. As part of our long-standing interest in cyanobacterial natural products, we recently began screening strains within our culture collection against pancreatic adenocarcinoma (PANCA).1 This screen flagged several media extracts. Whereas mean average error (MAE) of the calculated 13 C NMR shifts given the other possible isomers (Table S2). Letter pubs.acs.org/OrgLettCite This: Org. Lett. XXXX, XXX, XXX−XXX NRSINConOctober9,2019at18:45:24(UTC). linesforoptionsonhowtolegitimatelysharepublishedarticles. J.B. Neupane et al., Organic Letters, 2019 “Published in 2014, this Nature Protocols manuscript provides detailed instructions aimed at enabling those with minimal theoretical knowledge of the subject area to calculate gauge- including atomic orbital (GIAO) NMR chemical shifts and includes Python scripts to streamline the process. It has been cited over 130 times in the last 5 years.” Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 6 / 31
  • 7. Biophysique : les fausses structures de prot´eines Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 7 / 31
  • 8. Biophysique : les fausses structures de prot´eines COMMENTARY Five retracted structure reports: Inverted or incorrect? BRIAN W. MATTHEWS Institute of Molecular Biology, Howard Hughes Medical Institute, and Department of Physics, University of Oregon, Eugene, Oregon 97403, USA Recently, Chang et al. (2006) withdrew five articles that included reports of the structure of the ABC transporter MsbA (Chang and Roth 2001) and the EmrE multidrug transporter in complex with a substrate (Pornillos et al. 2005). The stated reason for the retractions was as follows: ‘‘An in-house data reduction program, which was not part of a conventional data processing package, converted the anomalous pairs (I+ and IÀ) to (FÀ and F+), thereby introducing a sign change. As the diffraction data collected for each set of MsbA crystals and for the EmrE crystals were processed with the same program the structures reported. . .had the wrong hand.’’ The purpose of the present commentary is to point out that the interconversion of F+ and FÀ does not, in general, lead to an inverted structure. Rather, it leads to a ‘‘non- sense’’ electron density map that has no relation to the true structure or to its mirror image. There are special increasingly difficult. Procedures in which multiple cop- ies of the protein are refined (Chang and Roth 2001) can improve refinement statistics but are of questionable validity with low-resolution data in that they increase what is already a very unfavorable ratio of model param- eters to X-ray observations. The atoms in a crystal can be considered as lying on sets of parallel planes, each set of planes being identified by three integers, h, k, and l. F(h,k,l) gives the amplitude of X-rays scattered from the ‘‘front-side’’ of the (h,k,l) planes and F(Àh,Àk,Àl) the amplitude of scattering from the ‘‘back-side’’ of the same planes. F(h,k,l) and F(Àh,Àk,Àl) are often abbreviated as F+ and FÀ. If a protein crystal contains only light atoms such as hydro- gen, oxygen, etc., the amplitudes F+ and FÀ will be iden- tical. If, on the other hand, the protein crystal includes heavy atoms such as mercury or selenium, then F+ and FÀ BW Matthews, Protein Science, 2007 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 8 / 31
  • 9. Physique de la mati`ere : le myst`ere de l’eau surrefroidie A.G. Smart, Physics Today, 2018 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 9 / 31
  • 10. ´Economie : la base de la politique d’aust´erit´e C.M. Reinhart & K.S. Rogoff, American Economic Review, 2010 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 10 / 31
  • 11. ´Economie : la base de la politique d’aust´erit´e T. Herndon, M. Ash, R. Pollin, Cambridge Journal of Economics, 2014 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 11 / 31
  • 12. G´en´etique : des analyses non reproductibles Ioannidis et al. Repeatability of published microarray gene expression analyses Nature Genetics 41, 149-155 (2009) A N A LY S I S Can reproduce partially with some discrepancies Can reproduce with some discrepancies Can reproduce in principle Can reproduce from processed data with some discrepancies Different result Methods unclear Software not available Data not availableCannot reproduce Figure 1 Summary of the efforts to replicate the published analyses.Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 12 / 31
  • 13. Psychologie : pas facile d’adopter des bonnes pratiques D. Adam, Science 23 May 2019 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 13 / 31
  • 14. Recherche m´edicale : tout est faux ? J.P.A. Ioannidis, PLoS Medicine, 2005 Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 14 / 31
  • 15. L’avis d’un jeune prix Nobel W.G. Kaelin Jr, Nature, 2019Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 15 / 31
  • 16. La trinit´e de la reproductibilit´e Reproductibilit´e exp´erimentale Refaire une exp´erience d’apr`es la description publi´ee Obtenir des r´esultats suffisamment proches Reproductibilit´e statistique Refaire une ´etude avec un autre ´echantillon ou une autre technique Inf´erer des conclusions suffisamment proches Reproductibilit´e computationnelle Refaire un calcul `a l’identique Obtenir des r´esultats identiques Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 16 / 31
  • 17. La reproductibilit´e exp´erimentale Proc´ed´e ´Equipe A fait une exp´erience, publie les r´esultats ´Equipe B tente une reproduction ou r´eplication ´Equipe B compare ses r´esultats `a ceux de A Une non-reproductibilit´e sugg`ere... Une d´efaillance des instruments scientifiques Une erreur dans l’ex´ecution Une description incompl`ete ou erron´ee Des donn´ees truqu´ees Un facteur important pass´e inaper¸cu Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 17 / 31
  • 18. La reproductibilit´e statistique Proc´ed´e ´Equipe A fait une exp´erience sur un ´echantillon d’une population (de personnes, souris, ´electrons, ...) et publie des inf´erences statistiques ´Equipe B tente une r´eplication ´Equipe B compare ses r´esultats `a ceux de A Une non-reproductibilit´e sugg`ere... Un ´echantillon trop petit Une collecte ou s´election de donn´ees douteuse (“p-hacking”, “HARKing”) Des m´ethodes statistiques inadapt´ees ou mal appliqu´ees Une description incompl`ete ou erron´ee Des donn´ees truqu´ees Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 18 / 31
  • 19. La reproductibilit´e computationnelle Proc´ed´e ´Equipe A publie des r´esultats obtenus par ordinateur ´Equipe B tente une reproduction ´Equipe B compare ses r´esultats `a ceux de A Une non-reproductibilit´e sugg`ere... Une description incompl`ete ou erron´ee (num´eros de version, d´ependances, ´etapes manuelles, ...) Un calcul truqu´e Particularit´es du calcul D´eterminisme : aucun facteur inconnu n’intervient D´efaillances mat´erielles extrˆemement rares Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 19 / 31
  • 20. L’informatique dans la recherche Omnipr´esent “Recherche assist´ee par ordinateur” (RAO) Tout le monde : analyse de donn´ees, visualisation Sp´ecialistes : simulations, calculs complexes `A ne pas oublier : les ordinateurs embarqu´es dans les instruments Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 20 / 31
  • 21. La description des logiciels est tr`es insuffisante “Pour analyser nos observations, nous avons appliqu´e des tech- niques statistiques sophistiqu´ees impl´ement´ees en langage R.” “Nous supposons qu’il s’agit d’artefacts introduits par les algo- rithmes de pr´e-traitement int´egr´es dans les capteurs, qui ne sont pas document´es.” Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 21 / 31
  • 22. Une (non-)reproductibilit´e peut en cacher une autre Donn´ees exp´erimentales analys´ees par ordinateur −→ reproductibilit´es exp´erimentale et computationnelle Inf´erences statistiques faites par ordinateur −→ reproductibilit´es statistique et computationnelle Inf´erences statistiques bas´ees sur des donn´ees exp´erimentales −→ reproductibilit´es exp´erimentale et statistique et computationnelle Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 22 / 31
  • 23. Est-ce grave docteur ? (Non-)reproductibilit´e exp´erimentale Bien connue depuis des si`ecles Globalement bien maˆıtris´ee Aucune contribution majeure `a “la crise” Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 23 / 31
  • 24. Est-ce grave docteur ? (Non-)reproductibilit´e statistique Un ph´enom`ene r´ecent Indicateur fr´equent d’erreurs et de tentatives de fraude Causes principales : la complexit´e des m´ethodes statistiques une formation inad´equate de la plupart des chercheurs le biais de confirmation Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 24 / 31
  • 25. Est-ce grave docteur ? (Non-)reproductibilit´e computationnelle Un ph´enom`ene r´ecent Arriv´ee avec la mont´ee en importance de l’informatique Probl`eme tr`es fr´equent : la reproductibilit´e est l’exception Causes principales : la complexit´e des logiciels la non-publication du code source les fausses manips pass´ees inaper¸cues Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 25 / 31
  • 26. La reproductibilit´e au service de la fiabilit´e Une communaut´e qui appr´ecie et v´erifie la reproductibilit´e encourage la publication de tous les d´etails d’une ´etude scientifique (“Science Ouverte”) facilite la d´ecouverte d’erreurs pousse les chercheurs vers plus de prudence rend la fraude plus risqu´ee facilite la r´eutilisation des donn´ees et m´ethodes Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 26 / 31
  • 27. Au-del`a de la reproductibilit´e Un calcul reproductible peut ˆetre erron´e ! hen hackers leaked thousands of e-mails from the Climatic Research biological structures, simulate the early evolu- tion of the Universe and analyse past climate BY ZEEYA MERALI Z. Merali, Nature 467, 775 (2010) Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 27 / 31
  • 28. Publicit´e : Un MOOC sur la recherche reproductible Recherche reproductible: principes m´ethodologiques pour une science transparente Sujets : gestion de notes, gestion de donn´ees, documents computationnels, analyses de donn´ees reproductibles Cours et travaux pratiques Pr´epar´e par trois chercheurs CNRS et trois ing´enieurs Inria Troisi`eme s´eance pr´evue pour le printemps 2020 Vise particuli`erement les doctorants Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 28 / 31
  • 29. Publicit´e : ReScience Un journal en ligne enti`erement d´edi´e `a la publication de r´eplications d’´etudes computationnelles. Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 29 / 31
  • 30. L’industrialisation dans la recherche Fabrication artisan atelier r´eseau d’artisans industrie chaˆınes logistiques Recherche chercheur seul ´equipe collaboration ? ? ? ? ? ? Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 30 / 31
  • 31. L’industrialisation dans la recherche Un facteur majeur : l’informatique Logiciels : m´ethodes scientifiques automatis´es Faire tourner un logiciel = collaborer avec son auteur A d´evelopper : les bonnes pratiques de la RAO : Formation : ´evaluer un logiciel, comprendre ses limites Documentation : faciliter l’´evaluation Contrˆole qualit´e : audit, certification, ... ...... reproductibilit´e Aspects soci´etaux : le manag´erisme Indicateurs d’´evaluation, objectifs chiffr´es Ce qui compte ne peut pas toujours ˆetre compt´e, et ce qui peut ˆetre compt´e ne compte pas forc´ement Approche top-down (recherche sur projet, ...) Marche seulement pour les processus maˆıtris´es Konrad HINSEN (CBM) Reproductibilit´e scientifique 11 octobre 2019 31 / 31