2. Baromètre de la Science Ouverte
Sources, méthodes et résultats
Eric Jeangirard – Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation, Paris, France
Contact: eric.jeangirard [at] recherche.gouv.fr
Piloter la Science Ouverte
(engagement du 1er axe du plan national de
Juillet 2018 )
Pourquoi un baromètre de la Science Ouverte ?
Mesurer de façon régulière l’évolution de
l’Open Access en France à partir de
données fiables, ouvertes et déclinables
par champ disciplinaire et institution.
Une méthodologie transparente
1
Identifier les publications
avec une affiliation
française
2
Enrichir les méta-données
de ces publications
Enrichir les méta-données est
un enjeu majeur pour construire
un baromètre granulaire,
notamment par champ
disciplinaire.
Pour déterminer le champ
disciplinaire, un algorithme de
machine learning supervisé a
été entraîné à partir de la base
de données labellisée Pascal-
Francis (17 millions articles
labellisés).
3Déterminer quelles
publications sont Open
Access
Prochaines étapes
Consolider la méthodologie
- Améliorer la détection d’affiliation française
- Mettre en place les données “Feed” Unpaywall pour une mise à
jour régulière des résultats
- Analyser la dynamique du statut Open Access (à quelle vitesse
une publication devient-elle Open Access ?)
- Investigation de nouvelles sources (publications sans DOI)
La Science Ouverte, au-delà de l’Open Access
- Intégrer des sources ouvertes pour les citations
- Ouverture des données de la science (Open Data)
- Ouverture du code informatique (Open Source)
- Politique d’ouverture pour les agences de financement
- Politique d’ouverture et archivage des journaux
Pour le moment, la méthodologie se restreint aux publications avec
un DOI (ce qui a un impact au niveau du champ disciplinaire ).
Les données sources proviennent de Unpaywall / CrossRef et de
HAL pour lister toutes les publications avec DOI publiées (dans le
monde, soit environ 4,5 millions de DOI par an). Peu de meta-données
sont disponibles : DOI, titre, nom des auteurs, détail sur la revue. Les
informations d’affiliations sont manquantes dans la plupart des
cas. (pour les données venant de CrossRef).
Pour chaque publication, si l’information d’affiliation n’est pas
disponible dans HAL, un outil vérifie d’abord si un des noms des
auteurs figure dans une base référentielle construite ad hoc (à partir
de theses.fr, HAL, ORCID, Pascal & Francis) puis si c’est le cas,
analyse la page web de redirection DOI pour détecter s’il y a une
affiliation française.
La détection d’affiliation est une étape clé. La précision de la
détection est estimée manuellement à partir d’un échantillon aléatoire
100 DOIs. Le taux de faux positifs est estimé à environ 4%.
Le service Unpaywall est utilisé pour détecter les publications
Open Access (à partir du DOI).
Estimation de la part des champs
disciplinaires (2017)
Estimation du taux d’Open Access par champ disciplinaire (2017)
Evolution 2013 – 2017 de l’estimation du taux Open Access
La tendance est légèrement à la hausse sauf pour la dernière
année (2017), mais nous pensons qu’il s’agit d’une conséquence
de la nature mouvante du statut Open Access. Ces résultats
doivent donc être considérés en tant que photographie à un
instant donné plutôt que comme définitifs.
Des étapes d’identification des auteurs au sein d’IdRef et des
structures avec le RNSR, Sirene et Grid font aussi partie de
l’enrichissement. Cela a notamment mis en évidence 14 000
personnes avec une affiliation française et non présentes dans IdRef,
permettant ainsi un double enrichissement du baromètre d’une
part et d’IdRef d’autre part.