3. Les données dans les sciences de la nature
} Les données “brutes”
} Indications d’instruments ou de capteurs, etc.
} Les analyses de données
} La transformation d’une série d’indications en courbe ou autre
représentation de leur évolution
} Leur mise en relation avec d’autres séries d’indications
} Les données simulées
} Données artificielles produites par un modèle
Paul N. Edwards 26 February 2013
4. Les métadonnées
} Une description précise de la fabrication des données
} Où?
} Quand?
} Par qui?
} Dans quelles conditions?
} Avec quel genre d’instrument ou de capteur?
} Répondent aux questions…
} de marges d’erreur
} de bruit
} de biais
} de fiabilité
Paul N. Edwards 26 February 2013
6. La friction des données
} La collecte de données météorologiques
} Interfaces entre:
} Capteurs analogiques et enregistrements numériques
} Un formulaire (papier) et un autre
} Les transmissions télégraphiques:
} Codées, décodées et transcrites à la main
} Transcrites (à la main) de bandes télétypes sur cartes perforées
} Tableaux (sur papier) et cartes perforées
} Cartes perforées et bandes magnétiques numériques
} Etc.
Paul N. Edwards 26 February 2013
7. La friction des données
} Le coût (en temps, énergie et attention humaine) de
la collecte, du traitement, du transport, du stockage,
de la gestion et de l’accès aux données en tant
qu’objets concrets
} La matérialité des données impose des coûts
d’énergie, et ralentit les analyses
} Les rassembler dans un seul lieu
} Les mettre sur un seul support
} Les rendre commensurables et comparables
} Les rendre accessibles
} etc.
Paul N. Edwards 26 February 2013
11. 1950: des milliards de cartes perforées
Punch cards stored in main entrance hall
US National Weather Records Center (1950s)
Paul N. Edwards 26 February 2013
12. Les données climatiques aux National
Center for Atmospheric Research (USA)
6 Po en 2008
Temps à doubler = 20 mois
Nouveau système de stockage: 30 Po
Paul N. Edwards 26 February 2013
13. La collecte des données climatiques
} Les services météos nationaux collectent (parfois) et
transmettent (parfois) les données à...
} Le Réseau Mondial (1905-1953)
} Smithsonian World Weather Records (1927-1990s)
} Monthly Climatic Data for the World (1950s-présent)
} Les “data guys”: collecteurs professionels
} NCAR et GISS (EUA)
} Hadley Centre et Climatic Research Unit (Royaume Uni)
} URSS/Russie
} autres
} Nettoyage des données et extension des métadonnées
Paul N. Edwards 26 February 2013
14. Les tableaux de données climatiques
World Weather Records (volume 1, 1927)
Paul N. Edwards 26 February 2013
15. Les tableaux de données climatiques
Monthly Climatic Data for the World (1998)
Paul N. Edwards 26 February 2013
16. Des questions difficiles…
} Que sont devenus les enregistrements originaux?
} Comment est-ce qu’on a calculé les moyennes?
} Une station a-t-elle subi des changements au fil des
années qui aurait eu des effets importants sur la qualité
de ses données?
Paul N. Edwards 26 February 2013
23. La méthode d’inversion de l’infrastructure
} Une archéologie de
l’infrastructure des
données
} Une méthode
fondamentale de la
climatologie
} et de toute autre science
historique…
} Résultat: révision des
métadonnées
Paul N. Edwards 26 February 2013
25. Un effet de la friction des données
} Köppen 1881: fewer than 100 stations
} Callendar 1938: about 200 stations
} Willett 1950: 183 stations
} Callendar 1961: 450 stations
} Mitchell 1963: 183 stations
Ò Jones et al. 1986: 2194 stations
Ò Brohan et al. 2006: 4349 stations
Ò Muller et al. (2012): 39,340 stations
Paul N. Edwards 26 February 2013
26. Berkeley Earth (2012)
Les moyennes globales de températures
Decadal Land−Surface Average Temperature
1
10−year moving average of surface temperature over land
Étude dirigée par Gray band indicates 95% uncertainty interval
Richard Muller — 0.5
Temperature Anomaly ( °C )
physicien et
climatosceptique à
UC Berkeley 0
Financée par les
−0.5
frères Koch (des
riches conservateurs
de l’extrème droite) −1
NASA GISS
NOAA / NCDC
Hadley / CRU
−1.5
Berkeley Earth
1750 1800 1850 1900 1950 2000
Paul N. Edwards 26 February 2013
29. A. Watts, “Is the U.S. Temperature Record
Reliable?”, Heartland Institute, 2009
MMTS = Maximum/Minimum Temperature System
(thermistor électronique )
“Nous étions choqués
par ce que nous avons
trouvé… C’est
probable que 9 sur 10
stations rapportent des
températures en hausse
parcequ’ils sont mal
situées sur leurs sites.” Paul N. Edwards 26 February 2013
30. “Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC:
Climate Reference Network Rating Guide - adopted [sic] from NCDC Climate
Reference Network Handbook, 2002, specifications for siting (section 2.2.1)”
Paul N. Edwards 26 February 2013
31. Menne et al. (2010)
} Confirment les métadonnées recuillies par
surfacestations.org
} Comparent les stations bien situées avec celles qui
sont mal situées
} Comparent les stations dans le USHCN avec celles
dans le USCRN (Réseau de recherche climatique des
EUA)
} USCRN: 114 stations (y compris 7 en double)
} Des instruments très précis, en 3 exemplaires
} Les sites et l’instrumentation des stations sélectionnés selon les
normes les plus rigoureux
Paul N. Edwards 26 February 2013
32. Menne et al. (2010),
Fig. 1
USHCN exposure classifications according to surfacestations.org (circles and triangles). Filled symbols are in
agreement with independent assessments by NOAA/National Weather Service Forecast Office personnel.
…Ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered “poor” exposure.
$%&# #
Source: “V1.05 USHCN Master Station List”. (Downloaded from www.surfacestations.org in June 2009. A
$%'# complete set ofUSHCN exposure classificationsWatts [2009] wasto surfacestations.org (circles and
more Figure 1. USHCN station classifications as referenced in according not available for
$%(# triangles). of this analysis).
general use at the time Filled symbols are in agreement with independent assessments by
$$)# NOAA/National Weather Service Forecast Office personnel. Ratings are based on criteria
Paul N. Edwards 26 February 2013
$$"# similar to those used to classify U.S. Climate Reference Network stations. In this analysis,
$$!# ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered
$$%# “poor” exposure sites.
33. “Comparison of the [continental US] average annual (a) maximum and (b) minimum
$%%# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. #
2009] and USCRN departures from the 1971-2000 normal. Good and poor site ratings
$%&# Figure 7. Comparison of the CONUS average annual (a) maximum and (b) minimum
are based on surfacestations.org.”
$&'# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009]
$&(# Source: Menne et al., "On the from the of the U.S. Surface Temperatureand poorJ.site ratings are based
and USCRN departures reliability 1971-2000 normal. Good Record,” Geophys. Research
Paul N. Edwards 26 February 2013
$&!# (2010), Fig. 7
on surfacestations.org as in Fig. 1.
$&)# !
34. Menne et al. (2010)
} Conclusion: l’exposition mauvaise de la majorité des
stations USHCN est confirmé, mais…
} « Les ajustements appliqués aux données USHCN Version 2
prennent largement en compte les effets de changements
d’instruments et d’expositions, bien qu’un petit biais négatif
[froid] paraît rester… »
« Adjustments applied to USHCN Version 2 data largely account for the impact
of instrument and siting changes, although a small overall residual negative
(“cool”) bias appears to remain… »
} « On trouve aucune évidence d’une inflation des tendances
de température due à une mauvaise exposition des
stations. »
} We find no evidence that …US temperature trends are inflated
due to poor station siting.”
Paul N. Edwards 26 February 2013
36. Les métadonnées:
un produit ou un processus?
} Une enquête quasi-ethnographique sur 3 grands projets
en climatologie, écologie, et surveillance environmentale
} Résultats:
} Chaque projet tache de mettre en place des systèmes
automatisés de collecte de métadonnées
} Mais la collecte de métadonnées restent un travail difficile
} Un travail sans fin du à:
¨ Le versionnage de bases de données
¨ Les motivations des scientifiques
¨ Le fait qu’on ne sait pas dès le début qu’une base de données sera utile
pour autrui
} La communication entre des individus, souvent informelle, reste
le processus de base dans le partage de données
Paul N. Edwards 26 February 2013
37. Un règle invariable dans le partage de
données
} Plus la distance entre la discipline d’origine et celle qui s’en
sert est grande, plus les métadonnées sont essentielles — et
plus large est le champ de précisions requises
Paul N. Edwards 26 February 2013
38. Les guerres de données: on conteste…
} Les bases de données
} Les modèles d’analyse de données
} ClearClimateCode.org
} Les interprétations des données
} …et bientôt les simulations de la circulation générale
atmosphérique?
} … et les métadonnées
Paul N. Edwards 26 February 2013
39. “Les métadonnées ne sont le métier de
personne” — S.L. Star
} Les scientifiques?
} Les gestionneurs de données?
} La foule “crowdsourcing”?
} Les jeunes?
} Les spécialistes en sciences sociales?
} Les “data scientists”?
Paul N. Edwards 26 February 2013
40. Competitors may get an advantage 34.33%
Dealing with questions from users about the data 33.83%
Technical limitations, ie. webspace platform space constraints 27.82%
Whether there is intense competition in the topic 24.81%
2009 sondageput in a134 amount of work buildingdudataset
Whether you de large scientifiques the communauté 24.63%
Machine Learningdata that might substitute for your own
Availability of other 14.93%
Table 10: Top Reasons Not to Share Code
Not Share
The time it takes to clean up and document for release 77.78%
Dealing with questions from users about the code 51.85%
The possibility that your code may be used without citation 44.78%
The possibility of patents or other IP constraints 40.00%
Legal barriers, such as copyright 33.72%
Competitors may get an advantage 31.85%
The potential loss of future publications using this code 31.11%
The code might be used in commercial applications 28.15%
Availability of other code that might substitute for your own 21.64%
Whether you put in a large amount of work building the code 20.00%
Technical limitations, ie. webspace platform space constraints 20.00%
23
“Dealing with questions from users about the data” is the seventh most highly cited reason not to
Source:V. Stodden, “The Scientific Method in Practice: Reproducibility in the Computational Sciences,”
share data.
MIT Sloan School Working Paper 4773-10 (2010)
24
This was also the first substantive scientific paper published in the Transactions, Thomas Kuhn
(1978, 27) cited in Willinsky p 200.
“the publication of this letter proved to be a more open N. Edwards 26 February 2013 than Newton
Paul and immediate forum for his work
25
was willing to bear, and he did not again use the journal to publish his experimental pursuits but relied
exclusively on the unhurried book, most notably with the Principia, published fifteen years later in 1687.”
Willinsky p200. This firestorm of exchange seems to have lead to the creation of the blind review process.