SlideShare uma empresa Scribd logo
1 de 40
Baixar para ler offline
Les bases de données scientifiques
    et la friction des métadonnées


                     Paul N. Edwards
Paul N. Edwards 26 February 2013
Les données dans les sciences de la nature
}    Les données “brutes”
      }    Indications d’instruments ou de capteurs, etc.
}    Les analyses de données
      }    La transformation d’une série d’indications en courbe ou autre
            représentation de leur évolution
      }    Leur mise en relation avec d’autres séries d’indications
}    Les données simulées
      }    Données artificielles produites par un modèle




                                              Paul N. Edwards 26 February 2013
Les métadonnées
}    Une description précise de la fabrication des données
      }    Où?
      }    Quand?
      }    Par qui?
      }    Dans quelles conditions?
      }    Avec quel genre d’instrument ou de capteur?
}    Répondent aux questions…
      }    de marges d’erreur
      }    de bruit
      }    de biais
      }    de fiabilité

                                            Paul N. Edwards 26 February 2013
la friction des données




        Paul N. Edwards   26 February 2013
La friction des données
}    La collecte de données météorologiques
}    Interfaces entre:
      }    Capteurs analogiques et enregistrements numériques
      }    Un formulaire (papier) et un autre
      }    Les transmissions télégraphiques:
            }    Codées, décodées et transcrites à la main
            }    Transcrites (à la main) de bandes télétypes sur cartes perforées
      }    Tableaux (sur papier) et cartes perforées
      }    Cartes perforées et bandes magnétiques numériques
      }    Etc.



                                                       Paul N. Edwards 26 February 2013
La friction des données
}  Le coût (en temps, énergie et attention humaine) de
    la collecte, du traitement, du transport, du stockage,
    de la gestion et de l’accès aux données en tant
    qu’objets concrets
}  La matérialité des données impose des coûts
    d’énergie, et ralentit les analyses
      }    Les rassembler dans un seul lieu
      }    Les mettre sur un seul support
      }    Les rendre commensurables et comparables
      }    Les rendre accessibles
      }    etc.

                                           Paul N. Edwards 26 February 2013
Cartes perforées météorologiques




                      Paul N. Edwards 26 February 2013
Perforation des cartes




                         Paul N. Edwards 26 February 2013
Salle de triage des cartes




                        Paul N. Edwards 26 February 2013
1950: des milliards de cartes perforées




          Punch cards stored in main entrance hall
        US National Weather Records Center (1950s)
                                  Paul N. Edwards 26 February 2013
Les données climatiques aux National
Center for Atmospheric Research (USA)




 	

6 Po en 2008	

Temps à doubler = 20 mois	

Nouveau système de stockage: 30 Po	

	

                                     Paul N. Edwards 26 February 2013
La collecte des données climatiques
}    Les services météos nationaux collectent (parfois) et
      transmettent (parfois) les données à...
            }    Le Réseau Mondial (1905-1953)
            }    Smithsonian World Weather Records (1927-1990s)
            }    Monthly Climatic Data for the World (1950s-présent)
}    Les “data guys”: collecteurs professionels
      }    NCAR et GISS (EUA)
      }    Hadley Centre et Climatic Research Unit (Royaume Uni)
      }    URSS/Russie
      }    autres
}    Nettoyage des données et extension des métadonnées

                                                     Paul N. Edwards 26 February 2013
Les tableaux de données climatiques




        World Weather Records (volume 1, 1927)



                                Paul N. Edwards 26 February 2013
Les tableaux de données climatiques




          Monthly Climatic Data for the World (1998)




                                     Paul N. Edwards 26 February 2013
Des questions difficiles…
}  Que sont devenus les enregistrements originaux?
}  Comment est-ce qu’on a calculé les moyennes?
}  Une station a-t-elle subi des changements au fil des
    années qui aurait eu des effets importants sur la qualité
    de ses données?




                                    Paul N. Edwards 26 February 2013
GIEC 4e rapport (2007)




                         Paul N. Edwards 26 February 2013
la friction des métadonnées




            Paul N. Edwards   26 February 2013
Les tableaux de données climatiques




        World Weather Records (volume 1, 1927)



                                Paul N. Edwards 26 February 2013
Méthodes de calcul de la température
moyenne journalière




                       Source: Palutikof and Goddess, 1986
                         Paul N. Edwards 26 February 2013
Changements de
pluviomètres et de
nivomètres (Karl et
al. 1993)




 Paul N. Edwards 26 February 2013
Changements des horaires d’observation
(Karl et al. 1993)




                        Paul N. Edwards 26 February 2013
La méthode d’inversion de l’infrastructure
}  Une archéologie de
    l’infrastructure des
    données
}  Une méthode
    fondamentale de la
    climatologie
      }    et de toute autre science
            historique…
}    Résultat: révision des
      métadonnées


                                        Paul N. Edwards 26 February 2013
GIEC 4e rapport (2007)




                         Paul N. Edwards 26 February 2013
Un effet de la friction des données
}    Köppen 1881: fewer than 100 stations
}    Callendar 1938: about 200 stations
}    Willett 1950: 183 stations
}    Callendar 1961: 450 stations
}    Mitchell 1963: 183 stations
Ò  Jones et al. 1986: 2194 stations
Ò  Brohan et al. 2006: 4349 stations
Ò  Muller et al. (2012): 39,340 stations



                                   Paul N. Edwards 26 February 2013
Berkeley Earth (2012)
Les moyennes globales de températures
                              Decadal Land−Surface Average Temperature
                                                                                                      1
                          10−year moving average of surface temperature over land
Étude dirigée par         Gray band indicates 95% uncertainty interval

Richard Muller —                                                                                      0.5




                                                                                                             Temperature Anomaly ( °C )
physicien et
climatosceptique à
UC Berkeley                                                                                           0


Financée par les
                                                                                                      −0.5
frères Koch (des
riches conservateurs
de l’extrème droite)                                                                                  −1
                                                                                     NASA GISS
                                                                                     NOAA / NCDC
                                                                                     Hadley / CRU
                                                                                                      −1.5
                                                                                     Berkeley Earth

                       1750         1800            1850            1900            1950      2000



                                                             Paul N. Edwards 26 February 2013
surfacestations.org




    Paul N. Edwards   26 February 2013
Paul N. Edwards 26 February 2013
A. Watts, “Is the U.S. Temperature Record
                            Reliable?”, Heartland Institute, 2009


                            MMTS = Maximum/Minimum Temperature System
                            (thermistor électronique )




“Nous étions choqués
par ce que nous avons
trouvé… C’est
probable que 9 sur 10
stations rapportent des
températures en hausse
parcequ’ils sont mal
situées sur leurs sites.”                 Paul N. Edwards 26 February 2013
“Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC:
Climate Reference Network Rating Guide - adopted [sic] from NCDC Climate
Reference Network Handbook, 2002, specifications for siting (section 2.2.1)”

                                          Paul N. Edwards 26 February 2013
Menne et al. (2010)
}  Confirment les métadonnées recuillies par
    surfacestations.org
}  Comparent les stations bien situées avec celles qui
    sont mal situées
}  Comparent les stations dans le USHCN avec celles
    dans le USCRN (Réseau de recherche climatique des
    EUA)
      }    USCRN: 114 stations (y compris 7 en double)
            }  Des instruments très précis, en 3 exemplaires
            }  Les sites et l’instrumentation des stations sélectionnés selon les
                normes les plus rigoureux

                                                  Paul N. Edwards 26 February 2013
Menne et al. (2010),
Fig. 1




          USHCN exposure classifications according to surfacestations.org (circles and triangles). Filled symbols are in
          agreement with independent assessments by NOAA/National Weather Service Forecast Office personnel.
          …Ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered “poor” exposure.
       $%&#                                                                                                                #
          Source: “V1.05 USHCN Master Station List”. (Downloaded from www.surfacestations.org in June 2009. A
       $%'# complete set ofUSHCN exposure classificationsWatts [2009] wasto surfacestations.org (circles and
         more Figure 1. USHCN station classifications as referenced in according not available for
       $%(# triangles). of this analysis).
         general use at the time Filled symbols are in agreement with independent assessments by

       $$)# NOAA/National Weather Service Forecast Office personnel. Ratings are based on criteria
                                                                   Paul N. Edwards 26 February 2013
       $$"# similar to those used to classify U.S. Climate Reference Network stations. In this analysis,
       $$!# ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered
       $$%# “poor” exposure sites.
“Comparison of the [continental US] average annual (a) maximum and (b) minimum
$%%#   temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al.                     #
       2009] and USCRN departures from the 1971-2000 normal. Good and poor site ratings
$%&#    Figure 7. Comparison of the CONUS average annual (a) maximum and (b) minimum
       are based on surfacestations.org.”
$&'#    temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009]
$&(#   Source: Menne et al., "On the from the of the U.S. Surface Temperatureand poorJ.site ratings are based
        and USCRN departures reliability 1971-2000 normal. Good Record,” Geophys. Research
                                                                 Paul N. Edwards 26 February 2013
$&!#   (2010), Fig. 7
        on surfacestations.org as in Fig. 1.

$&)#   !
Menne et al. (2010)
}  Conclusion: l’exposition mauvaise de la majorité des
    stations USHCN est confirmé, mais…
}  « Les ajustements appliqués aux données USHCN Version 2
    prennent largement en compte les effets de changements
    d’instruments et d’expositions, bien qu’un petit biais négatif
    [froid] paraît rester… »
      « Adjustments applied to USHCN Version 2 data largely account for the impact
            of instrument and siting changes, although a small overall residual negative
            (“cool”) bias appears to remain… »
}    « On trouve aucune évidence d’une inflation des tendances
      de température due à une mauvaise exposition des
      stations. »
      }    We find no evidence that …US temperature trends are inflated
            due to poor station siting.”


                                                      Paul N. Edwards 26 February 2013
conclusions




Paul N. Edwards   26 February 2013
Les métadonnées:
un produit ou un processus?
}  Une enquête quasi-ethnographique sur 3 grands projets
    en climatologie, écologie, et surveillance environmentale
}  Résultats:
      }    Chaque projet tache de mettre en place des systèmes
            automatisés de collecte de métadonnées
      }    Mais la collecte de métadonnées restent un travail difficile
            }    Un travail sans fin du à:
                  ¨  Le versionnage de bases de données
                  ¨  Les motivations des scientifiques
                  ¨  Le fait qu’on ne sait pas dès le début qu’une base de données sera utile
                      pour autrui
}    La communication entre des individus, souvent informelle, reste
      le processus de base dans le partage de données

                                                           Paul N. Edwards 26 February 2013
Un règle invariable dans le partage de
données
}    Plus la distance entre la discipline d’origine et celle qui s’en
      sert est grande, plus les métadonnées sont essentielles — et
      plus large est le champ de précisions requises




                                           Paul N. Edwards 26 February 2013
Les guerres de données: on conteste…
}    Les bases de données
}    Les modèles d’analyse de données
      }    ClearClimateCode.org
}  Les interprétations des données
}  …et bientôt les simulations de la circulation générale
    atmosphérique?
}  … et les métadonnées




                                    Paul N. Edwards 26 February 2013
“Les métadonnées ne sont le métier de
personne” — S.L. Star
}    Les scientifiques?
}    Les gestionneurs de données?
}    La foule “crowdsourcing”?
}    Les jeunes?
}    Les spécialistes en sciences sociales?
}    Les “data scientists”?




                                       Paul N. Edwards 26 February 2013
Competitors may get an advantage                               34.33%
     Dealing with questions from users about the data               33.83%
     Technical limitations, ie. webspace platform space constraints 27.82%
     Whether there is intense competition in the topic              24.81%
2009 sondageput in a134 amount of work buildingdudataset
     Whether you de large scientifiques the communauté              24.63%
Machine Learningdata that might substitute for your own
     Availability of other                                          14.93%



        Table 10: Top Reasons Not to Share Code
                                                                                                    Not Share
        The time it takes to clean up and document for release                                       77.78%
        Dealing with questions from users about the code                                             51.85%
        The possibility that your code may be used without citation                                  44.78%
        The possibility of patents or other IP constraints                                           40.00%
        Legal barriers, such as copyright                                                            33.72%
        Competitors may get an advantage                                                             31.85%
        The potential loss of future publications using this code                                    31.11%
        The code might be used in commercial applications                                            28.15%
        Availability of other code that might substitute for your own                                21.64%
        Whether you put in a large amount of work building the code                                  20.00%
        Technical limitations, ie. webspace platform space constraints                               20.00%

             23
                  “Dealing with questions from users about the data” is the seventh most highly cited reason not to
         Source:V. Stodden, “The Scientific Method in Practice: Reproducibility in the Computational Sciences,”
        share data.
         MIT Sloan School Working Paper 4773-10 (2010)
            24
               This was also the first substantive scientific paper published in the Transactions, Thomas Kuhn
        (1978, 27) cited in Willinsky p 200.
           “the publication of this letter proved to be a more open N. Edwards 26 February 2013 than Newton
                                                               Paul and immediate forum for his work
        25

        was willing to bear, and he did not again use the journal to publish his experimental pursuits but relied
        exclusively on the unhurried book, most notably with the Principia, published fifteen years later in 1687.”
        Willinsky p200. This firestorm of exchange seems to have lead to the creation of the blind review process.

Mais conteúdo relacionado

Último

Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 

Último (10)

Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 

Destaque

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Destaque (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

  • 1. Les bases de données scientifiques et la friction des métadonnées Paul N. Edwards
  • 2. Paul N. Edwards 26 February 2013
  • 3. Les données dans les sciences de la nature }  Les données “brutes” }  Indications d’instruments ou de capteurs, etc. }  Les analyses de données }  La transformation d’une série d’indications en courbe ou autre représentation de leur évolution }  Leur mise en relation avec d’autres séries d’indications }  Les données simulées }  Données artificielles produites par un modèle Paul N. Edwards 26 February 2013
  • 4. Les métadonnées }  Une description précise de la fabrication des données }  Où? }  Quand? }  Par qui? }  Dans quelles conditions? }  Avec quel genre d’instrument ou de capteur? }  Répondent aux questions… }  de marges d’erreur }  de bruit }  de biais }  de fiabilité Paul N. Edwards 26 February 2013
  • 5. la friction des données Paul N. Edwards 26 February 2013
  • 6. La friction des données }  La collecte de données météorologiques }  Interfaces entre: }  Capteurs analogiques et enregistrements numériques }  Un formulaire (papier) et un autre }  Les transmissions télégraphiques: }  Codées, décodées et transcrites à la main }  Transcrites (à la main) de bandes télétypes sur cartes perforées }  Tableaux (sur papier) et cartes perforées }  Cartes perforées et bandes magnétiques numériques }  Etc. Paul N. Edwards 26 February 2013
  • 7. La friction des données }  Le coût (en temps, énergie et attention humaine) de la collecte, du traitement, du transport, du stockage, de la gestion et de l’accès aux données en tant qu’objets concrets }  La matérialité des données impose des coûts d’énergie, et ralentit les analyses }  Les rassembler dans un seul lieu }  Les mettre sur un seul support }  Les rendre commensurables et comparables }  Les rendre accessibles }  etc. Paul N. Edwards 26 February 2013
  • 8. Cartes perforées météorologiques Paul N. Edwards 26 February 2013
  • 9. Perforation des cartes Paul N. Edwards 26 February 2013
  • 10. Salle de triage des cartes Paul N. Edwards 26 February 2013
  • 11. 1950: des milliards de cartes perforées Punch cards stored in main entrance hall US National Weather Records Center (1950s) Paul N. Edwards 26 February 2013
  • 12. Les données climatiques aux National Center for Atmospheric Research (USA) 6 Po en 2008 Temps à doubler = 20 mois Nouveau système de stockage: 30 Po Paul N. Edwards 26 February 2013
  • 13. La collecte des données climatiques }  Les services météos nationaux collectent (parfois) et transmettent (parfois) les données à... }  Le Réseau Mondial (1905-1953) }  Smithsonian World Weather Records (1927-1990s) }  Monthly Climatic Data for the World (1950s-présent) }  Les “data guys”: collecteurs professionels }  NCAR et GISS (EUA) }  Hadley Centre et Climatic Research Unit (Royaume Uni) }  URSS/Russie }  autres }  Nettoyage des données et extension des métadonnées Paul N. Edwards 26 February 2013
  • 14. Les tableaux de données climatiques World Weather Records (volume 1, 1927) Paul N. Edwards 26 February 2013
  • 15. Les tableaux de données climatiques Monthly Climatic Data for the World (1998) Paul N. Edwards 26 February 2013
  • 16. Des questions difficiles… }  Que sont devenus les enregistrements originaux? }  Comment est-ce qu’on a calculé les moyennes? }  Une station a-t-elle subi des changements au fil des années qui aurait eu des effets importants sur la qualité de ses données? Paul N. Edwards 26 February 2013
  • 17. GIEC 4e rapport (2007) Paul N. Edwards 26 February 2013
  • 18. la friction des métadonnées Paul N. Edwards 26 February 2013
  • 19. Les tableaux de données climatiques World Weather Records (volume 1, 1927) Paul N. Edwards 26 February 2013
  • 20. Méthodes de calcul de la température moyenne journalière Source: Palutikof and Goddess, 1986 Paul N. Edwards 26 February 2013
  • 21. Changements de pluviomètres et de nivomètres (Karl et al. 1993) Paul N. Edwards 26 February 2013
  • 22. Changements des horaires d’observation (Karl et al. 1993) Paul N. Edwards 26 February 2013
  • 23. La méthode d’inversion de l’infrastructure }  Une archéologie de l’infrastructure des données }  Une méthode fondamentale de la climatologie }  et de toute autre science historique… }  Résultat: révision des métadonnées Paul N. Edwards 26 February 2013
  • 24. GIEC 4e rapport (2007) Paul N. Edwards 26 February 2013
  • 25. Un effet de la friction des données }  Köppen 1881: fewer than 100 stations }  Callendar 1938: about 200 stations }  Willett 1950: 183 stations }  Callendar 1961: 450 stations }  Mitchell 1963: 183 stations Ò  Jones et al. 1986: 2194 stations Ò  Brohan et al. 2006: 4349 stations Ò  Muller et al. (2012): 39,340 stations Paul N. Edwards 26 February 2013
  • 26. Berkeley Earth (2012) Les moyennes globales de températures Decadal Land−Surface Average Temperature 1 10−year moving average of surface temperature over land Étude dirigée par Gray band indicates 95% uncertainty interval Richard Muller — 0.5 Temperature Anomaly ( °C ) physicien et climatosceptique à UC Berkeley 0 Financée par les −0.5 frères Koch (des riches conservateurs de l’extrème droite) −1 NASA GISS NOAA / NCDC Hadley / CRU −1.5 Berkeley Earth 1750 1800 1850 1900 1950 2000 Paul N. Edwards 26 February 2013
  • 27. surfacestations.org Paul N. Edwards 26 February 2013
  • 28. Paul N. Edwards 26 February 2013
  • 29. A. Watts, “Is the U.S. Temperature Record Reliable?”, Heartland Institute, 2009 MMTS = Maximum/Minimum Temperature System (thermistor électronique ) “Nous étions choqués par ce que nous avons trouvé… C’est probable que 9 sur 10 stations rapportent des températures en hausse parcequ’ils sont mal situées sur leurs sites.” Paul N. Edwards 26 February 2013
  • 30. “Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC: Climate Reference Network Rating Guide - adopted [sic] from NCDC Climate Reference Network Handbook, 2002, specifications for siting (section 2.2.1)” Paul N. Edwards 26 February 2013
  • 31. Menne et al. (2010) }  Confirment les métadonnées recuillies par surfacestations.org }  Comparent les stations bien situées avec celles qui sont mal situées }  Comparent les stations dans le USHCN avec celles dans le USCRN (Réseau de recherche climatique des EUA) }  USCRN: 114 stations (y compris 7 en double) }  Des instruments très précis, en 3 exemplaires }  Les sites et l’instrumentation des stations sélectionnés selon les normes les plus rigoureux Paul N. Edwards 26 February 2013
  • 32. Menne et al. (2010), Fig. 1 USHCN exposure classifications according to surfacestations.org (circles and triangles). Filled symbols are in agreement with independent assessments by NOAA/National Weather Service Forecast Office personnel. …Ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered “poor” exposure. $%&# # Source: “V1.05 USHCN Master Station List”. (Downloaded from www.surfacestations.org in June 2009. A $%'# complete set ofUSHCN exposure classificationsWatts [2009] wasto surfacestations.org (circles and more Figure 1. USHCN station classifications as referenced in according not available for $%(# triangles). of this analysis). general use at the time Filled symbols are in agreement with independent assessments by $$)# NOAA/National Weather Service Forecast Office personnel. Ratings are based on criteria Paul N. Edwards 26 February 2013 $$"# similar to those used to classify U.S. Climate Reference Network stations. In this analysis, $$!# ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered $$%# “poor” exposure sites.
  • 33. “Comparison of the [continental US] average annual (a) maximum and (b) minimum $%%# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. # 2009] and USCRN departures from the 1971-2000 normal. Good and poor site ratings $%&# Figure 7. Comparison of the CONUS average annual (a) maximum and (b) minimum are based on surfacestations.org.” $&'# temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009] $&(# Source: Menne et al., "On the from the of the U.S. Surface Temperatureand poorJ.site ratings are based and USCRN departures reliability 1971-2000 normal. Good Record,” Geophys. Research Paul N. Edwards 26 February 2013 $&!# (2010), Fig. 7 on surfacestations.org as in Fig. 1. $&)# !
  • 34. Menne et al. (2010) }  Conclusion: l’exposition mauvaise de la majorité des stations USHCN est confirmé, mais… }  « Les ajustements appliqués aux données USHCN Version 2 prennent largement en compte les effets de changements d’instruments et d’expositions, bien qu’un petit biais négatif [froid] paraît rester… » « Adjustments applied to USHCN Version 2 data largely account for the impact of instrument and siting changes, although a small overall residual negative (“cool”) bias appears to remain… » }  « On trouve aucune évidence d’une inflation des tendances de température due à une mauvaise exposition des stations. » }  We find no evidence that …US temperature trends are inflated due to poor station siting.” Paul N. Edwards 26 February 2013
  • 35. conclusions Paul N. Edwards 26 February 2013
  • 36. Les métadonnées: un produit ou un processus? }  Une enquête quasi-ethnographique sur 3 grands projets en climatologie, écologie, et surveillance environmentale }  Résultats: }  Chaque projet tache de mettre en place des systèmes automatisés de collecte de métadonnées }  Mais la collecte de métadonnées restent un travail difficile }  Un travail sans fin du à: ¨  Le versionnage de bases de données ¨  Les motivations des scientifiques ¨  Le fait qu’on ne sait pas dès le début qu’une base de données sera utile pour autrui }  La communication entre des individus, souvent informelle, reste le processus de base dans le partage de données Paul N. Edwards 26 February 2013
  • 37. Un règle invariable dans le partage de données }  Plus la distance entre la discipline d’origine et celle qui s’en sert est grande, plus les métadonnées sont essentielles — et plus large est le champ de précisions requises Paul N. Edwards 26 February 2013
  • 38. Les guerres de données: on conteste… }  Les bases de données }  Les modèles d’analyse de données }  ClearClimateCode.org }  Les interprétations des données }  …et bientôt les simulations de la circulation générale atmosphérique? }  … et les métadonnées Paul N. Edwards 26 February 2013
  • 39. “Les métadonnées ne sont le métier de personne” — S.L. Star }  Les scientifiques? }  Les gestionneurs de données? }  La foule “crowdsourcing”? }  Les jeunes? }  Les spécialistes en sciences sociales? }  Les “data scientists”? Paul N. Edwards 26 February 2013
  • 40. Competitors may get an advantage 34.33% Dealing with questions from users about the data 33.83% Technical limitations, ie. webspace platform space constraints 27.82% Whether there is intense competition in the topic 24.81% 2009 sondageput in a134 amount of work buildingdudataset Whether you de large scientifiques the communauté 24.63% Machine Learningdata that might substitute for your own Availability of other 14.93% Table 10: Top Reasons Not to Share Code Not Share The time it takes to clean up and document for release 77.78% Dealing with questions from users about the code 51.85% The possibility that your code may be used without citation 44.78% The possibility of patents or other IP constraints 40.00% Legal barriers, such as copyright 33.72% Competitors may get an advantage 31.85% The potential loss of future publications using this code 31.11% The code might be used in commercial applications 28.15% Availability of other code that might substitute for your own 21.64% Whether you put in a large amount of work building the code 20.00% Technical limitations, ie. webspace platform space constraints 20.00% 23 “Dealing with questions from users about the data” is the seventh most highly cited reason not to Source:V. Stodden, “The Scientific Method in Practice: Reproducibility in the Computational Sciences,” share data. MIT Sloan School Working Paper 4773-10 (2010) 24 This was also the first substantive scientific paper published in the Transactions, Thomas Kuhn (1978, 27) cited in Willinsky p 200. “the publication of this letter proved to be a more open N. Edwards 26 February 2013 than Newton Paul and immediate forum for his work 25 was willing to bear, and he did not again use the journal to publish his experimental pursuits but relied exclusively on the unhurried book, most notably with the Principia, published fifteen years later in 1687.” Willinsky p200. This firestorm of exchange seems to have lead to the creation of the blind review process.