Museum collections as research data - October 2019
Samlingsportaler for universitetsmuseene, MUSIT seminar, GBIF Norge (2013)
1. MUSIT seminar:
Trenger de naturhistoriske museene egne portaler for tilgjengeliggjøring av samlingsdata?
Global Biodiversity Information Facility
GBIF Norge
Dag Endresen og Christian Svindseth
GBIF Norge, NHM-UiO
Naturhistorisk museum, Universitetet i Oslo (NHM-UiO)
Global Biodiversity Information Facility (GBIF)
6 februar 2013
2. Emner
• Hva er GBIF?
• GBIF data portal
• Portal toolkit (NPT)
• Darwin Core (DwC), DwC arkiv
• Stabile ID nøkler (UUID)
• Data manuskript, sitering for datasett
2
3. GBIF arbeider for fri og åpen tilgang til
biodiversitetsdata online.
Vi er et internasjonalt og statlig initiert og
finansiert nettverk med fokus på å bidra til at
biodiversitetsdata er tilgjengelig for alle og
enhver, for vitenskapelig forskning, bevaring
og bærekraftig utvikling.
Status data portal
Februar 2013
3
5. Etter anbefaling fra OECD Global Science Forum (1999):
“[E]stablish and support a distributed system of interlinked and
interoperable modules (databases, software and networking
tools, search engines, analytical algorithms, etc.) that together
will form a Global Biodiversity Information Facility (GBIF)”.
6. GBIF’s unike rolle
• Register for biodiversitet data ressurser.
• Verktøy og support for publisering av biodiversitetsdata.
• Nettverk på nasjonalt, regionalt og globalt nivå.
• Ett globalt virtuelt naturhistorisk datasett.
• Tverrsektoriell lenke mellom data fra samlinger, økologi
og genetikk.
• Tilgang til biodiversitetsdata for GIS analyse og
miljøovervåking.
– Aggregerte data for stedfestede artsobservasjoner.
6 Basert på ett lysbilde av Donald Hobern (2012)
7. Forbedrer ”fitness-for-use”
Aggregate
• Progressiv forbedring
– Dataindeks
• Sentralisert søkesystem.
Data
Indexes
• Standardisering av stabile nøkler.
• Konsekvensanalyse for metadata.
– Datakvalitet
• Uoverenstemmelser innenfor poster.
• Validering av poster mot metadata.
Data • Identifisering av avvikende data.
Quality
• Statistikk per post og per datasett.
– Ekspert korrigering
• Interface med fagmiljø for artsnavn.
• Rapportering av feil og annoteringer fra
Expert databrukere.
Curation
Basert på ett lysbilde av Donald Hobern (2012)
8. Samarbeidspartnere
– Biologisk litteratur
• Biodiversity Heritage Library (BHL).
• Annoteringer fra brukere for å ekstrahere stedfestede
artsobservasjoner.
• Lenke mellom artsbeskrivelser fra litteratur til taxonomi og
artsnavn.
– Artsinformasjoner
• Encyclopedia of Life (EOL).
• Assistere EOL som global aggregator av artsbeskrvninger.
• Include EOL summary box on each GBIF species page
– Artsnavn, nomenklatur
• Catalogue of Life (CoL), etc.
• Publisere globale og regionale datasett med artsnavn.
• GBIF infrastruktur kan levere artsnavn til CoL (etc.).
8 Basert på ett lysbilde av Donald Hobern (2012)
9. 1.Informasjonsinfrastruktur –
en Internet-basert indeks for et
globalt distributert nettverk av
interoperative databaser som
inneholder primær biodiversitet
data.
1.Programvare, standarder og
protokoller – verktøy som
dataleverandører behøver for å
formattere og publisere data.
1.Opplæring– og tilgang til et
globalt nettverk med eksperter.
9
11. GBIF portal: 17,281,052 artsobservasjoner og objekter (16,076,604 med koordinater).
GBIF Norge: 11,777,738 artsobservasjoner og objekter er publisert FRA norske dataleverandører.
12. GBIF portal: 17,281,052 artsobservasjoner og objekter (16,076,604 med koordinater).
GBIF Norge: 11,777,738 artsobservasjoner og objekter er publisert FRA norske dataleverandører.
13. Ta gjerne kontakt
med oss med
tilbakemeldinger
og forslag til
endringer og
forbedringer for
denne portalen!
14. GBIF leverer data for
artsobservasjoner og
museumsobjekter til
“Artskart”.
14
15. • Programvare fra GBIF for å implementere
online dataportaler for biodiversietsdata.
– Nasjonal, tematisk eller regional.
• Åpen kildekode, fritt tilgjengelig (Google Code).
• Drupal 7 (PHP, Javascript).
• Bygger videre på Scratchpads 2 .
– ViBRANT, NHM London, EU 7th framework.
– http://scratchpads.eu/
15
17. NPT Startup
web presence
Maps/Charts Taxonomy Customised data output
Functioning Components
Web Services <Web Services>
GBIF DATA PORTAL NODES PORTAL
Central Local
Index Cache
Data Processing Data Processing
Infrastructure Components
Global Data Publishers Local Data Publishers
Basert på ett lysbilde av David Remsen (2011)
18. NPT Startup
Basert på ett lysbilde av David Remsen (2011)
19. NPT kan utvides ved å utvikle
eller installere ferdige Moduler.
Basert på ett lysbilde av David Remsen (2011)
20. En modul kan vise en
kalender på din webportal.
Basert på ett lysbilde av David Remsen (2011)
21. En annen modul kan vise en liste med
artsnavn basert på artsobservasjoner
rapportert inn til GBIF portalen.
Basert på ett lysbilde av David Remsen (2011)
22. Modul som viser et GBIF data kart for
hver taxon i en artsliste
Basert på ett lysbilde av David Remsen (2011)
23. Standard oppsett fra GBIF leverer et
startpunkt for videre utvikling.
•Leverer en konfigurerbar webportal.
•Leverer et rammeverk for der nye moduler kan
legges til.
•Viser GBIF portal data som datakart for ditt land
eller din region.
Basert på ett lysbilde av David Remsen (2011)
24. Ulike portaler vil implementere helt
ulike sett av moduler for å
imøtekomme sine egne behov.
Basert på ett lysbilde av David Remsen (2011)
25. Maps/Charts Taxonomy Customised data output
Functioning Components
Web Services <Web Services>
GBIF DATA PORTAL NODES PORTAL
Central Local
Index Cache
Data Processing Data Processing
Infrastructure Components
Global Data Publishers Local Data Publishers
NPT Processed Data Service
Basert på ett lysbilde av David Remsen (2011)
26. Maps/Charts Taxonomy Customised data output
Functioning Components
Web Services <Web Services>
GBIF DATA PORTAL NODES PORTAL
Central Local
Index Cache
Data Processing Data Processing
Infrastructure Components
Global Data Publishers Local Data Publishers
NPT Raw Data Service
Basert på ett lysbilde av David Remsen (2011)
28. Darwin Core – terminologi, vokabulær
Wieczorek J, Bloom D, Guralnick R, Blum S, Döring M, De Giovanni R, Robertson T, and
Vieglais D (2012) Darwin Core: An Evolving Community-Developed Biodiversity Data Standard.
PLoS ONE 7(1): e29715. (doi:10.1371/journal.pone.0029715)
29. Tverrsektorell artsdata
Ecological
Genomics
Monitoring
Darwin Core
Integrert tilgang for
artsobservasjoner for
alle arter:
• Hva?
• Når?
•
Collections
Hvor?
• Bevis og
dokumentasjon?
• Dataeier?
• Lenke til originaldata
Forekomst av art Basert på ett lysbilde av Donald Hobern (2012)
30. Tverrsektorell artsdata
Ecological
Darwin Core Genomics
Monitoring
+ Core Survey
Fields
Darwin Core
Sample Id
Integrert tilgang for Method Id
Utvidelser kompatibel
artsobservasjoner for Relative abundance med Darwin Core
alle arter:
... standarden, pluss:
• Hvilke arter er funnet
• Hva?
sammen?
• Når?
Collections • Hvilke datasett er
• Hvor?
direkte
• Bevis og
sammenlignbare?
dokumentasjon? • Hvilke arter er mest
• Dataeier?
tallrike på ulike
• Lenke til originaldata
lokaliteter?
Forekomst av art Forekomst og fraværs-
Basert på ett lysbilde av Donald Hobern (2012)
data
32. Darwin Core Arkiv (DwC-A)
Publiseringsformat for Darwin Core termer
inkludert flere standardiserte utvidelser.
Enkelt tekstbasert format.
Zip-komprimert filarkiv.
Germplasm.txt
32
33. Muligheter med Darwin Core:
MUSIT
UiB Portal…?
GBIF
UiT Portal
Darwin Core Arkiv
NTNU Artskart
Samlinger publiseres fra dataeier som ett Darwin Core arkiv (DwC-A).
Ulike datatyper fra samme DwC-A kan inkluderes til ulike data portaler. 33
34. • Stabile ID nøkler (UUID, QR code)
• Datasett metadata (data manuskript)
34
35. • Globalt unike ID nøkler.
• Skalerbar modell, antall ID nøkler.
• Sosial aksept i fagmiljø.
• Lang livssyklus for ID nøkler.
• ”Resolution service(s)”.
• Kostnad per ID nøkkel.
• Bruker- eller maskin-vennlig.
• Løsning for å generere nye ID nøkler.
– Sentralisert system for nye ID nøkler.
– Føderert generering av ID ved kilde.
35
36. • En UUID er et 16-octet (128-bit) nummer.
• Eksempel:
C37E3F9B-BCAF-4479-8EB7-3346A2DB2373
• Sannsynligheten at en duplisert nøkkel blir
generert er omkring 50% dersom alle
personer på hele jorden lager 600 million
UUIDs hver.
• Tillater lettvindt generering av nøkler ved
kilden i et føderert nettverk.
36
37. • “Quick Response Code” (QR code).
• En type matriks strekkode (eller to-
dimensjonal kode).
• Populær grunnet hurtig maskinlesbar og
stor kapasitet for lagring.
• Anvendelsen av QR koder er gratis uten
begrensende lisensbetingelser.
• Format for QR koder er entydig definert og
publisert som en ISO standard.
• Oppfunnet i Japan av et datterselskap til
37
Toyota: Denso Wave i 1994.
38. QR-kode for museumsobjektene ved
NHM-UiO ville kunne levere:
•Maskinlesbar id med en ordinær
smart phone (eller PDA).
•Ny og effektiv arbeidsflyt for
samlingsarbeide.
•Implementering av stabile id nøkler
velegnet for databaser.
38
39. • Peer review løsning for biodiversitetsdata.
• Vitenskapelig anerkjennelse for publisering av
data.
• Mekanisme for bedre datakvalitet.
• Mekanisme for sitering av data.
• Metadata format: Ecological Metadata
Language (EML), Dublin Core, Darwin Core,
Natural Collections Descriptions (NCD)…
• Nye muligheter Hvert datasett publisert til
GBIF med eget data manuskript…?
39
40.
41. FNs “Millennium Ecosystem Assessment” (2005) viste at
menneskelige handlinger ofte leder til irreversible tap innen det
biologiske mangfoldet, og at disse tap har vært større i de siste
50 årene enn noen gang før i menneskehetens historie.
Biologisk mangfold er nøkkelen til en bærekraftig fremtid – og
evnen av naturlige og sosiale systemer for å tilpasse seg
endringer, er avgjørende for nesten alle aspekter av
menneskets velvære.
Fordi menneskeskapte trusler mot biologisk mangfold oppstår
over brede romlige og tidsmessige skalaer, biologisk mangfold
og økosystem overvåkning, varsling, og risikovurderinger krever
data som er organisert i en globalt og lett-tilgjengelig, integrert
infrastruktur.
GBIF’s Data Portal leverer denne infrastruktur.
41
42. Takk for
oppmerksomheten!
GBIF Norge
Dag Endresen
dag.endresen@nhm.uio.no
Christian Svindseth
christian.svindseth@nhm.uio.no
Innlegg ved MUSIT seminar
på Gardermoen, 6 februar 2013
Notas do Editor
GBIF about, http://www.gbif.org/index.php?id=269 Wilson, 2002; Worm et al., 2006; Duke et al., 2007.
OECD (1999). Final report of the OECD Megascience Forum Working Group on Biological Informatics that in 1999 recommended the creation of a Global Biodiversity Information Facility. Organisation for Economic Co-operation and Development (OECD), Secretariat, Paris, France. Available at http://www.oecd.org/dataoecd/24/32/2105199.pdf, and at http://www.gbif.org/orc/?doc_id=1306, verified 5 November 2012. http://en.wikipedia.org/wiki/Organisation_for_Economic_Co-operation_and_Development
Suggested areas in which GBIF ’ s global mandate gives it a unique responsibility and leadership role. More on some of these in later slides.
A focus on one of the data pathway components. Data aggregation should be a multi-stage process, including simple improvement in data accessibility (already achieved), automated processing to detect problems, enhance quality and enrich descriptive metadata (well under way) and expert intervention to refine data and address problems that cannot be handled automatically. This last stage (expert curation) is a major challenge for GBIF as for other biodiversity informatics projects and should probably be handled as a joint concern for all these programmes – particularly since the expert community is so small. This will mean that the biodiversity informatics community will need to focus on delivery of easily-used tools to support such curation, with clear immediate benefits to researchers if they use these tools.
More specific opportunities in the short to medium term for GBIF to collaborate with global biodiversity informatics projects.
About GBIF: http://www.gbif.org/index.php?id=269, verified 5 November 2012.
GBIF data portal, http://data.gbif.org, verified 5 November 2012.
GBIF Data Portal, Norway, http://data.gbif.org/countries/NO, 16,064,074 records with coordinates from a total of 17,268,452 records GBIF Norway currently supplies data from 16 institutions , 67 databases , for a total of 11,777,738 records.
GBIF Data Portal, Norway, http://data.gbif.org/countries/NO, 16,064,074 records with coordinates from a total of 17,268,452 records. GBIF Norway currently supplies data from 16 institutions , 67 databases , for a total of 11,777,738 records. Data hosted from Norway, http://data.gbif.org/countries/datasharing?view=iso&host=NO&country=all
GBIF Data Portal, Norway, http://data.gbif.org/countries/NO, 16,064,074 records with coordinates from a total of 17,268,452 records. GBIF Norway currently supplies data from 16 institutions , 67 databases , for a total of 11,777,738 records. Data hosted from Norway, http://data.gbif.org/countries/datasharing?view=iso&host=NO&country=all
GBIF Node Portal Toolkit (NPT): http://npt-demo.gbif.org/, http://community.gbif.org/pg/groups/3507/nodes-portal-toolkit-npt/ Kildekode: http://code.google.com/p/gbif-npt/, Blog: http://nodesportaltoolkit.blogspot.com/ Scratchpads, virtual research environment, http://scratchpads.eu/, Virtual Biodiversity Research and Access Network (ViBRANT), http://vbrant.eu
Wieczorek, John; D. Bloom, R. Guralnick, S. Blum, M. Döring, R. De Giovanni, T. Robertson, and D. Vieglais (2012) Darwin Core: An Evolving Community-Developed Biodiversity Data Standard. PLoS ONE 7(1): e29715. doi:10.1371/journal.pone.0029715
Through the concepts included in Darwin Core (and through equivalent data representations) GBIF has demonstrated the significant value arising from a focus on simple, widely-used data elements to support fundamental discovery, access and filtering of biodiversity data records.
GBIF occupies an important potential role as an aggregator of species-based information from multiple domains. As such, it can serve as a pillar database to support the unification of collections-based research, field ecology and genomics. An improved focus on the use of identifiers in each of these domains may facilitate linked-data exploration not easily supported today. Expansion to harness the full complexity of ecological, site- and sample-based monitoring data would include massive investment in ontology development. However, there is significant scope for including a few highly-generic concepts as a complement to the existing Darwin Core fields. Associating DwC records that relate to a single ” sample ” (pitfall, transect, site visit, etc.) via a common identifier for that same sample will allow records to be grouped to understand that the records represent some kind of community co-occurrences. Including an identifier for the associated sampling method (preferably a resolvable URL leading to a description of the method) will allow users to recognise and select ” samples ” collected using the same methodology (even if that methodology is initially only referenced by a single data provider), and thereby will open the door to inferred absence data. Where available, including a numerical value for each record allowing the taxa within a sample to be ordered in abundance (whether that numerical value is an absolute count, a measure of mass, a categorical scale or whatever) will allow fuller comparison between sampled communities across time and space. These steps would be simple and could immediately increase the value of bird count data, tree abundance records, genomic samples, etc.
Once a name is allocated, there is a social expectation that the name should always refer to the item and that the item, or at least information about the item, should be retrievable on production of its name to the correct service.
NB! DEMO!! http://macnhm19.uio.no/id/C37E3F9B-BCAF-4479-8EB7-3346A2DB2373 (not permanent PID or ID resolver, only for DEMO!)
Narwade, S., Kalra, M., Jagdish, R., Varier, D., Satpute, S., Khan, N., Talukdar, G., et al. (2011). Literature based species occurrence data of birds of northeast India. ZooKeys , 150 : 407-417. Pensoft Publishers. DOI: 10.3897/zookeys.150.2002 Jones, K. E., Bielby, J., Cardillo, M., Fritz, S. A., OʼDell, J., Orme, C. D. L., Safi, K., et al. (2009). PanTHERIA: a species-level database of life history, ecology, and geography of extant and recently extinct mammals. (W. K. Michener, Ed.) Ecology , 90 (9): 2648. Ecological Society of America. DOI: 10.1890/08-1494.1 Biodiversity Data Journal (BDJ) is a community peer-reviewed, open-access, comprehensive online platform, designed to accelerate publishing, dissemination and sharing of biodiversity-related data of any kind. http://www.pensoft.net/journals/bdj
GBIF about, http://www.gbif.org/index.php?id=269, Wilson, 2002; Worm et al., 2006; Duke et al., 2007. http://www.unep.org/maweb/en/index.aspx