JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx

実際にデータをどうキュレーションするとFAIRになったと言えるのか
・FAIR evaluation の目的
・FAIR evaluatorが何を測定しているか
・FAIR evaluationと学術分野・対象
FAIR Evaluation – FAIR 度の測定
信定知江
E7: FAIRなデータキュレーションの実践

https://integbio.jp/dbcatalog/
取組みのきっかけ
FAIRsharingとの連携
懸念点
データベースの評価？
どのように調査する？

・デジタルリソースの作成者に対して何かを判断したり罰したりすることを目的としたもの
ではなく、標準に関する認識を促進することが目的。
・リソースの品質を評価することとそのFAIR度を評価することを混ぜないことが必要。
FAIR Evaluatior とはFAIRnessを評価するために設計されたものであり、FAIRスコアが低い
からといって、デジタルリソースの品質、有用性が足りないというわけではない。
・FAIRnessとオープン性の区別。 FAIRであることは、データ、ソースコード、ツール、ま
たはその他のデジタルリソースを無料でオープンに利用できるようにすることとイコールで
はない。FAIRガイドラインは、アクセスと使用のポリシーが提供され、明確に述べられてい
ることのみを要求している。
Daniel J.B. Clarke, Lily Wang, Alex Jones, Megan L. Wojciechowicz, Denis Torre, Kathleen M. Jagodnik, Sherry L. Jenkins, Peter
McQuilton, Zachary Flamholz, Moshe C. Silverstein, Brian M. Schilder, Kimberly Robasky, Claris Castillo, Ray Idaszak, Stanley C.
Ahalt, Jason Williams, Stephan Schurer, Daniel J. Cooper, Ricardo de Miranda Azevedo, Juergen A. Klenk, Melissa A. Haendel,
Jared Nedzel, Paul Avillach, Mary E. Shimoyama, Rayna M. Harris, Meredith Gamble, Rudy Poten, Amanda L. Charbonneau,
Jennie Larkin, C. Titus Brown, Vivien R. Bonazzi, Michel J. Dumontier, Susanna-Assunta Sansone, and Avi Ma’ayan (2019).
FAIRshake: Toolkit to Evaluate the FAIRness of Research Digital Resources; Cell Systems,
https://doi.org/10.1016/j.cels.2019.09.011
FAIR Evaluationの目的と注意点

FAIR Evaluationにおいて何を測定しているか
Evaluating FAIR maturity through a scalable, automated, communitygoverned framework, Scientific Data | (2019) 6:174,
https://doi.org/10.1038/s41597-019-0184-5
F1A ユニークなID をもつ
F1B IDの永属性がある
F2A 構造化されたメタデータ：ハッシュまたはグラフ
F2B メタデータが構造化され共通語彙に基づいているか：グラフ
F3 メタデータにGUID(Globally Unique Identifier)があるか：データベースカタログ: URLが書いてあるメタデータ。
F4 メタデータが検索エンジンで検索結果として返ってくるか：50位以内。
A1.1 （メタ）データ検索のためのオープンな通信プロトコルになっているか：プロトコルはFAIRsharingでFAIRであることが記述されていること
A1.2 その通信プロトコルは認証・承認をサポートするか：認証が必要なものである場合、そのことがFAIRsharingに記載されるか、dc:accessRights
のプロパティとして記述されていること
A2 メタデータは永続的か：外部から対象リソースへリンクされている場合など、リンクが古くて繋がらなくなることがあるが、F3が永属性を満た
していればメタデータは得られる。
I1A 知識表現言語の使用(soft) ：何が知識表現言語とされるかはコミュニティで議論があるべき。 soft : Any hash-style metadata (e.g. JSON or
microformat) or Linked Data
I1B 知識表現言語の使用(strict) ：Formats that are ontologically-grounded and machine-resolvable（Linked Data）
I2A FAIRな言語の使用(loose) ：データやメタデータの記述に使用されている言語自体がFAIRであるか。loose: 機械可読でなくてもFAIRな言語で書
かれていればよい。
I2B FAIRな言語の使用(strict) ：機械可読であることが必要（Linked Data）
I3 的確な外部リンク：外部リンクがあることは５つ星のLinked Dataの条件
R1.1 メタデータがライセンスへのリンクを持っているか：ハッシュスタイル：「ライセンス」キーを検索。Linked Data：ライセンスに使用される述
語をもつかどうか。

機械可読形式
FAIR Evaluation Services
https://fairsharing.github.io/FAIR-Evaluator-FrontEnd/#!/
FAIRshake
https://fairshake.cloud/
・機械可読性に焦点をあて、リソースの作成・修正に識別子、オントロジー、などの理解が必要
アンケート形式
Dutch Data Archiving and Networked Services ‘FAIR Enough?’
https://docs.google.com/forms/d/e/1FAIpQLSf7t1Z9IOBoj5GgWqik8KnhtH3B819Ch6lD5KuAz7yn0I0Opw/formResponse
・リソース作成者自身や専門家などリソースを熟知した人でないと判定できない
良いMetricsとは
•Clear: 誰でも何を判定したいのかが理解できる
•Realistic: リソースがmetricに準拠するのが過度に複雑であってはならない
•Discriminating: リソースごとに目的に合うように項目判定の重みづけを考慮し、リソースにおけるFAIR
度判定の価値を最大にする方向性を提供することができる
•Measurable: 何がどのようにして測られたかの透明性を確保しつつ、客観的、定量的、機械解読可能で、
拡張性があり再現性のある方法で作られる
•Universal: 全てのデジタルリソースに適用できる

Checklist to evaluate FAIRness of data(sets)
( https://docs.google.com/forms/d/e/1FAIpQLSf7t1Z9IOBoj5GgWqik8KnhtH3B819Ch6lD5KuAz7yn0I0Opw/formResponse )
Findability
Will your dataset have a Persistent Identifier after deposit?
A persistent identifier (PID) is a long-lasting reference to a single file or set of files. The DOI (Digital Object Identifier) is an
example of a commonly used PID for publications and data. Repositories with a CoreTrustSeal certification assign a PID to
each dataset. You can therefore answer yes if you answered the previous question with yes, too. (Note: even though this
question is listed under the letter F (findable), it also relates to A (accessible).)
YES / NO
Did you provide enough information (metadata) about your data for others to understand and reuse your data?
Metadata is the data that describes an object such as a dataset. It gives context to the research data, providing information
about the creator, provenance, purpose, time, geographic locations, access conditions, and terms of use of a data collection.
YES / NO
Did you provide rich additional documentation?
Additional documentation such as a summary of the content of the data, text about methodologies used or an explanation of
how data was collected helps other researchers assess and contextualize datasets (this question also relates to the letter R
(reusability) of FAIR).
YES / NO

FAIR
RDA : FAIR Data Assessment Model WG
https://www.rd-alliance.org/groups/fair-data-maturity-model-wg
本資料 : https://doi.org/10.15497/rda00035

(https://w3id.org/fair/maturity_indicator/terms/Gen2/Gen2_MI_F1A)

(https://w3id.org/fair/maturity_indicator/terms/Gen2/Gen2_MI_F1B)

( https://fairsharing.org/ )
Identifier Schema: InChi keys, DOIs, Handles, URLs etc.
→ compliance testに使用するものはまずFAIRsharing に登録
→ compliance test 時はAPIを介してFAIRsharingから情報を取得
将来的には以下のものもFAIRsharingで対応予定
Web transport protocols, file formats, other standards and policies

FAIR evaluationと学術分野・対象
FAIR原則の適用範囲
・分野：人文
社会学
科学（物理・地学・化学・生物・医学etc.）
etc.
・対象：データ
ソースコード
ツール
その他デジタルリソース全般
FAIR Evaluatior
・特定の目的に合わせてカスタマイズすることが可能
であり、期待される
・コミュニティで採用されたメトリックを設計してい
くことが必要
FAIRメトリックの初期セット
Identifier uniqueness (F1)
Identifier persistence (F1)
Structured metadata (F2)
Grounded metadata (F2)
Use of GUIDs in metadata (F3)
Metadata being indexed in a searchable resource (F4)
An open protocol for (meta)data retrieval (A1.1)
The protocol’s support for authentication/authorization (A1.2)
Metadata persistence (A2)
The use of a knowledge representation language (loose) (I1)
The use of a knowledge representation language (strict) (I1)
The use of FAIR vocabularies (loose) (I2)
The use of FAIR vocabularies (strict) (I2)
Qualified outward links (I3)
Metadata containing a link to a license (R1.1)

・FAIR Evaluatorは、FAIR原則に基づき調査項目と条件を定め、リソースについて項目ごとに条
件をクリアするものとしないものを明確にする
100 %の達成を目指すものではない。
FAIRへの対応を明確にすることにより、よりFAIRにするための取り組みが明確になる。
リソースの質等の評価ではないことに注意。
・調査項目や条件は、分野や対象によって違いが生じ得るので、コミュニティーでの調査・話し
合いと合意が必要
バイオ系の評価基準・ツール → 様々な分野や対象に広げることが期待される。
・機械可読形式のEvaluatorについては、評価項目や基準が簡単にカスタマイズできるので、これ
らのテストが検討、蓄積されることにより、コミュニティごとに最適なFAIR Evaluatorが作られ
る。
まとめ

参考
<FAIR Evaluation Services>
Evaluating FAIR maturity through a scalable, automated, communitygoverned framework, Scientific
Data | (2019) 6:174, https://doi.org/10.1038/s41597-019-0184-5
< FAIRshake >
FAIRshake: Toolkit to Evaluate the FAIRness of Research Digital Resources, Cell Systems, (2019)
https://doi.org/10.1016/j.cels.2019.09.011
<FAIR Cookbook>
https://fairplus.github.io/the-fair-cookbook/content/home.html
< FAIRMetrics/Metrics>
https://github.com/FAIRMetrics/Metrics
https://github.com/FAIRMetrics/Metrics/tree/master/MaturityIndicators/Gen2 に最新の定義

JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx

Semelhante a JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx (20)

JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx

Notas do Editor