SlideShare uma empresa Scribd logo
1 de 34
2015/2/27
第41回統合DBミーティング
Integrated MTG in NIBIO
1
本日の予定
• Sagace
– アクセス解析
– 新規追加DBについて
• 医薬基盤研内のデータのRDF化
– Opent TG-GATEs
• BH14.14での進捗報告
• アプリケーション化
– 実験動物研究資源バンク
• アプリケーション化
2
新規追加予定のDB
• https://www.evernote.com/l/ANWfxInw105F665jeMwsYlApJl54JGtAg5c
3
Open TG-GATEsのRDF化
• BH14.14&SPARQLthon39 での進捗
– Schemaの作成(別紙参照)
• http://bit.ly/1EtNjm1
• 個体,実験,サンプル毎に分類
• Control vs Target については,解析に実験を紐付
ける形で解決
– 生化学的検査・血液学的検査値のRDF化
• http://bit.ly/1DsOm3P
• 個別の検査項目,単位までRDF化
4
生化学的検査・血液学的検査値のRDF化
抜粋(例:ALP)
sio:SIO_000216 [
a obo:CMO_0000045 ;
sio:SIO_000300 763 ;
skos:prefLabel "plasma alkaline phosphatase activity
level" ;
rdfs:label "plasma alkaline phosphatase activity level" ;
tgo:abbr "ALP";
sio:SIO_000221 snomedct:259001000 ;
#sio:SIO_000221 means has unit
#snomedct means Systematized Nomenclature of Medicine,
259001000 means International unit/liter (IU/L)
];
5
再RDF化に際して-直面した問題点等
• 個体と実験の区別をどう設計し,Schemaで
表現するか
• 生化学的・血液学的検査値に該当するオント
ロジーは既存のもので対応可能か
– 結果的には全て対応可能だった
– 複数該当するオントロジーがある場合にどれを選
択するか
– 上位のクラスを選択するか否か(例:blood or
plasma)
• 上記のことは,BioHackathonや
SPARQLthonで直接相談するのが早かった。
6
使用したオントロジー-SIO
• The Semanticscience Integrated
Ontology (SIO)
– 計測系のオントロジー
– Bio2RDFも管理・運営しているSemantic
Web technologiesにより開発
– 今回は,計測値が値を持つことの表現に使用
– 例:has measurement value, has unit
7
使用したオントロジー-
SNOMED-CT
• Systematized Nomenclature of
Medicine - Clinical Terms (SNOMED-CT)
– 医療関連であれば,かなり網羅的に作成され
ているオントロジー。
– デンマークに本部がある非営利団体
IHTSDO(International Health Terminology Standards
Development Organization)によって管理・運営
– BioPortalで最も人気
– 今回は計測単位(unit/liter (IU/L)),(mg/dL)など
に使用
8
使用したオントロジー-CMO
• Clinical Measurement Ontology
– ミシガン大学で開発されているオントロジー
の1つ。
• 公開されているオントロジーは150
• 生物学的,環境学的など多くのオントロジーがあ
る。
– 今回は臨床検査に特化したオントロジーを
AST, BUNなどの検査項目に使用
9
進捗
• サンプルデータの作成
• 現在のRDFから,プログラム処理でデー
タを変換中
• 今年度中にひと通り再RDF化する予定
10
アプリケーション化
• クエリ:副作用
• 結果:化合物名,その化合物が投与された際
のラットの血液学的・生化学的検査値
– 異常値には色付け
– High:赤,Low:青
• 参考:Exotic Animal Companion Medicine Handbook for Veterinarians,
Johnson-Delaney, C., 1996, Zoological Education Network
• PHPにて実装
– 直接トリプルストアにクエリを投げる
– 検索結果のJSONからhtmlに出力
11
今回注目する値
• 肝機能の指標
– AST (GOT)
• アスパラギン酸アミノ基転移酵素
– ALT(GPT)
• アラニンアミノトランスフェラーゼ
– LDH
• 乳酸脱水素酵素
• 腎機能の指標
– NA
– K
– Ca
– BUN
• 尿素窒素
– CRE
• 血中クレアチニン
12
結果の見方
• アプリケーションでは,化合物と血液学
的・生化学的検査の値を表示。
• 特定の副作用経由のラットの実験値のう
ち,異常値(Highのみ)の割合を下部に
表示。
13
コントロールのラットの場合
AST ALT LDH NA K Ca BUN CRE
Abnormal(high)/
Total (%)
3% 82% 50% 0% 0% 0% 6% 0%
14
• 注意:
– コントロールのラットでも異常の個数の割合
が多いALTは異常値の設定が今回の実験に適
合していない可能性がある。
LDH
• 心臓や肝臓の疾患,貧血や炎症などで高
値になる傾向が知られている。
• 実験条件は以下に固定した場合
– Repeat
– in vivo
– Liver
– Middle dose
– 15 day
15
欠乏性貧血
16
自己免疫溶血性貧血
17
微小血管症性溶血性貧血
18
BUN
• 腎機能の指標値,腎機能の低下,腎不全
などで高値となる。
• 実験条件は以下に固定した場合
– Repeat
– in vivo
– Kidney
– Middle dose
– 15 day
19
20
糖尿病性腎症
21
結果と応用例(仮説)
– 実際に知られている知見と整合性の取れる結
果が得られた。
– ラットで観察された血液学的・生化学的デー
タ&遺伝子発現データを特徴量とし,特定の
副作用で共通するパターンを見つける
– 薬の開発時におけるラットによる非臨床試験
で,Open TG-GATEsと同様な実験が行われ
た時にヒトに発生しうる副作用の予測
22
実験動物研究資源バンクの
RDF化&アプリケーション化
• 再RDF化
– 別紙参照
• アプリケーション化
– 現在実験動物研究資源バンクがウェブ上で提
供している機能の実装
– GUIでPostgreSQL等と同じように管理・運用
できるかの実験
– 基盤研内部・外部のトリプルストアとの統合
とアプリケーション化の実験
23
基盤研内部データとの統合
疾患(ICD-10)
実験動物研究
資源バンク
24
難病研究資
源バンク
21
希少疾病
用医薬品
149
24
0
0
5
3
予想以上に重なるIDが少なかった
基盤研内部データとの統合
Gene Symbol
• JCRB細胞バンクのデータとGene
Symbolで統合できるか実験
– 実験動物研究資源バンクである119の遺伝子
をSagaceで検索
– 一致した8個のエントリについて,sagaceの
インデックスファイルとmicrodataをもとに
RDF化
– トリプルストアで統合
25
基盤研内部データとの統合
Gene Symbol
• JCRB細胞バンクのデータとGene
Symbolで統合できるか実験
– 9遺伝子が細胞バンクのエントリと一致
– エントリ別
• 実験動物研究資源バンク:49/216
• JCRB細胞バンク:8/1194
• ちなみに疾患は疾患名で検索したところ
2疾患のみ一致
26
基盤研外部のデータとの統合
MGI
• MGI(Mouse Genome Informatics)
– ジャクソン研究所が提供しているマウスに関する
遺伝子,Phenotypeなど生物学的な情報を提供す
る統合データベース
– Bio2RDFによりRDF化
• 文献経由でMGIが提供しているPhenotype情
報を取得
• 実際のPhenotypeの名称はMonarchで取得
– Monarchはオレゴン健康科学大学などで運営され
ているDB統合プラットフォーム
27
基盤研外部のデータとの統合
MGI-文献の場合
• 関連付けられた実験動物研究資源バンク:
15/216エントリ
• 紐付けられた文献 : 10/130個
• 取り出せたPhenotype : 132個
28
基盤研外部のデータとの統合
MGI-gene Symbolの場合
• 関連付けられた実験動物研究資源バンク:
140/216エントリ
• 紐付けられたGene Symbol : 85/120個
• 取り出せた染色体情報(染色体,位置) :
263個
29
アプリケーション化に際して
課題など
• SQL的な操作は概ね可能
• IDを重複させないようにするためにはプログラム的な処
理が必要
• 1対多,多対多の場合には,SPARQLで表示上の工夫
– (GROUP_CONCAT(?gene; SEPARATOR = “, ”) AS ?geneList)な
ど
• RDF化した複数のデータベース由来のデータをトリプル
ストアで統合して表示させることは現実的
– 想像していたより一致するデータが少ない
• 外部のトリプルストアからデータを得るには時間がかか
りすぎて現実的ではない
30
RDF化とデータ統合に際して
• 細胞バンク
– Sagaceでmicrodataを付与していたので,提案語彙を
そのまま使う場合にはRDF化は楽だった。
– まともにRDF化するならば,Schemaの設計からかな
りコストがかかる。
• 理研ではかなりRDF化を進めているので,それらを利用すれ
ば,負担は減る。
• ただ,理研のデータに特化した設計である可能性があるので,
それなりに手間がかかる。
– 異種のデータと統合するなら,疾患,遺伝子,文献,
臓器経由が妥当?
31
RDF化とデータ統合に際して
• 横断検索とRDF
• 今後横断検索のインデックスがJSONになるな
らば,構造化された部分をRDF, JSON, WEB
APIで公開すれば役立つ可能性。
– 横断検索で使用されている構造化データは断片的だ
が,アプリケーションを作成する際には断片的な
データも役立つため。
32
その他
• TargetMineの統合TV
– キーワード・テンプレート検索編の完成
– リスト検索・クエリビルダ編
• 日本語版はほぼ完成
• 英語版は来週中に完成予定
33
今後の予定
• SPARQLthon30
– 3/12-13 @ 理研
• 次回
– 3/18?
34

Mais conteúdo relacionado

Mais de Maori Ito

Presentation forpd bj_1
Presentation forpd bj_1Presentation forpd bj_1
Presentation forpd bj_1
Maori Ito
 

Mais de Maori Ito (20)

Test slide for the lab - Target prioritization
Test slide for the lab - Target prioritization Test slide for the lab - Target prioritization
Test slide for the lab - Target prioritization
 
Test for lab_j Psiver j
Test for lab_j Psiver jTest for lab_j Psiver j
Test for lab_j Psiver j
 
Psiver j
Psiver jPsiver j
Psiver j
 
38th MTG in NIBIO
38th MTG in NIBIO38th MTG in NIBIO
38th MTG in NIBIO
 
35th mtg in NIBIO
35th mtg in NIBIO35th mtg in NIBIO
35th mtg in NIBIO
 
34th mtg in NIBIO
34th mtg in NIBIO34th mtg in NIBIO
34th mtg in NIBIO
 
32nd MTG in NIBIO
32nd MTG in NIBIO32nd MTG in NIBIO
32nd MTG in NIBIO
 
31st Integrated DB MTG in NIBIO
31st Integrated DB MTG in NIBIO31st Integrated DB MTG in NIBIO
31st Integrated DB MTG in NIBIO
 
30th Integrated DB MTG in NIBIO
30th Integrated DB MTG in NIBIO30th Integrated DB MTG in NIBIO
30th Integrated DB MTG in NIBIO
 
29th Integrated DB MTG in NIBIO
29th Integrated DB MTG in NIBIO29th Integrated DB MTG in NIBIO
29th Integrated DB MTG in NIBIO
 
Presentation forpd bj_1
Presentation forpd bj_1Presentation forpd bj_1
Presentation forpd bj_1
 
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
 
27th mtg 1
27th mtg 127th mtg 1
27th mtg 1
 
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
 
The Progress on Sagace and Data Integration
The Progress on Sagace and Data IntegrationThe Progress on Sagace and Data Integration
The Progress on Sagace and Data Integration
 
26th mtg
26th mtg26th mtg
26th mtg
 
25th mtg 1
25th mtg 125th mtg 1
25th mtg 1
 
Schema.org extension for biological database @ Biohackathon2013
Schema.org extension for biological database @ Biohackathon2013Schema.org extension for biological database @ Biohackathon2013
Schema.org extension for biological database @ Biohackathon2013
 
Life Science Database Cross Search and Metadata
Life Science Database Cross Search and MetadataLife Science Database Cross Search and Metadata
Life Science Database Cross Search and Metadata
 
Cellsalon5
Cellsalon5Cellsalon5
Cellsalon5
 

41st MTG in NIBIO