Mais conteúdo relacionado
Semelhante a フリーソフトで始めるNGS解析_第41・42回勉強会資料 (20)
フリーソフトで始めるNGS解析_第41・42回勉強会資料
- 1. フ リ ー ソ フ ト で は じ め る
N G S 解 析 入 門
~公開データベース活用編~
- 2. Copyright © Amelieff Corporation. All Rights Reserved.
2
本 日 の テ ー マ
• NGSデータのSNV/Indel検出
• 公開データベース
– Variant database
– Disease curation
– Prediction database
– データベースの特徴
• データベース活用実践
– 「疾患関連の既知変異探索と新規変異探索」の例
- 3. N G S デ ー タ の S N V / I n d e l 検 出
Copyright © Amelieff Corporation. All Rights Reserved.
3
入力ファイル
リードのクリーニング
クオリティチェック
リファレンスゲノムへのマッピング
重複リードを除去
リアライメント、リキャリブレーション
マッピング結果のファイル
• Illumina CASAVA filter [Y] を除去
• クオリティ20未満の塩基が80%以上のリードを除去
• クオリティ20未満の末端をトリム
• 未知の塩基(N)が多いリード除去
• 配列長が短いリード除去
• 片側のみのリードを除去
ファイルの形式
フリーソフト
自社開発ツール
SNV / Indel 検出とフィルタリング
アノテーション付与
多型情報のファイル
- 4. Copyright © Amelieff Corporation. All Rights Reserved.
4
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
マッピングソフトウェア
・最新版 0.7.12(2014/12/28公開)
・BWA-SW & BWA-MEMアルゴリズム
70bp~1Mbに対応。
MEMはクオリティの高いシーケンスの時に高速かつ
高精度。70~100bpのイルミナシーケンス、454、
Ion Torrent、Sanger などで使用。
SWはgapが多いときに感度が良い。
Error rateは、100bpで2%以下、200bpで3%以下、
500bpで5%以下、 1000bp以上で10%以下が推奨。
• BWA-backtrackアルゴリズム
100bp以上のイルミナシーケンス用に最適化。
Error rateは、2%以下が対象。
BWA
- 5. Copyright © Amelieff Corporation. All Rights Reserved.
5
N G S デ ー タ の S N V / I n d e l 検 出
ショートリード
リファレンスゲノム
パッケージソフトウェア
・最新版 3.3-0(2014/10/23公開)
・DNAseqおよびRNAseqからSNV/Indel検出
UnifiedGenotyperとHaplotypeCaller
HaplotypeCallerはlocal de-novo assemblyを実施
VQSR(Variant Quality Score Recalibration)を使用
して、VQSLODを付与。既知SNPを用いたエラーモ
デルによって、真の変異であるか評価。ガウス混合
モデルで推定した対数オッズ比。
・2倍体以外の生物種の変異検出に対応。
「-ploidy」オプションの引数として、倍数を指定可能。
GATK
- 6. Copyright © Amelieff Corporation. All Rights Reserved.
6
N G S デ ー タ の S N V / I n d e l 検 出
リードがマッピング
されている様子
カバレージ
変異
BAM
VCF
・IGVによる可視化
・VCFファイル
:
- 7. Copyright © Amelieff Corporation. All Rights Reserved.
7
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
SnpEff
基本情報
ICGC
COSMIC
転写産物によって、
タンパク質へのインパ
クトが大きく異なる。
米国の直腸がんのプロジェクトで
0.46%の頻度で報告されている。
Functional impactが「Low」に
なっているが、どのように考えたらいいのか?
- 8. Copyright © Amelieff Corporation. All Rights Reserved.
8
N G S デ ー タ の S N V / I n d e l 検 出
・アノテーション情報
ClinVar
HGVD, ESP, 1kgp
OMIM
IntOGen
さまざまな集団中で
Altアリルの頻度が高い。
疾患関連変異のデータベースに登録がない。
dbSNP
- 9. Copyright © Amelieff Corporation. All Rights Reserved.
9
N G S デ ー タ の S N V / I n d e l 検 出
dbSNPに登録されている変異は除外してもいいのだろうか?
サンプル数が増えて
同じ作業を繰り返している。
自動的に絞り込んでくれるシ
ステムを作れないだろうか?
どのデータベースが信頼できるのか?
疾患関連の既知の変異のみを
まずは見たい。
でも、新規の可能性がある
変異情報も蓄積したい。
・アノテーション情報の活用?
- 10. Copyright © Amelieff Corporation. All Rights Reserved.
10
公 開 デ ー タ ベ ー ス
Prediction database
Disease curation
Variant database
- 11. 11
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
※引用 http://www.genome.med.kyoto-u.ac.jp/SnpDB/statistics.html
日本人のゲノム情報データベース Human Genetic Variation
Databaseは、2013年11月12日に公開。
登録されているSNPの半分以上は、dbSNPなどこれまでの既知変異デー
タベースに含まれていない日本人特異的。
日本人1,208名のエクソームシーケンシングデータから発見されたアリ
ルやジェノタイプの頻度を公開。
443,967変異を収録
- 12. 12
公 開 デ ー タ ベ ー ス
・Variant database
HGVD
2013.11.13公開データのサマリを示します。
[ Alt allele frequencyの分布 ][ Total allele countの分布 ]
データベースに含まれる1,208人の2,416本のアリルの
うち、各SNVにおいてジェノタイピングしたアリル数。
Altのアリル頻度の出現回数。
- 13. Copyright © Amelieff Corporation. All Rights Reserved.
13
公 開 デ ー タ ベ ー ス
・Disease curation
ClinVar
論文
臨床医学的に重要な変異と表現型の関連性についてのデータベース。
ClinVar: public archive of relationships among sequence variation and human phenotype
Landrum MJ, Lee JM, et al., Nucleic Acids Res. 2014 Jan 1
0 - Uncertain significance,
1 - not provided
2 - Benign
3 - Likely benign
4 - probable-pathogenic,
5 - pathogenic
6 - drug-response
7 - histocompatibility
255 – other / confers sensitivity /
risk factor / association / protective 88,268変異を収録
※引用 http://www.ncbi.nlm.nih.gov/clinvar/docs/clinsig/
- 14. Copyright © Amelieff Corporation. All Rights Reserved.
14
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
[1] dbNSFP: A Lightweight Database of Human Nonsynonymous SNPs and Their
Functional Predictions
Liu et al., HUMAN MUTATION, Vol. 32, No. 8, 894–899, 2011.
[2] dbNSFP v2.0: A Database of Human Non-synonymous SNVs and Their Functional
Predictions and Annotations
Liu et al., HUMAN MUTATION Database in Brief 34: E2393-E2402 (2013) Online.
論文
ヒトゲノムで起こりうるnon-synonymous SNP(NS)について、
SIFT、PolyPhen-2、LRT、Mutation Tasterによるprediction
scoreを公開。
PhyloP によるconservation scoreを公開。
遺伝子とコドンは、hg18のCCDS v.20090327に基づいて計算し、
liftOver tool を用いてhg19に変換。
全てのscoreは高いほど、高度に保存されている、または、有害で
ある可能性が高い。
- 15. Copyright © Amelieff Corporation. All Rights Reserved.
15
公 開 デ ー タ ベ ー ス
・Prediction database
dbNSFP
dbSNP V2.0では、prediction scoreにMutationAssessor と
FATHMM、conservation scoreにGERP++ と SiPhyを追加。
※引用 論文[2]のfigure 2, 3-A, 3-B ttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC4109890/
[ dbNSFP v2.0に登録されているscoreの割合 ]
prediction score conservation score
[prediction score と conservation scoreの樹形図]
UPGMA(非加重平均結合法)を用いてクラスタ解析。
- 16. Copyright © Amelieff Corporation. All Rights Reserved.
16
公 開 デ ー タ ベ ー ス
・データベースの特徴
1kgp
(39,619,602)ESP
(1,942,722)
HGVD
(443,967)
Variant database
1kgp独自の変異
ESP独自の変異
HGVD独自の変異
98.6%:
:
:
72.6%
65.7%
3つに共通する変異と、
HGVD独自の変異では、
Altアリル頻度の分布が異なる。
[ HGVDのAltアリル頻度 ]
COMMON
(78,023)
UNIQUE
(291,592)
Min. 0.0004 0.0004
1st Qu. 0.0023 0.0013
Median 0.0233 0.0017
Mean 0.1586 0.0125
3rd Qu. 0.2015 0.0033
Max. 1 1
UE
- 17. ICGC
(9,805,320)
COSMIC
(1,024,612)
ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
17
公 開 デ ー タ ベ ー ス
・データベースの特徴
ICGC独自の変異
COSMIC独自の変異
ClinVar独自の変異
Disease curation
96.7%:
:
:
67.9%
84.5%
0
2000
4000
6000
8000
10000
12000
COSMIC ∩ Clinvar ICGC ∩ Clinvar
CLNSIG=255
CLNSIG=6
CLNSIG=5
CLNSIG=4
CLNSIG=3
CLNSIG=2
CLNSIG=1
CLNSIG=0
ClinVarと共通する変異のうち、疾患関連の
インパクトがあるとされた(≥4の)変異の
割合は、COSMICが77.8%、ICGCが56.4%
- 18. ClinVar
(88,268)
Copyright © Amelieff Corporation. All Rights Reserved.
18
公 開 デ ー タ ベ ー ス
・データベースの特徴
HGVD とClinVarに共通する変異
HGVDのうち共通する変異の割合
ClinVarのうち共通する変異の割合
Variant database と Disease curation
5,176SNPs:
:
:
1.17%
5.86%
HGVD
(443,967)
さらにデータベースに閾値を設定すると…
• ClinVarで疾患関連のインパクトがあるとされた
(≥4の)変異は、1,743SNPs
• HGVDで「アリル頻度が5%未満」となる変異は、
3,303SNPs
• 「ClinVar」かつ「アリル頻度が5%未満」とな
る変異は、468SNPs
- 19. driver gene / mutationを特定するソフトウェア。
TCGAなどのExome-seqデータ(6,079 cases)を使用。
多数のアルゴリズムで変異の有害性を評価してDriver Scoreを
付与。
Copyright © Amelieff Corporation. All Rights Reserved.
19
公 開 デ ー タ ベ ー ス
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
CanDrA: Cancer-Specific Driver Missense Mutation Annotation with Optimized Features
Mao Y, et al., PLoS ONE 8(10): e77945. 2013.
missense driver mutationの predictionソフトウェア。
driver mutationを「腫瘍細胞にgrowth advantage を獲得させる体細胞変異」と定義。
COSMIC、TCGA、Cancer Cell Line Encyclopedia (CCLE)のデータから、
driver mutationとpassenger mutationのトレーニングデータを作成。
support vector machine (SMV) algorithmを用いて、3つのカテゴリ(driver、
passenger、non-call)に分類。
CanDrA
DriverDB: an exome sequencing database for cancer driver gene identification
Cheng et al., Nucleic Acids Research, 2013.DriverDB
- 20. Copyright © Amelieff Corporation. All Rights Reserved.
20
公 開 デ ー タ ベ ー ス
実験医学増刊「個別化医療を拓くがんゲノム研究」の3章6の英語版
cancer mutationのインパクトの評価
① non-synonymous mutationsを特定する。
SIFT, Polyphen-2, Mutation Assessor ,Condel, FATHMM, CHASM,
transFIC
② driver mutationによって細胞は増殖優位性を獲得する。このようなpositive
selectionのシグナルは、ドライバー遺伝子の推定にも用いられる。
MuSiC, MutSigCV , OncodriverFM , OncodriveCLUST , Active Driver
Identification of oncogenic driver mutations (Chapter 3.6)
Tamborero et al., Experimental Medicine, 2014
実験医学
※引用 https://www.yodosha.co.jp/jikkenigaku/book/9784758103404/
偶然よりも高い確率
で変異が蓄積される
機能的に影響を及ぼ
す変異に偏っている
特定の領域に蓄積する
タンパク質のリン酸化部
位に起きる傾向がある
・がんデータベースからドライバー遺伝子/変異を予測するアルゴリズム
- 21. Copyright © Amelieff Corporation. All Rights Reserved.
21
デ ー タ ベ ー ス 活 用 実 践
① nsSNVとssSNVを検索
② 1kgpとESPで、MAFが5%を超える変異を除外
③ prediction scoreが高い順にランク付け
④ conservation scoreが高い順にランク付け
⑤ 疾患関連の組織で発現していない遺伝子の変異を除外
⑥ Mendelian Inheritance in Man (MIM)に登録のある、または、
GWASで報告のある遺伝子の変異を強調
⑦ 疾患を引き起こす遺伝子と相互作用する遺伝子の変異を強調
⑧ 疾患関連のパスウェイにある遺伝子の変異を強調
dbNSFPが推奨しているフィルタリング方法
・「疾患関連の既知変異探索と新規変異探索」の例
- 22. Copyright © Amelieff Corporation. All Rights Reserved.
22
デ ー タ ベ ー ス 活 用 実 践
Variant classification
Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders
Yang et al., N Engl J Med 369, 2013.
・「疾患関連の既知変異探索と新規変異探索」の例
- 23. Copyright © Amelieff Corporation. All Rights Reserved.
23
デ ー タ ベ ー ス 活 用 実 践
・データベースは更新が必要
ClinVar dbSNP
ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar
/release_notes/
http://www.ncbi.nlm.nih.gov/projects
/SNP/buildhistory.cgi
Date
Total
Submissions
1-Feb-15 156,999
1-Jan-15 149,013
1-Dec-14 148,008
1-Nov-14 144,117
1-Oct-14 143,601
1-Sep-14 143,114
1-Aug-14 127,557
: :
1-Aug-13 45,901
1-Jul-13 39,170
1-Jun-13 39,047
1-May-13 30,386
5-Apr-13 30,333
Build Date
142 19-Sep-14
141 21-May-14
140 20-Mar-14
139 25-Oct-13
138 25-Apr-13
137 26-Jun-12
136 26-Jan-12
135 12-Oct-11
: :
4 16-Dec-98
3 15-Dec-98
2 10-Dec-98
1 1-Dec-98
ICGC
Build Date
release_18 21-Jan-15
release_17 12-Sep-14
release_16 15-May-14
release_15.1 12-Feb-14
release_15 4-Feb-14
release_14 26-Sep-13
: :
release_06 7-Jul-11
release_05 5-Jun-11
release_04 1-May-11
release_03 6-Dec-10
release_02 12-Aug-10
release_01 13-Apr-10
https://dcc.icgc.org/repository
/legacy_data_releases
- 24. Copyright © Amelieff Corporation. All Rights Reserved.
24
デ ー タ ベ ー ス 活 用 実 践
・解析アルゴリズムのブラッシュアップが必要
PROVEAN(Protein Variation Effect Analyzer)
タンパク質におけるアミノ酸配列の変異が当てる影響度合いを数値化
クエリは、アミノ酸配列(FASTA)とその変異パターン
WEBフォームからも利用可能
※引用 http://provean.jcvi.org/about.php[5つのpredictionアルゴリズムと精度 ]
- 25. Copyright © Amelieff Corporation. All Rights Reserved.
25
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
複数の変異やサンプルを解析したい時は、Linuxで実行可能
① 2つの入力ファイルを準備
② コマンド(命令文)を入力して実行
$ provean.sh -q P04637.fasta -v P04637.var
--save_supporting_set P04637.sss
タンパク質のアミノ酸配列
( ファイル名:P04637.fasta )
タンパク質のアミノ酸配列
(ファイル名:P04637.var)
・解析アルゴリズムのブラッシュアップが必要
LinuxというOSで
実行します。
- 26. Copyright © Amelieff Corporation. All Rights Reserved.
26
デ ー タ ベ ー ス 活 用 実 践
PROVEAN(Protein Variation Effect Analyzer)
複数の変異やサンプルを解析したい時は、Linuxで実行可能
③ 出力ファイル
Supporting Sequence Set
( ファイル名:P04637.sss )
SSSファイルのシーケンス
(ファイル名:P04637.sss.fasta)
・解析アルゴリズムのブラッシュアップが必要
- 27. Copyright © Amelieff Corporation. All Rights Reserved.
27
本 日 の 内 容
• さまざまな公開データベース
– Gene-based Annotation:シーケンスのターゲット領域や、
疾患関連遺伝子の情報。
– Region-based Annotation:染色体領域や遺伝子情報。
– Variant database:変異の頻度情報。
– Disease curation:疾患関連の変異情報。
– Prediction database:有害な変異を予測。
• 「必要なデータベースを選択し、組み合わせ、変異データを用途
によって分類して、活用または保存する」方法は、実際のデータ
と目的に最適化することをおすすめします。
• データベースと解析アルゴリズムはブラッシュアップが必要です。
- 28. Copyright © Amelieff Corporation. All Rights Reserved.
28
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク