SlideShare uma empresa Scribd logo
1 de 25
Exomeデータ解析入門


        2012年7月7日
       アメリエフ株式会社




   Copyright © Amelieff Co. Ltd. All Rights Reserved.
サ ン プ ル デ ー タ




                               遺伝性疾患
I                              罹患した子供とその両親のトリオ
                               優性遺伝の形式をとる
                               幼少期に発症

II                             原因として報告されている遺伝子変異があるが
                                     見つからなかった



     未知の原因遺伝子が関与している可能性が示唆

                Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                     2
E xo m e 解 析 フ ロ ー
             I I 罹患                           I 罹患                        I 非罹患
                QC                                QC                         QC


サンプルごとの      Mapping                         Mapping                      Mapping
  解析
             SNV/Indel                      SNV/Indel                     SNV/Indel


                             共通


                                        非罹患者と共通する多型を除く
疾患関連遺伝子
                  疾患関連変異の候補
  の探索
                                        セグメントゲノム重複(segmental duplication)の領域を除く
                                        Common SNP, HomoのSNVは避ける
                                        Mutation typeで絞り込む

                       実験的に検証

                     Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                      3
E xo m e 解 析 フ ロ ー 【 サ ン プ ル ご と 解 析 】



     QC       1. QCleaner                     : Fastqファイルをフィルタリング



              1. BWA                          : マッピング
  Mapping     2. Picard                       : 重複リードの除去


              1. GATK           : リアラインメント
                                : Recalibration
                                : SNV/Indel検出
  SNV/Indel                     : フィルタリング
              2. QuickAnnotator :アノテーション付与
              3. snpEFF         :アノテーション付与/集計

                          Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                               4
E xo m e 解 析 フ ロ ー 【 疾 患 関 連 遺 伝 子 の 探 索 】

  サンプル間
           BEDtools : 罹患者に共通する多型を抽出
   共通



           BEDtools :非罹患者と共通する多型を除外
  疾患関連
           BEDtools :セグメントゲノム重複(segmental duplication)領域の
  変異の候補
                    多型を除外

           Linuxコマンド:Common SNP, HomoのSNVは避ける
  絞り込み
                           Mutation typeで絞り込む


  実験的に
   検証
                 Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                      5
サ ン プ ル ご と の 解 析
              【コマンド】
              1. QCleaner : Fastqファイルをフィルタリング                               ※自社開発のプログラムです。

     QC       $ perl qcleaner.pl --i1 $FILE1.fastq --i2 $FILE2.fastq --o1
              $FILE1.clean.fastq --o2 $FILE2.clean.fastq --qp 20,80 --n 10 --
              trim 20 --length 20 --log $FILE.qc.log

                                         FASTQ形式にマッチするかチェック

                                         データクオリティチェック(FastQC)
  Mapping
                                         Illumina CASAVA filter [Y] を除去

                                   クオリティ20未満が80%以上のリードを除去

                                           クオリティ20未満の末端をトリム

                                          未知の塩基(N)が多いリード除去

  SNV/Indel                                     配列長が短いリード除去

                                                片側のみのリードを除外

                                         データクオリティチェック(FastQC)

                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                       6
サ ン プ ル ご と の 解 析
              【コマンド】
              1. QCleaner : Fastqファイルをフィルタリング
     QC       ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。

              ・ データチェック
              $ fastqc --nogroup -o ./ -f fastq $FILE1.fastq $FILE2.fastq



  Mapping     ・ クオリティ20以上の塩基が80%未満のリードを削除
              $ fastq_quality_filter -i $FILE1.fastq -o $FILE1.qual.fastq
              -q 20 -p 80 -Q 33 -v


              ・ ペアのリードを抽出
              $ cmpfastq.pl $FILE1.fastq $FILE2.fastq

  SNV/Indel   出力ファイル SRR290592_1.qual.fastq-common.out
                     SRR290592_1.qual.fastq-unique.out※1
                     SRR290592_2.qual.fastq-common.out
                     SRR290592_2.qual.fastq-unique.out ※1
                         ※ 1      使用しないという選択肢もありますが、シングルエンドとしてマッピングするということもできます。


                         Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                              7
サ ン プ ル ご と の 解 析
              【コマンド】
              1. Qcleaner : Fastqファイルをフィルタリング
     QC




  Mapping
                                                     Sequence length      : 90
                                                     %GC                  : 44




  SNV/Indel
                        処理後 /          処理前                                   残存割合
               リード数   62,157,419 /   62,167,318                              99.98%
               塩基数 5,594,167,710 / 5,595,058,620                             99.98%
                     Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                      8
サ ン プ ル ご と の 解 析
              【コマンド】
              1. BWA                     : マッピング
     QC       ※ リファレンス

                      GRCh Build37 + デコイ配列 Version 5

  Mapping     デコイ配列とは?
              ヒトWhole Genome Sequencing Cloneを「ヒトゲノム+ヒトヘルペスウイルスHHV-4 」に
              マッピングして、よくマップできなかったものを集めたもの

              サイズ: 合計35.4Mb、N50=22.9kb
              特徴 : 50%はサテライト配列またはシンプルリピート、20%はレトロトランスポゾン
              用途 : ① リファレンスゲノムにデコイを入れてマッピングすることにより、SNP検
  SNV/Indel           出精度が上がる
                   ② 構造変異の検出精度が上がることも期待される




                     Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                          9
サ ン プ ル ご と の 解 析
              【コマンド】
              1. BWA                            : マッピング
     QC       ・ マッピング/SAMをBAMに変換/ソート
              $ bwa aln -t 6 genome_hs37d5cs.fa $FILE1.clean.fastq -f
              $FILE1.sai


              $ bwa sampe -r "@RG¥tID:$FILE¥tSM:$FILE¥tPL:Illumina" -n 3
  Mapping     -N 10 -a 500 genome_hs37d5cs.fa $FILE1.sai $FILE2.sai
              $FILE1.clean.fastq $FILE2.clean.fastq | samtools view -Sb -
              | samtools sort - $FILE.sorted


              ※オプション
               -a INT maximum insert size [500]
               -n INT maximum hits to output for paired reads [3]
               -N INT maximum hits to output for discordant pairs [10]

  SNV/Indel   ※RG(read groups)
               platform (PL) および sample (SM)が必要
               PLの例:454, LS454, Illumina, Solid, ABI_Solid, CG (all case-insensitive)
               解析ツールGATKに入力するBAMファイルに、RGタグの記述がないとエラーが出る



                            Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                        10
サ ン プ ル ご と の 解 析
              【コマンド】
              1. BWA                         : マッピング
     QC       ・ BAMファイルのインデックス作成
              $ samtools index $FILE.sorted.bam


              ・マッピング率算出
              $ samtools idxstats $FILE.sorted.bam | awk '{a += $3; b +=
  Mapping     $4} END {print "mapping=",a,",unmapping=",b,"mapped ratio=",
              a/(a+b)}'

              ※ samtools idxstatsを実行すると下記のような画面が標準出力されます

                 染色体       染色体の塩基数                        mapped              unmapped
                 chr1      249250621                      10967229            76642
                 chr10     135534747                      4339778             29214
                   :
  SNV/Indel      chr9      141213431                       4480449            38793
                 chrM      16571                           1769               13
                 chrX      155270560                       2441946            15933
                 chrY      59373566                        519445             7890
                 *         0                               0                  1296678

                         Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                         11
サ ン プ ル ご と の 解 析
              【コマンド】
              2. Picard                    : 重複リードの除去
     QC       $ java -jar MarkDuplicates.jar I=$FILE.sorted.bam
              O=$FILE.sorted.redup.bam METRICS_FILE=jeter.metrics
              REMOVE_DUPLICATES=true ASSUME_SORTED=true
              VALIDATION_STRINGENCY=SILENT




  Mapping     ※BAMファイルを操作する上で、便利なコマンド
              ・BAMファイルの中身を表示する
              $ samtools view $FILE.sorted.redup.bam | less

              ・必要な領域を抜き出す
              $ samtools view -b $FILE.sorted.bam chr3:24148647-24546266 >
              $FILE.chr3.sorted.bam
  SNV/Indel




                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                             12
サ ン プ ル ご と の 解 析
              【コマンド】
              1. GATK
     QC
              ※入力ファイルを確認
              ① マップされていないリードと、そのペアのリードは除く
               $ samtools view -b -F 12 $FILE.sorted.redup.bam >
               $FILE.sorted.redup.f12.bam


  Mapping     ② ソートは、数字が大きくなる順番にする
               $ java -jar ReorderSam.jar I=$FILE.sorted.redup.f12.bam
               O=$FILE.kary.redup.f12.bam REFERENCE=genome_hs37d5cs.fa

              ③ RG(read groups)情報を入れる
               $ java -Xmx10G -jar AddOrReplaceReadGroups.jar
               I=$FILE.kary.redup.f12.bam O=$FILE.kary.bam SO=coordinate
               RGID=$FILE RGLB=$FILE RGPL=Illumina RGPU=run RGSM=$FILE
  SNV/Indel
              ④ インデックス作成
               $ samtools index $FILE.kary.bam




                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                            13
サ ン プ ル ご と の 解 析
              【コマンド】
              1. GATK
     QC       1-1. リアラインメント
              ・ リアラインメントする対象領域を抽出
               $ java -Xmx10G -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -R
               genome_hs37d5cs.fa -I $FILE.kary.bam -o $FILE.intervals

               ※ Intervalファイルの中身                    :
                                             chr1:1191423-1191507
  Mapping                                    chr1:1192263-1192295
                                             chr1:1197640-1197641
                                             chr1:1198376-1198377
                                             chr1:1198661-1198795
                                             chr1:1203212-1203259
                                             chr1:1213787-1213788
                                             chr1:1217938-1217939
                                             chr1:1222267
                                             chr1:1222468-1222474
                                             chr1:1225488-1225489
  SNV/Indel                                         :

              ・ リアラインメント
               $ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R
               genome_hs37d5cs.fa -I $FILE.kary.bam -targetIntervals $FILE.intervals
               -o $FILE.realigned.bam

                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                       14
サ ン プ ル ご と の 解 析
              【コマンド】
              1. GATK
     QC       1-1. リアラインメント
              ・ペアエンド情報修正
               $ java -Xmx10G -jar FixMateInformation.jar I=$FILE.realigned.bam
               O=$FILE.realigned.fix.bam SO=coordinate VALIDATION_STRINGENCY=SILENT
               TMP_DIR=$FILE


  Mapping     1-2. Recalibration
              ・Recalibrationで入力するファイル作成
                $ java -Xmx10G -jar GenomeAnalysisTK.jar -T CountCovariates -cov
                ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov
                DinucCovariate -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -nt 6 -
                recalFile $FILE.recal_data.csv --knownSites:name,VCF db3np135-All.vcf

              ・ Recalibration実行/インデックス作成
  SNV/Indel     $ java -jar GenomeAnalysisTK.jar -I $FILE.realigned.fix.bam -R
                genome_hs37d5cs.fa -T TableRecalibration -l INFO -recalFile
                $FILE.recal_data.csv -log $FILE.new_qual.log --out
                $FILE.realigned.alnRecal.bam

                $ samtools index $FILE.realigned.alnRecal.bam

                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                      15
サ ン プ ル ご と の 解 析
              【コマンド】
              1. GATK
     QC       1-3. SNV/Indel検出
               $ java -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -R
               genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.snv.vcf

               $ java -Xmx10G -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -glm INDEL -
               R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o
               $FILE.gatk.indel.vcf
               ※ -glm /--genotype_likelihoods_model SNP, INDEL, BOTH から選べる。デフォルトはSNP
  Mapping
              1-4. フィルタリング
               $ java -jar GenomeAnalysisTK.jar -T VariantFiltration -R
               genome_hs37d5cs.fa -V $FILE.gatk.snv.vcf -o $FILE.gatk.snv.fil.vcf --
               clusterWindowSize 10 --filterExpression "DP < 3 || QUAL < 20 || SB > -
               0.1" --filterName "HARD_TO_VALIDATE"

               $ java -jar ${GenomeAnalysisTK} -T VariantFiltration -R
               genome_hs37d5cs.fa -V 3_gatk/$FILE.gatk.indel.vcf -o
  SNV/Indel    $FILE.gatk.indel.fil.vcf --filterExpression "QUAL < 20 || SB > -0.1 ||
               MQ0 > 4 || DP < 3" --filterName "HARD_TO_VALIDATE"
              ※ VCFファイルのFILTER列に、条件を通過した場合“PASS”、そうでない場合は “filterName”が記入される

              ※オプション DP:Approximate read depth; some reads may have been filtered
                     SB:Strand Bias                QD:Variant Confidence/Quality by Depth
                     HRun:Largest Contiguous Homopolymer Run of Variant Allele In Either Direction
                     Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                                     16
サ ン プ ル ご と の 解 析
              【コマンド】
              2. QuickAnnotator :アノテーション付与                                     ※自社開発のプログラムです。

     QC       $ java -Xmx10G -jar QuickAnnotator.jar -q vcf -g refGene.txt -s
              refGeneMrna.fa -o $FILE.gatk.snv.fil.anno $FILE.gatk.snv.fil.vcf


              ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。
              ・ Annovar
  Mapping
              ※データベースをダウンロードする必要があります

              入力ファイルに変換
              $ perl convert2annovar.pl -format vcf4 $FILE.gatk.snv.fil.vcf >
              $FILE.gatk.snv.fil.avlist

              アノテーションを付与
  SNV/Indel   $ perl summarize_annovar.pl --buildver hg19 $FILE.gatk.snv.fil.avlist
              humandb -outfile $FILE.gatk.snv.fil --ver1000g 1000g2012feb --verdbsnp
              135




                          Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                          17
サ ン プ ル ご と の 解 析
              【コマンド】
              2. QuickAnnotator :アノテーション付与
     QC
              ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。
              ・ Annovar

                ①SegDup                               ⑨LJB_SIFT_Pred
                ②ESP5400_ALL                          ⑩LJB_PolyPhen2
  Mapping
                ③1000g2012feb_ALL                     ⑪LJB_PolyPhen2_Pred
                ④dbSNP135                             ⑫LJB_LRT
                ⑤AVSIFT                               ⑬LJB_LRT_Pred
                ⑥LJB_PhyloP                           ⑭LRT_MutationTaster
                ⑦LJB_PhyloP_Pred                      ⑮LRT_MutationTaster_Pred
  SNV/Indel     ⑧LJB_SIFT                             ⑯LJB_GERP++




                      Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                 18
サ ン プ ル ご と の 解 析
              【コマンド】
              3. snpEFF                      :アノテーション付与/集計
     QC       $ java -Xmx10G -jar snpEff.jar eff -c amelieff.config -i vcf -o
              vcf -noLog hg37.63 $FILE.gatk.snv.fil.vcf >
              $FILE.gatk.snv.fil.vcf.snpeff.vcf


              ※データベースをダウンロードして、configファイルにその位置情報を書きます
                下記の文は、snpEffsnpEff_v2_1_core/snpEff_2_1/snpEff.configの一部です。
  Mapping
                # Databases are stored here
                # E.g.: Information for 'hg19' is stored in data_dir/hg19/
                #
                # Note: Since version 2.1 you can use tilde ('~') as first character to
                refer to your home directory
                #---
                data_dir = ~/snpEff/data/

                # Databases are stored here
  SNV/Indel     # E.g.: Information for 'hg19' is stored in data_dir/hg19/
                #
                # Note: Since version 2.1 you can use tilde ('~') as first character to
                refer to your home directory
                #---
                data_dir = /home/db/snpEff

                         Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                          19
サ ン プ ル ご と の 解 析
              【コマンド】
              3. snpEFF                   :アノテーション付与/集計
     QC




  Mapping




  SNV/Indel


                                                    ※snpEffは、Google Chartを用いて描画しています。

                      Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                   20
サ ン プ ル ご と の 解 析
              【結果】
              リファレンス                  処理内容                           I I 罹患           I 罹患        I 非罹患
     QC
                            マッピング率(%)                                         98.90       98.46       98.61
                            重複リード除外後(%)                                       98.63       98.12       98.35
                            SNV                                             196,600     196,784     169,939
              デコイなし
                            フィルタリング後のSNV                                    157,072     155,763     141,000
                            Indel                                            14,576      14,467      13,565
  Mapping
                            フィルタリング後のIndel                                   12,999      12,918      12,142
                            マッピング率(%)                                         98.68       98.73       98.31
                            重複リード除外後(%)                                       98.36       98.46       98.00
                            SNV                                             182,832     185,580     157,593
              デコイあり
                            フィルタリング後のSNV                                    146,695     147,652     131,720
                            Indel                                            13,956      13,998      12,909
  SNV/Indel                 フィルタリング後のIndel                                   12,635      12,638      11,710



                      ※デコイありのフィルタリング後の多型の数は、デコイ配列上に検出された多型を除外しています。



                       Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                                              21
サ ン プ ル ご と の 解 析
【結果】




         Without Decoy
             最大カバレージ: 1112
             ※カバレージ10以上の領域の、平均カバレージは80.84




          With Decoy
             最大カバレージ: 817




                   Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                        22
疾 患 関 連 遺 伝 子 の 探 索

  サンプル間   1. BEDtools         :罹患者に共通する多型を抽出
   共通     $ intersectBed -a II-case.gatk.snv.fil.vcf -b I-
          case.gatk.snv.fil.vcf -u > case.vcf




                 II 罹患                  I 罹患
                                                                        87,306
 疾患関連           147,695                147,652
 変異の候補

          2. BEDtools        : 1に対して、非罹患者と共通する多型を除外
          $ intersectBed -a case.vcf -b I-control.gatk.snv.fil.vcf -v >
          target.vcf
  絞り込み

                 I 非罹患
                 131,720
  実験的に                         87,306                                      15,470
   検証
                   Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                    23
疾 患 関 連 遺 伝 子 の 探 索
          3. Linuxコマンドで絞り込み/遺伝子ごとに集計
  サンプル間
   共通      15,470
                  ← セグメントゲノム重複(segmental duplication)領域以外のSNV

           12,945
                  ← 最も近傍の遺伝子が、1k以内に位置するSNV
 疾患関連
           10,466
 変異の候補
                  ← HeteroのSNV

           5,816        2875遺伝子 (複数の変異を持つ遺伝子は693個)
                  ← 1000人ゲノムプロジェクトでALTアリル頻度が1%以下のSNV
  絞り込み      204         170遺伝子 (複数の変異を持つ遺伝子は10個)
                  ← nonsynonymous SNV

            32
  実験的に
   検証       候補として29遺伝子(複数の変異を持つ遺伝子は2個)を抽出
                    Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                         24
NGSデータ解析サーバー販売中!!
   データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。
今回ご紹介した解析は、下記のサーバーで実施しました。サンプルあたりの実行時間は約8時間です。


                            OS              CentOS 6 64bit
                           CPU              Intel Core i7-3930K [3.20GHz/6Core]
                          メモリ               64GB
                           SSD              64GBz(OS用)
                           HDD              2TB x 4台(RAID10)(データ用)
                                            bwa, SAMtools, FastQC, BEDtools,
                      ソフトウェア
                                            自社開発ソフトなど




                Copyright © Amelieff Co. Ltd. All Rights Reserved.
                                                                                  25

Mais conteúdo relacionado

Mais procurados

[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介Preferred Networks
 
Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングAtsushi KOMIYA
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptxOsamu Ogasawara
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
動的計画法の並列化
動的計画法の並列化動的計画法の並列化
動的計画法の並列化Proktmr
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient DescentDeep Learning JP
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料Amelieff
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析Hiromi Kajiya-Kanegae
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeYusuke Kaneko
 
Union find(素集合データ構造)
Union find(素集合データ構造)Union find(素集合データ構造)
Union find(素集合データ構造)AtCoder Inc.
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio SynthesisDeep Learning JP
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景Masato Nakai
 

Mais procurados (20)

Rの高速化
Rの高速化Rの高速化
Rの高速化
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリング
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
動的計画法の並列化
動的計画法の並列化動的計画法の並列化
動的計画法の並列化
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
BERT入門
BERT入門BERT入門
BERT入門
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
 
Union find(素集合データ構造)
Union find(素集合データ構造)Union find(素集合データ構造)
Union find(素集合データ構造)
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
 

Semelhante a Exome解析入門

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 
オープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixオープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixKodai Terashima
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
オープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixオープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixKodai Terashima
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumnnippongenetics
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumnnippongenetics
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumnnippongenetics
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumnnippongenetics
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
HeapStats: Introduction and Technical Preview
HeapStats: Introduction and Technical PreviewHeapStats: Introduction and Technical Preview
HeapStats: Introduction and Technical PreviewYuji Kubota
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2Computational Materials Science Initiative
 
Survey in CinC 2021
Survey in CinC 2021Survey in CinC 2021
Survey in CinC 2021AMI Inc.
 
MySQL Clusterを運用して10ヶ月間
MySQL Clusterを運用して10ヶ月間MySQL Clusterを運用して10ヶ月間
MySQL Clusterを運用して10ヶ月間hiroi10
 
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)Baasanchuluun Batnasan
 
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強Kiyoshi Ogawa
 
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~Shinji Takao
 

Semelhante a Exome解析入門 (20)

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 
オープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixオープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbix
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
オープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbixオープンソースでシステム監視!統合監視ソフトウェアZabbix
オープンソースでシステム監視!統合監視ソフトウェアZabbix
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
 
201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn201910 up!magazine&amp;promotions 2019 autumn
201910 up!magazine&amp;promotions 2019 autumn
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
HeapStats: Introduction and Technical Preview
HeapStats: Introduction and Technical PreviewHeapStats: Introduction and Technical Preview
HeapStats: Introduction and Technical Preview
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
 
Survey in CinC 2021
Survey in CinC 2021Survey in CinC 2021
Survey in CinC 2021
 
MySQL Clusterを運用して10ヶ月間
MySQL Clusterを運用して10ヶ月間MySQL Clusterを運用して10ヶ月間
MySQL Clusterを運用して10ヶ月間
 
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)
 
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
STARC RTL設計スタイルガイドによるVerilog HDL並列記述の補強
 
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~
GraalVM を普通の Java VM として使う ~クラウドベンチマークなどでの比較~
 

Exome解析入門

  • 1. Exomeデータ解析入門 2012年7月7日 アメリエフ株式会社 Copyright © Amelieff Co. Ltd. All Rights Reserved.
  • 2. サ ン プ ル デ ー タ  遺伝性疾患 I  罹患した子供とその両親のトリオ  優性遺伝の形式をとる  幼少期に発症 II  原因として報告されている遺伝子変異があるが 見つからなかった 未知の原因遺伝子が関与している可能性が示唆 Copyright © Amelieff Co. Ltd. All Rights Reserved. 2
  • 3. E xo m e 解 析 フ ロ ー I I 罹患 I 罹患 I 非罹患 QC QC QC サンプルごとの Mapping Mapping Mapping 解析 SNV/Indel SNV/Indel SNV/Indel 共通 非罹患者と共通する多型を除く 疾患関連遺伝子 疾患関連変異の候補 の探索 セグメントゲノム重複(segmental duplication)の領域を除く Common SNP, HomoのSNVは避ける Mutation typeで絞り込む 実験的に検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 3
  • 4. E xo m e 解 析 フ ロ ー 【 サ ン プ ル ご と 解 析 】 QC 1. QCleaner : Fastqファイルをフィルタリング 1. BWA : マッピング Mapping 2. Picard : 重複リードの除去 1. GATK : リアラインメント : Recalibration : SNV/Indel検出 SNV/Indel : フィルタリング 2. QuickAnnotator :アノテーション付与 3. snpEFF :アノテーション付与/集計 Copyright © Amelieff Co. Ltd. All Rights Reserved. 4
  • 5. E xo m e 解 析 フ ロ ー 【 疾 患 関 連 遺 伝 子 の 探 索 】 サンプル間 BEDtools : 罹患者に共通する多型を抽出 共通 BEDtools :非罹患者と共通する多型を除外 疾患関連 BEDtools :セグメントゲノム重複(segmental duplication)領域の 変異の候補 多型を除外 Linuxコマンド:Common SNP, HomoのSNVは避ける 絞り込み Mutation typeで絞り込む 実験的に 検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 5
  • 6. サ ン プ ル ご と の 解 析 【コマンド】 1. QCleaner : Fastqファイルをフィルタリング ※自社開発のプログラムです。 QC $ perl qcleaner.pl --i1 $FILE1.fastq --i2 $FILE2.fastq --o1 $FILE1.clean.fastq --o2 $FILE2.clean.fastq --qp 20,80 --n 10 -- trim 20 --length 20 --log $FILE.qc.log FASTQ形式にマッチするかチェック データクオリティチェック(FastQC) Mapping Illumina CASAVA filter [Y] を除去 クオリティ20未満が80%以上のリードを除去 クオリティ20未満の末端をトリム 未知の塩基(N)が多いリード除去 SNV/Indel 配列長が短いリード除去 片側のみのリードを除外 データクオリティチェック(FastQC) Copyright © Amelieff Co. Ltd. All Rights Reserved. 6
  • 7. サ ン プ ル ご と の 解 析 【コマンド】 1. QCleaner : Fastqファイルをフィルタリング QC ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ データチェック $ fastqc --nogroup -o ./ -f fastq $FILE1.fastq $FILE2.fastq Mapping ・ クオリティ20以上の塩基が80%未満のリードを削除 $ fastq_quality_filter -i $FILE1.fastq -o $FILE1.qual.fastq -q 20 -p 80 -Q 33 -v ・ ペアのリードを抽出 $ cmpfastq.pl $FILE1.fastq $FILE2.fastq SNV/Indel 出力ファイル SRR290592_1.qual.fastq-common.out SRR290592_1.qual.fastq-unique.out※1 SRR290592_2.qual.fastq-common.out SRR290592_2.qual.fastq-unique.out ※1 ※ 1 使用しないという選択肢もありますが、シングルエンドとしてマッピングするということもできます。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 7
  • 8. サ ン プ ル ご と の 解 析 【コマンド】 1. Qcleaner : Fastqファイルをフィルタリング QC Mapping Sequence length : 90 %GC : 44 SNV/Indel 処理後 / 処理前 残存割合 リード数 62,157,419 / 62,167,318 99.98% 塩基数 5,594,167,710 / 5,595,058,620 99.98% Copyright © Amelieff Co. Ltd. All Rights Reserved. 8
  • 9. サ ン プ ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ※ リファレンス GRCh Build37 + デコイ配列 Version 5 Mapping デコイ配列とは? ヒトWhole Genome Sequencing Cloneを「ヒトゲノム+ヒトヘルペスウイルスHHV-4 」に マッピングして、よくマップできなかったものを集めたもの サイズ: 合計35.4Mb、N50=22.9kb 特徴 : 50%はサテライト配列またはシンプルリピート、20%はレトロトランスポゾン 用途 : ① リファレンスゲノムにデコイを入れてマッピングすることにより、SNP検 SNV/Indel 出精度が上がる ② 構造変異の検出精度が上がることも期待される Copyright © Amelieff Co. Ltd. All Rights Reserved. 9
  • 10. サ ン プ ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ・ マッピング/SAMをBAMに変換/ソート $ bwa aln -t 6 genome_hs37d5cs.fa $FILE1.clean.fastq -f $FILE1.sai $ bwa sampe -r "@RG¥tID:$FILE¥tSM:$FILE¥tPL:Illumina" -n 3 Mapping -N 10 -a 500 genome_hs37d5cs.fa $FILE1.sai $FILE2.sai $FILE1.clean.fastq $FILE2.clean.fastq | samtools view -Sb - | samtools sort - $FILE.sorted ※オプション -a INT maximum insert size [500] -n INT maximum hits to output for paired reads [3] -N INT maximum hits to output for discordant pairs [10] SNV/Indel ※RG(read groups) platform (PL) および sample (SM)が必要 PLの例:454, LS454, Illumina, Solid, ABI_Solid, CG (all case-insensitive) 解析ツールGATKに入力するBAMファイルに、RGタグの記述がないとエラーが出る Copyright © Amelieff Co. Ltd. All Rights Reserved. 10
  • 11. サ ン プ ル ご と の 解 析 【コマンド】 1. BWA : マッピング QC ・ BAMファイルのインデックス作成 $ samtools index $FILE.sorted.bam ・マッピング率算出 $ samtools idxstats $FILE.sorted.bam | awk '{a += $3; b += Mapping $4} END {print "mapping=",a,",unmapping=",b,"mapped ratio=", a/(a+b)}' ※ samtools idxstatsを実行すると下記のような画面が標準出力されます 染色体 染色体の塩基数 mapped unmapped chr1 249250621 10967229 76642 chr10 135534747 4339778 29214 : SNV/Indel chr9 141213431 4480449 38793 chrM 16571 1769 13 chrX 155270560 2441946 15933 chrY 59373566 519445 7890 * 0 0 1296678 Copyright © Amelieff Co. Ltd. All Rights Reserved. 11
  • 12. サ ン プ ル ご と の 解 析 【コマンド】 2. Picard : 重複リードの除去 QC $ java -jar MarkDuplicates.jar I=$FILE.sorted.bam O=$FILE.sorted.redup.bam METRICS_FILE=jeter.metrics REMOVE_DUPLICATES=true ASSUME_SORTED=true VALIDATION_STRINGENCY=SILENT Mapping ※BAMファイルを操作する上で、便利なコマンド ・BAMファイルの中身を表示する $ samtools view $FILE.sorted.redup.bam | less ・必要な領域を抜き出す $ samtools view -b $FILE.sorted.bam chr3:24148647-24546266 > $FILE.chr3.sorted.bam SNV/Indel Copyright © Amelieff Co. Ltd. All Rights Reserved. 12
  • 13. サ ン プ ル ご と の 解 析 【コマンド】 1. GATK QC ※入力ファイルを確認 ① マップされていないリードと、そのペアのリードは除く $ samtools view -b -F 12 $FILE.sorted.redup.bam > $FILE.sorted.redup.f12.bam Mapping ② ソートは、数字が大きくなる順番にする $ java -jar ReorderSam.jar I=$FILE.sorted.redup.f12.bam O=$FILE.kary.redup.f12.bam REFERENCE=genome_hs37d5cs.fa ③ RG(read groups)情報を入れる $ java -Xmx10G -jar AddOrReplaceReadGroups.jar I=$FILE.kary.redup.f12.bam O=$FILE.kary.bam SO=coordinate RGID=$FILE RGLB=$FILE RGPL=Illumina RGPU=run RGSM=$FILE SNV/Indel ④ インデックス作成 $ samtools index $FILE.kary.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 13
  • 14. サ ン プ ル ご と の 解 析 【コマンド】 1. GATK QC 1-1. リアラインメント ・ リアラインメントする対象領域を抽出 $ java -Xmx10G -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -R genome_hs37d5cs.fa -I $FILE.kary.bam -o $FILE.intervals ※ Intervalファイルの中身 : chr1:1191423-1191507 Mapping chr1:1192263-1192295 chr1:1197640-1197641 chr1:1198376-1198377 chr1:1198661-1198795 chr1:1203212-1203259 chr1:1213787-1213788 chr1:1217938-1217939 chr1:1222267 chr1:1222468-1222474 chr1:1225488-1225489 SNV/Indel : ・ リアラインメント $ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R genome_hs37d5cs.fa -I $FILE.kary.bam -targetIntervals $FILE.intervals -o $FILE.realigned.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 14
  • 15. サ ン プ ル ご と の 解 析 【コマンド】 1. GATK QC 1-1. リアラインメント ・ペアエンド情報修正 $ java -Xmx10G -jar FixMateInformation.jar I=$FILE.realigned.bam O=$FILE.realigned.fix.bam SO=coordinate VALIDATION_STRINGENCY=SILENT TMP_DIR=$FILE Mapping 1-2. Recalibration ・Recalibrationで入力するファイル作成 $ java -Xmx10G -jar GenomeAnalysisTK.jar -T CountCovariates -cov ReadGroupCovariate -cov QualityScoreCovariate -cov CycleCovariate -cov DinucCovariate -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -nt 6 - recalFile $FILE.recal_data.csv --knownSites:name,VCF db3np135-All.vcf ・ Recalibration実行/インデックス作成 SNV/Indel $ java -jar GenomeAnalysisTK.jar -I $FILE.realigned.fix.bam -R genome_hs37d5cs.fa -T TableRecalibration -l INFO -recalFile $FILE.recal_data.csv -log $FILE.new_qual.log --out $FILE.realigned.alnRecal.bam $ samtools index $FILE.realigned.alnRecal.bam Copyright © Amelieff Co. Ltd. All Rights Reserved. 15
  • 16. サ ン プ ル ご と の 解 析 【コマンド】 1. GATK QC 1-3. SNV/Indel検出 $ java -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.snv.vcf $ java -Xmx10G -jar GenomeAnalysisTK.jar -T UnifiedGenotyper -glm INDEL - R genome_hs37d5cs.fa -I $FILE.realigned.alnRecal.bam -o $FILE.gatk.indel.vcf ※ -glm /--genotype_likelihoods_model SNP, INDEL, BOTH から選べる。デフォルトはSNP Mapping 1-4. フィルタリング $ java -jar GenomeAnalysisTK.jar -T VariantFiltration -R genome_hs37d5cs.fa -V $FILE.gatk.snv.vcf -o $FILE.gatk.snv.fil.vcf -- clusterWindowSize 10 --filterExpression "DP < 3 || QUAL < 20 || SB > - 0.1" --filterName "HARD_TO_VALIDATE" $ java -jar ${GenomeAnalysisTK} -T VariantFiltration -R genome_hs37d5cs.fa -V 3_gatk/$FILE.gatk.indel.vcf -o SNV/Indel $FILE.gatk.indel.fil.vcf --filterExpression "QUAL < 20 || SB > -0.1 || MQ0 > 4 || DP < 3" --filterName "HARD_TO_VALIDATE" ※ VCFファイルのFILTER列に、条件を通過した場合“PASS”、そうでない場合は “filterName”が記入される ※オプション DP:Approximate read depth; some reads may have been filtered SB:Strand Bias QD:Variant Confidence/Quality by Depth HRun:Largest Contiguous Homopolymer Run of Variant Allele In Either Direction Copyright © Amelieff Co. Ltd. All Rights Reserved. 16
  • 17. サ ン プ ル ご と の 解 析 【コマンド】 2. QuickAnnotator :アノテーション付与 ※自社開発のプログラムです。 QC $ java -Xmx10G -jar QuickAnnotator.jar -q vcf -g refGene.txt -s refGeneMrna.fa -o $FILE.gatk.snv.fil.anno $FILE.gatk.snv.fil.vcf ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ Annovar Mapping ※データベースをダウンロードする必要があります 入力ファイルに変換 $ perl convert2annovar.pl -format vcf4 $FILE.gatk.snv.fil.vcf > $FILE.gatk.snv.fil.avlist アノテーションを付与 SNV/Indel $ perl summarize_annovar.pl --buildver hg19 $FILE.gatk.snv.fil.avlist humandb -outfile $FILE.gatk.snv.fil --ver1000g 1000g2012feb --verdbsnp 135 Copyright © Amelieff Co. Ltd. All Rights Reserved. 17
  • 18. サ ン プ ル ご と の 解 析 【コマンド】 2. QuickAnnotator :アノテーション付与 QC ※公開ツールを組み合わせても同じ処理を行えます。下記のコマンドは、一部のコマンドです。 ・ Annovar ①SegDup ⑨LJB_SIFT_Pred ②ESP5400_ALL ⑩LJB_PolyPhen2 Mapping ③1000g2012feb_ALL ⑪LJB_PolyPhen2_Pred ④dbSNP135 ⑫LJB_LRT ⑤AVSIFT ⑬LJB_LRT_Pred ⑥LJB_PhyloP ⑭LRT_MutationTaster ⑦LJB_PhyloP_Pred ⑮LRT_MutationTaster_Pred SNV/Indel ⑧LJB_SIFT ⑯LJB_GERP++ Copyright © Amelieff Co. Ltd. All Rights Reserved. 18
  • 19. サ ン プ ル ご と の 解 析 【コマンド】 3. snpEFF :アノテーション付与/集計 QC $ java -Xmx10G -jar snpEff.jar eff -c amelieff.config -i vcf -o vcf -noLog hg37.63 $FILE.gatk.snv.fil.vcf > $FILE.gatk.snv.fil.vcf.snpeff.vcf ※データベースをダウンロードして、configファイルにその位置情報を書きます 下記の文は、snpEffsnpEff_v2_1_core/snpEff_2_1/snpEff.configの一部です。 Mapping # Databases are stored here # E.g.: Information for 'hg19' is stored in data_dir/hg19/ # # Note: Since version 2.1 you can use tilde ('~') as first character to refer to your home directory #--- data_dir = ~/snpEff/data/ # Databases are stored here SNV/Indel # E.g.: Information for 'hg19' is stored in data_dir/hg19/ # # Note: Since version 2.1 you can use tilde ('~') as first character to refer to your home directory #--- data_dir = /home/db/snpEff Copyright © Amelieff Co. Ltd. All Rights Reserved. 19
  • 20. サ ン プ ル ご と の 解 析 【コマンド】 3. snpEFF :アノテーション付与/集計 QC Mapping SNV/Indel ※snpEffは、Google Chartを用いて描画しています。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 20
  • 21. サ ン プ ル ご と の 解 析 【結果】 リファレンス 処理内容 I I 罹患 I 罹患 I 非罹患 QC マッピング率(%) 98.90 98.46 98.61 重複リード除外後(%) 98.63 98.12 98.35 SNV 196,600 196,784 169,939 デコイなし フィルタリング後のSNV 157,072 155,763 141,000 Indel 14,576 14,467 13,565 Mapping フィルタリング後のIndel 12,999 12,918 12,142 マッピング率(%) 98.68 98.73 98.31 重複リード除外後(%) 98.36 98.46 98.00 SNV 182,832 185,580 157,593 デコイあり フィルタリング後のSNV 146,695 147,652 131,720 Indel 13,956 13,998 12,909 SNV/Indel フィルタリング後のIndel 12,635 12,638 11,710 ※デコイありのフィルタリング後の多型の数は、デコイ配列上に検出された多型を除外しています。 Copyright © Amelieff Co. Ltd. All Rights Reserved. 21
  • 22. サ ン プ ル ご と の 解 析 【結果】 Without Decoy 最大カバレージ: 1112 ※カバレージ10以上の領域の、平均カバレージは80.84 With Decoy 最大カバレージ: 817 Copyright © Amelieff Co. Ltd. All Rights Reserved. 22
  • 23. 疾 患 関 連 遺 伝 子 の 探 索 サンプル間 1. BEDtools :罹患者に共通する多型を抽出 共通 $ intersectBed -a II-case.gatk.snv.fil.vcf -b I- case.gatk.snv.fil.vcf -u > case.vcf II 罹患 I 罹患 87,306 疾患関連 147,695 147,652 変異の候補 2. BEDtools : 1に対して、非罹患者と共通する多型を除外 $ intersectBed -a case.vcf -b I-control.gatk.snv.fil.vcf -v > target.vcf 絞り込み I 非罹患 131,720 実験的に 87,306 15,470 検証 Copyright © Amelieff Co. Ltd. All Rights Reserved. 23
  • 24. 疾 患 関 連 遺 伝 子 の 探 索 3. Linuxコマンドで絞り込み/遺伝子ごとに集計 サンプル間 共通 15,470 ← セグメントゲノム重複(segmental duplication)領域以外のSNV 12,945 ← 最も近傍の遺伝子が、1k以内に位置するSNV 疾患関連 10,466 変異の候補 ← HeteroのSNV 5,816 2875遺伝子 (複数の変異を持つ遺伝子は693個) ← 1000人ゲノムプロジェクトでALTアリル頻度が1%以下のSNV 絞り込み 204 170遺伝子 (複数の変異を持つ遺伝子は10個) ← nonsynonymous SNV 32 実験的に 検証 候補として29遺伝子(複数の変異を持つ遺伝子は2個)を抽出 Copyright © Amelieff Co. Ltd. All Rights Reserved. 24
  • 25. NGSデータ解析サーバー販売中!! データ解析パイプラインおよびリファレンスゲノム情報がプリインストールされています。 今回ご紹介した解析は、下記のサーバーで実施しました。サンプルあたりの実行時間は約8時間です。 OS CentOS 6 64bit CPU Intel Core i7-3930K [3.20GHz/6Core] メモリ 64GB SSD 64GBz(OS用) HDD 2TB x 4台(RAID10)(データ用) bwa, SAMtools, FastQC, BEDtools, ソフトウェア 自社開発ソフトなど Copyright © Amelieff Co. Ltd. All Rights Reserved. 25