SlideShare uma empresa Scribd logo
1 de 12
RNA-Seq解析パイプラインの検討



          2012年5月24日
         アメリエフ株式会社




      Copyright © Amelieff Co. Ltd. All Rights Reserved
ア ノ テ ー シ ョ ン デ ー タ


  •     Illumina iGenomes(http://tophat.cbcb.umd.edu/igenomes.html)
          – iGenomesはモデル生物のリファレンスゲノム配列や既知遺伝子情報などを
             まとめたデータセットです。
          – gene_idやtss_idが正確に記述されているので、以下の解析ではこのデータを
             使うことをお奨めします。
http://hgdownload.cse.ucsc.edu/downloads.htmlからダウンロードできる既知遺伝子情報(例)
~(略)~ gene_id "NR_024540"; transcript_id "NR_024540";

                                            cufflinksではgene_idを遺伝子名, transcript_idをmRNA名, tss_idを転写開始
iGenomesの既知遺伝子情報(例)                         位置情報として集計するので、これらの値がちゃんと入っていたほうがよい

~(略)~ gene_id "WASH7P"; gene_name "WASH7P"; transcript_id "NR_024540"; tss_id "TSS7245";
                                                生物アイコン © ライフサイエンス統合データベースセンター licensed under CC表示2.1 日本

  •     2012年5月時点の対応生物種は、ヒト 、マウス 、ラット 、牛 、犬                                                               、
        鶏 、ショウジョウバエ 、シロイヌナズナ 、線虫 、出芽酵母
 2012/5/24                      Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                                              2
生の
                                                                                               リードデータ

                                                                                                   リードQC
  ワ ー ク フ ロ ー
                                                                                                きれいな
                                                                                               リードデータ
マッピングチェック・カバレージチェック                                                    マッピング・
         マッピングチェッ
                                                                      転写構造予測
           ク結果                                                                        ジャンクション情
                                                       マッピング結果
                                                                                         報
         平均カバレージ
          チェック結果

                                                                    発現レベル予測
             SNP/InDel検出
             SNP/InDel                                                                 発現レベル
                                                         転写物情報
             検出結果                                                                       情報

                                                                     コンセンサス
             転写構造・発現レベル比較                                            転写物予測
                                                        コンセンサス
                         比較結果
                                                         転写物                                       融合遺伝子
                                                                                                   予測
                            視覚化                                     既知転写物と比較
                                                         新規転写物                                   融合遺伝
                         グラフ画像
                                                           候補                                    子候補

 2012/5/24                        Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                                           3
リ ー ド Q C


 •     内容
        – Prinseq(http://prinseq.sourceforge.net/)を用いてPolyA/T tailを除去します。
        – 弊社独自ツールを用いてリードデータのクオリティをチェックし、クオリティの
          低い配列を除去します。
 •     入力
        – 生のリードデータ(fastq)
 •     出力
        – クオリティの低い配列を除去したリードデータ(fastq)
        – 除去されたリードデータ
 •     詳細はポスター番号 T-38 をご覧ください。




2012/5/24                    Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                 4
融 合 遺 伝 子 予 測


 •     内容
        – deFuse(http://sourceforge.net/apps/mediawiki/defuse/index.php)を用いて、
          融合遺伝子を検出します。
 •     入力
        – リードデータ(fastq)
 •     出力
        – 融合遺伝子検出結果(タブ区切りテキスト)
 •     実行例
        – $ perl defuse.pl -c config.txt -d data_dir -o output_dir -p 8
        – 【ご参考】弊社ブログ記事:http://blog.amelieff.jp/?eid=175531




2012/5/24                     Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                  5
マ ッ ピ ン グ ~ 転 写 構 造 予 測


 •     内容
        – リードをリファレンスゲノムにマッピングします。
        – TopHat(http://tophat.cbcb.umd.edu/index.html)では、スプライシングを考慮
          したマッピングおよびジャンクション構造予測が可能です。
 •     入力
        – リードデータ(fastq)
 •     出力
        – マッピング結果(bam)、ジャンクション情報(bed)、挿入情報(bed)、欠失情報
          (bed)
 •     実行例
        – $ tophat –r 250 -o output_dir -G refgene.gtf -g 1 hg19 fastq1 fastq2



2012/5/24                     Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                  6
発 現 レ ベ ル 予 測


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、遺伝子やmRNAごとの発
          現レベル(FPKM)を予測します。
            • FPKM=Fragments Per Kilobase of exon per Million mapped fragments。発
              現量をエキソン長と全マッピング数で補正したもの。遺伝子の長さや、ラ
              ンあたりのシーケンシング量によるバイアスを補正する。
 •     入力
        – マッピング結果(bam)
 •     出力
        – 転写物情報(gtf)、発現レベル情報(fpkm_tracking)
 •     実行例
        – $ cufflinks -o output_dir -M mask.gtf -g refgene.gtf accepted_hits.sorted.bam


2012/5/24                        Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                          7
コ ン セ ン サ ス 転 写 物 予 測


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、複数サンプル由来の転
          写物情報をマージしてコンセンサスな転写物を予測します。
 •     入力
        – 転写物情報ファイル(gtf)を羅列したテキストファイル
 •     出力
        – コンセンサス転写物(gtf)
 •     実行例
        – $ cuffmerge -s hg19.fa gtf_list.txt




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              8
既 知 転 写 物 と 比 較


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、コンセンサスな転写物と
          既知転写物を比較し、新規転写物候補を検出します。
 •     入力
        – コンセンサス転写物(gtf)
 •     出力
        – 新規転写物候補(gtf)
 •     実行例
        – $ cuffcompare -s hg19.fa -r refGene.gtf merged.gtf




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              9
転 写 構 造 ・ 発 現 レ ベ ル 比 較


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、サンプル間の転写構造
          や発現レベルを比較します。
 •     入力
        – 複数サンプルのマッピング結果
 •     出力
        – 各転写物の正規化された発現レベル情報(fpkm_tracking)、サンプル間の転
          写構造・発現レベル比較結果(diff)
 •     実行例
        – $ cuffdiff transcripts.gtf sample1_hits.bam sample2_hits.bam




2012/5/24                  Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                               10
結 果 の 視 覚 化


 •     内容
        – Rのパッケージ:cummeRbund(http://compbio.mit.edu/cummeRbund/)を用
          いて、発現比較結果を視覚化します。
 •     入力
        – cuffdiffの出力結果
 •     出力
        – グラフ




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              11
解 析 パ イ プ ラ イ ン


 •     Galaxy(https://main.g2.bx.psu.edu/)により、これらの処理をWebブラウザからGUI
       で実行できます。




     結果

                                                                             実行記録




2012/5/24                Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                12

Mais conteúdo relacionado

Mais procurados

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析Hiromi Kajiya-Kanegae
 
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"kazuoishii20
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Haruka Ozaki
 
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」Genaris Omics, Inc.
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)pinmarch_t Tada
 
コスモバイオニュース No.176(2021年8月)
コスモバイオニュース No.176(2021年8月)コスモバイオニュース No.176(2021年8月)
コスモバイオニュース No.176(2021年8月)COSMO BIO
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベースDNA Data Bank of Japan center
 
メタバーコーディングが拓く新種探索の新時代
メタバーコーディングが拓く新種探索の新時代メタバーコーディングが拓く新種探索の新時代
メタバーコーディングが拓く新種探索の新時代astanabe
 
メタバーコーディングのフレームワークとアルゴリズム
メタバーコーディングのフレームワークとアルゴリズムメタバーコーディングのフレームワークとアルゴリズム
メタバーコーディングのフレームワークとアルゴリズムastanabe
 
2019年第4回バイオインフォマティクス実習
2019年第4回バイオインフォマティクス実習2019年第4回バイオインフォマティクス実習
2019年第4回バイオインフォマティクス実習Jun Nakabayashi
 
2019第5回バイオインフォマティクス実習
2019第5回バイオインフォマティクス実習2019第5回バイオインフォマティクス実習
2019第5回バイオインフォマティクス実習Jun Nakabayashi
 
20160324自由集会講演
20160324自由集会講演20160324自由集会講演
20160324自由集会講演astanabe
 

Mais procurados (19)

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析ゲノム育種を実装・利用するためのNGSデータ解析
ゲノム育種を実装・利用するためのNGSデータ解析
 
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
 
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
NGS現場の会第4回研究会 モーニング教育セッション 配布用資料 「Windows/Mac環境で始めるNGSデータ解析入門」
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
 
コスモバイオニュース No.176(2021年8月)
コスモバイオニュース No.176(2021年8月)コスモバイオニュース No.176(2021年8月)
コスモバイオニュース No.176(2021年8月)
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
メタバーコーディングが拓く新種探索の新時代
メタバーコーディングが拓く新種探索の新時代メタバーコーディングが拓く新種探索の新時代
メタバーコーディングが拓く新種探索の新時代
 
メタバーコーディングのフレームワークとアルゴリズム
メタバーコーディングのフレームワークとアルゴリズムメタバーコーディングのフレームワークとアルゴリズム
メタバーコーディングのフレームワークとアルゴリズム
 
2019年第4回バイオインフォマティクス実習
2019年第4回バイオインフォマティクス実習2019年第4回バイオインフォマティクス実習
2019年第4回バイオインフォマティクス実習
 
2019第5回バイオインフォマティクス実習
2019第5回バイオインフォマティクス実習2019第5回バイオインフォマティクス実習
2019第5回バイオインフォマティクス実習
 
20160324自由集会講演
20160324自由集会講演20160324自由集会講演
20160324自由集会講演
 

Destaque

NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化Eli Kaminuma
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at MBL Molecular Evo...
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at  MBL Molecular Evo...Evolutionary Genome Scanning - talk by J. Eisen in 2000 at  MBL Molecular Evo...
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at MBL Molecular Evo...Jonathan Eisen
 
第3回NGS現場の会モーニング教育セッション 配布用資料
第3回NGS現場の会モーニング教育セッション 配布用資料第3回NGS現場の会モーニング教育セッション 配布用資料
第3回NGS現場の会モーニング教育セッション 配布用資料Aya Takeda
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」Genaris Omics, Inc.
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際DNA Data Bank of Japan center
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版MOCKS | Yuta Morishige
 

Destaque (10)

NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at MBL Molecular Evo...
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at  MBL Molecular Evo...Evolutionary Genome Scanning - talk by J. Eisen in 2000 at  MBL Molecular Evo...
Evolutionary Genome Scanning - talk by J. Eisen in 2000 at MBL Molecular Evo...
 
第3回NGS現場の会モーニング教育セッション 配布用資料
第3回NGS現場の会モーニング教育セッション 配布用資料第3回NGS現場の会モーニング教育セッション 配布用資料
第3回NGS現場の会モーニング教育セッション 配布用資料
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
NGS現場の会 第3回 モーニング教育セッション 配布用資料 「いまさら聞けない NGS超!入門」
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際
[DDBJing33] ゲノムワイド多型を利用した遺伝解析の実際
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
 

Semelhante a NGS現場の会第2回_アメリエフ株式会社_RNAseq解析

2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習Jun Nakabayashi
 
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習Jun Nakabayashi
 
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也CODE BLUE
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知弘毅 露崎
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningMasahito Ohue
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworksLinux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworkstripodworks
 

Semelhante a NGS現場の会第2回_アメリエフ株式会社_RNAseq解析 (9)

ENCODE勉強会
ENCODE勉強会ENCODE勉強会
ENCODE勉強会
 
2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習
 
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習
 
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也
[cb22] Mal-gopherとは?Go系マルウェアの分類のためのgimpfuzzy実装と評価 by 澤部 祐太, 甘粕 伸幸, 野村 和也
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知カーネル法を利用した異常波形検知
カーネル法を利用した異常波形検知
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screening
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworksLinux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworks
 

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析

  • 1. RNA-Seq解析パイプラインの検討 2012年5月24日 アメリエフ株式会社 Copyright © Amelieff Co. Ltd. All Rights Reserved
  • 2. ア ノ テ ー シ ョ ン デ ー タ • Illumina iGenomes(http://tophat.cbcb.umd.edu/igenomes.html) – iGenomesはモデル生物のリファレンスゲノム配列や既知遺伝子情報などを まとめたデータセットです。 – gene_idやtss_idが正確に記述されているので、以下の解析ではこのデータを 使うことをお奨めします。 http://hgdownload.cse.ucsc.edu/downloads.htmlからダウンロードできる既知遺伝子情報(例) ~(略)~ gene_id "NR_024540"; transcript_id "NR_024540"; cufflinksではgene_idを遺伝子名, transcript_idをmRNA名, tss_idを転写開始 iGenomesの既知遺伝子情報(例) 位置情報として集計するので、これらの値がちゃんと入っていたほうがよい ~(略)~ gene_id "WASH7P"; gene_name "WASH7P"; transcript_id "NR_024540"; tss_id "TSS7245"; 生物アイコン © ライフサイエンス統合データベースセンター licensed under CC表示2.1 日本 • 2012年5月時点の対応生物種は、ヒト 、マウス 、ラット 、牛 、犬 、 鶏 、ショウジョウバエ 、シロイヌナズナ 、線虫 、出芽酵母 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 2
  • 3. 生の リードデータ リードQC ワ ー ク フ ロ ー きれいな リードデータ マッピングチェック・カバレージチェック マッピング・ マッピングチェッ 転写構造予測 ク結果 ジャンクション情 マッピング結果 報 平均カバレージ チェック結果 発現レベル予測 SNP/InDel検出 SNP/InDel 発現レベル 転写物情報 検出結果 情報 コンセンサス 転写構造・発現レベル比較 転写物予測 コンセンサス 比較結果 転写物 融合遺伝子 予測 視覚化 既知転写物と比較 新規転写物 融合遺伝 グラフ画像 候補 子候補 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 3
  • 4. リ ー ド Q C • 内容 – Prinseq(http://prinseq.sourceforge.net/)を用いてPolyA/T tailを除去します。 – 弊社独自ツールを用いてリードデータのクオリティをチェックし、クオリティの 低い配列を除去します。 • 入力 – 生のリードデータ(fastq) • 出力 – クオリティの低い配列を除去したリードデータ(fastq) – 除去されたリードデータ • 詳細はポスター番号 T-38 をご覧ください。 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 4
  • 5. 融 合 遺 伝 子 予 測 • 内容 – deFuse(http://sourceforge.net/apps/mediawiki/defuse/index.php)を用いて、 融合遺伝子を検出します。 • 入力 – リードデータ(fastq) • 出力 – 融合遺伝子検出結果(タブ区切りテキスト) • 実行例 – $ perl defuse.pl -c config.txt -d data_dir -o output_dir -p 8 – 【ご参考】弊社ブログ記事:http://blog.amelieff.jp/?eid=175531 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 5
  • 6. マ ッ ピ ン グ ~ 転 写 構 造 予 測 • 内容 – リードをリファレンスゲノムにマッピングします。 – TopHat(http://tophat.cbcb.umd.edu/index.html)では、スプライシングを考慮 したマッピングおよびジャンクション構造予測が可能です。 • 入力 – リードデータ(fastq) • 出力 – マッピング結果(bam)、ジャンクション情報(bed)、挿入情報(bed)、欠失情報 (bed) • 実行例 – $ tophat –r 250 -o output_dir -G refgene.gtf -g 1 hg19 fastq1 fastq2 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 6
  • 7. 発 現 レ ベ ル 予 測 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、遺伝子やmRNAごとの発 現レベル(FPKM)を予測します。 • FPKM=Fragments Per Kilobase of exon per Million mapped fragments。発 現量をエキソン長と全マッピング数で補正したもの。遺伝子の長さや、ラ ンあたりのシーケンシング量によるバイアスを補正する。 • 入力 – マッピング結果(bam) • 出力 – 転写物情報(gtf)、発現レベル情報(fpkm_tracking) • 実行例 – $ cufflinks -o output_dir -M mask.gtf -g refgene.gtf accepted_hits.sorted.bam 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 7
  • 8. コ ン セ ン サ ス 転 写 物 予 測 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、複数サンプル由来の転 写物情報をマージしてコンセンサスな転写物を予測します。 • 入力 – 転写物情報ファイル(gtf)を羅列したテキストファイル • 出力 – コンセンサス転写物(gtf) • 実行例 – $ cuffmerge -s hg19.fa gtf_list.txt 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 8
  • 9. 既 知 転 写 物 と 比 較 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、コンセンサスな転写物と 既知転写物を比較し、新規転写物候補を検出します。 • 入力 – コンセンサス転写物(gtf) • 出力 – 新規転写物候補(gtf) • 実行例 – $ cuffcompare -s hg19.fa -r refGene.gtf merged.gtf 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 9
  • 10. 転 写 構 造 ・ 発 現 レ ベ ル 比 較 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、サンプル間の転写構造 や発現レベルを比較します。 • 入力 – 複数サンプルのマッピング結果 • 出力 – 各転写物の正規化された発現レベル情報(fpkm_tracking)、サンプル間の転 写構造・発現レベル比較結果(diff) • 実行例 – $ cuffdiff transcripts.gtf sample1_hits.bam sample2_hits.bam 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 10
  • 11. 結 果 の 視 覚 化 • 内容 – Rのパッケージ:cummeRbund(http://compbio.mit.edu/cummeRbund/)を用 いて、発現比較結果を視覚化します。 • 入力 – cuffdiffの出力結果 • 出力 – グラフ 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 11
  • 12. 解 析 パ イ プ ラ イ ン • Galaxy(https://main.g2.bx.psu.edu/)により、これらの処理をWebブラウザからGUI で実行できます。 結果 実行記録 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 12