SlideShare uma empresa Scribd logo
1 de 30
14.09.11 ISMB2014読み会 
Ragout—a reference-assisted 
assembly tool for bacterial 
genomes 
1 
@yuifu 
尾崎遼 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
内容 
1. イントロダクション 
2. 先行研究 
3. 提案手法 
1. 概略 
2. シンテニーブロックの列への変換 
3. half-breakpoint graph の構築 
4. シンテニーブロック隣接関係を状態とした系統樹の構築 
5. 系統樹の内部状態の推定 
6. シンテニーブロック隣接関係の再構築 
7. スキャフォールドの再構築 
8. 様々なシンテニーブロックサイズで作ったスキャフォールドのマージ 
9. 使わなかったコンティグの挿入 
4. (時間があったら性能評価など) 
2
イントロダクション 
• ゲノムアセンブリ 
• ゲノム配列を断片化したリードからゲノム配列を再構築する 
• コンティグcontig 
• 連続的に重なり合うリードの一群 
• スキャフォールドscaffold 
• 互いの位置関係が明らかなコンティグを線形にまとめたもの 
• 目標: コンティグの集合から長いスキャフォールドを作ること 
3
先行研究 
• 実験による解決 
• Long read (e.g. Pac Bio), Jumping library (e.g. paired reads) 
• Reference-assisted assembly: 近縁種のリファレンスゲノムの情報を利用 
• 1. アラインメント結果を用いる方法 
• リファレンスにコンティグをマップし、リファレンスでの位置情報を利用 
• 2. Contig ordering problem 
• リファレンスと出力されるスキャフォールドの2-break distanceが最小になる 
ようにする 
• 3. Reference genome + outgroup (RACA) 
• 単一のリファンレンスゲノムと複数の”外群”を入力とする 
4
先行研究(RACA) 
Figure 1 from RACA paper 
Kim, J. et al., PNAS, 110, 1785–90 (2013). 5
既存のReference-assisted assembly手法の問題点 
• アラインメント結果を用いる方法 
• 複数のリファレンスを扱えない 
• リファレンスとターゲットの間でStructural variationが存在するとエラーが生じる 
• Contig ordering problem 
• 複数のリファレンスを扱えない 
• リファレンスとターゲットの間でリアレンジメントが存在するとエラーが生じる 
• RACA 
• リファレンスとターゲットのペアワイズアラインメントからシンテニーブロックを 
構築→ リファレンスにないコンティグは捨ててしまう 
• シンテニーブロック検出の最小サイズ(スケール)は一つしか設定できない→ 
コンティグは様々なサイズがあるため、複数のサイズを用いたい 
6
提案手法(概略) 
• Ragout 
• 入力 
• ターゲットゲノムのアセンブリ(コンティグのセット) 
• 1種以上の近縁種のリファレンスゲノム配列のセット 
• 系統樹(リファレンスとターゲット含む) 
• 出力 
• スキャフォールド(コンティグの列) 
7
ざっくりいうと 
8 
リファレンスゲノムターゲットアセンブリ 
シンテニーブロックの列シンテニーブロックの列 
multi-color half-breakpoint graph 
half-breakpointが各ゲノムにおいてどのノードと連 
結しているかを葉の状態とした系統樹 
種系統樹 
内部節での状態の推定 
multi-color half-breakpoint graphにおける最大マッ 
チング問題 
様々なシンテニーブロックの 
サイズについて繰り返す 
各サイズでできた 
スキャフォールドをマージ 
ターゲットのスキャフォールドの構築 
アセンブリグラフを利用して 
コンティグをマージ
シンテニーブロックへの変換 
9 
• 塩基配列をシンテニーブロックの列へ変換する 
• Sibelia (Minkin et al., 2013)という著者らが作ったソフトウェアを使用 
• リファレンスゲノム→単一のシンテニーブロックの列 
• ターゲットゲノムのアセンブリ→複数のシンテニーブロックの列 
• 邪魔なシンテニーブロックを除く 
シンテニーブロックの列(例) 
Reference 1: + 1 +2 +3 +4 +5 
Reference 2: + 1 +3 +4 +5 
Reference 3: + 1 – 4 – 3 + 5 
Target assembly: +1 | +2+ 3 | +4 | +5 
• ターゲットゲノムのアセンブリに存在しないシンテニーブロックをリ 
ファレンスゲノムから除く 
• アセンブリかリファレンスゲノムにおいて、複数存在するシンテニー 
ブロックすべては除く
half-breakpoint graph の構築 
• Incomplete multi-color half-breakpoint graphs 
• ノード:各シンテニーブロックのhead (h)もしくはtail (t) 
• エッジ:シンテニーブロックの端(ノード)の隣接関係 
• エッジの色はターゲット(赤)もしくはリファレンス(その他の色)において 
隣接していることを表す 
• このグラフにおいてターゲットのエッジ(赤)を再構築することが目標 
Incomplete multi-color half-breakpoint graph 
シンテニーブロックの列 
Reference 1 (blue): + 1 +2 +3 +4 +5 
Reference 2 (green): + 1 +3 +4 +5 
Reference 3 (yellow): + 1 – 4 – 3 + 5 
Target assembly (red): +1 | +2+ 3 | +4 | +5 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 10
シンテニーブロック隣接関係を状態とした系統樹の構築 
• 系統樹T が与えられた時、half-breakpoint u について、uとつながっているノードを 
葉の状態としてラベルする 
• シンテニーブロックがリファレンスゲノムに存在しないときは、voild状態とする 
• ターゲットのエッジ(赤)がないときは、それぞれの状態を入れる 
Incomplete multi-color half-breakpoint graph 
Phylogenetic tree 
← {3h, 4t} 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 11
系統樹の内部状態の推定 
• 最節約法により内部節の状態を再構築する 
• Sankoffのアルゴリズム 
• 状態変化のコスト: (b:枝、τ:枝長) 
• 最終的なコスト: 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 12
シンテニーブロック隣接関係の再構築 
• ターゲット(赤)のエッジのない各ノードについて、隣接関係を再構築したい 
• を最小にするような隣接関係を求める 
• この問題は、重み付きグラフの最大マッチング問題として解ける 
• マッチング:ノードを共有しないエッジの集合 
• Blossom algorithmを用いる 
• エッジ(u, v) のコストは 
{uからの赤のエッジがvであるときのP(u, T)} + {vからの赤のエッジがuであるときのP(v, T)} 
• ターゲットでの隣接関係が分かっているノードは予め除く 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 13
スキャフォールドの再構築 
• スキャフォールドの再構築 
• グラフ上のエッジを両方向へたどる 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 14
様々なシンテニーブロックサイズで作ったスキャフォールドの 
マージ 
1. 以下のいずれかの条件のとき、Asのみに含まれるコンティグをAwに挿入する 
1. Asにおいて隣接しているコンティグが、Awにおいて隣接している 
2. Asにおいて隣接しているコンティグが、AwにおいてAwにのみ存在するコンティグだ 
けで分割されている 
2. 1を大きなシンテニーブロックのサイズから順に繰り返す 
15 
As: 大きなシンテニーブロックのサイズで作成したスキャフォールド 
Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド 
M: マージしてできたスキャフォールド 
C: スキャフォールドに含まれるコンティグ 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
使わなかったコンティグの挿入 
• リアレンジメントの解析に使われなかったコンティグをアセンブリグラフを用いてスキャフォールドに 
挿入する 
• ターゲットのみで得られたコンティグ 
• シンテニーブロックを検出するには短いコンティグ 
1. スキャフォールド上で連続したコンティグのペアについて、アセンブリグラフ上でのパスを全通り探す 
• ただし、スキャフォールドに含まれるコンティグをパスに含まないもの 
2. パスが単一だったら、そのパス上のコンティグをスキャフォールドに挿入する 
16 
大きい丸(黄色、緑):スキャフォールド上で隣接したコンティグのペア 
小さい丸:リアレンジメントの解析に使われなかったコンティグ 
Kolmogorov et al., Bioinformatics. 30, i302–9 
(2014).
疑似コード 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 17
コメント 
• 性能向上に対して、2つの改善点の寄与度がよくわからない 
• 複数のゲノムをシンテニーブロック検出に利用 
• 複数のサイズでシンテニーブロックを検出 
• Reference-assisted assemblyではないScaffoldingツールとの比較を 
していない 
• 性能比較において、RACAのシンテニーブロックサイズ、outgroup 
の選択は適切だったか 
18
補遺: Sankoff’s dynamic programming algorithm for the weight small 
parsimony problem ライクな系統樹内部枝状態推定アルゴリズム 
19 
u: half-breakpoint 
T: 系統樹 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
補遺: Blossom algorithm 
• グラフが与えられたときに、最大のマッチングを探す 
• マッチング:2つ以上のエッジが同一のノードを共有しないよ 
うなエッジのセット 
• Independent edge set ともいう 
• 詳しくはhttp://en.wikipedia.org/wiki/Blossom_algorithm 
20
補遺: 性能評価 
• Ragout 
• Minimum synteny block size: 5000, 500, 100 bp 
• 比較対象 
• Accepts only one reference genome 
• Mauve Contig Mover (Rissman et al., 2009) 
• OSLay (Richter et al., 2007) 
• Parameters recommended for bacterial genomes 
• Accepts one reference genome and multiple outgroups 
• RACA (Kim et al., 2013) 
• Minimum synteny fragment size: prob. 150 kbp (Maximum) 
21
補遺: 性能評価指標 
• Misordered contigsの数 
• スキャフォールドにおいて、マッピングが前後のコンティグ 
の位置と方向と一致していないコンティグの最小数 
• Gap 
• 一つのスキャフォールドにおいて、隣接したコンティグのペ 
アのうち、正解では間に別のコンティグが存在するペアの数 
• Coverage 
• 正解に対してアラインされた塩基数/ゲノムサイズ 
22
補遺: 性能評価1 
• Structural variationを起こしていないゲノム 
• one reference (E. coli DH1), one target (E. coli MG1655) 
• ターゲット: SPAdes (Bankevich et al., 2012)でアセンブリしたコンティグ 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 23
補遺: 性能評価2 
• Helicobacter Pylori の4系統をリファレンスに、1系統をターゲットに 
• いずれのリファレンスもターゲットに対して、structural variationを起こしている 
• ターゲット: Abyss (Simpson et al., 2009)でアセンブリしたコンティグ 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 24 
用いた系統の系統樹 
ターゲットとのドットプロット 
←ターゲット
補遺: 性能評価2 
• 単一のリファレンスを用いる(Ragout, RACA, Mauve contig mover, OSLay) 
• 複数のリファレンスを用いる(Ragout, RACA) 
• RACA: G27をリファレンスにし、他を外群とした 
単一のリファレンスゲノムを用いた場合複数のリファレンスゲノムを用いた場合 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 25
補遺: 性能評価3 
• ターゲットが複数の染色体から成る場合 
• Vibrio Cholerae (染色体が2本) 
• リファレンスとターゲットの間にstructural variationが存在 
• ターゲット: SPAdes でアセンブリしたコンティグ(40 bp Illumina reads) 
• RACA: O1 Inaba をリファレンスとする 
←ターゲット 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 26
補遺: 性能評価4 
• Structural variationが多い場合 
• 外側の枝ごとに5個の逆位と5個の転座をシミュレーション 
• 各枝ごとに10個のindelをシミュレーション 
• リファレンス: シンテニーブロックに分解 
• ターゲット(E.coli K-12 str. MG1655): 各コンティグが各シンテニーブロックに対応するように切断 
• シミュレーションは100回繰り返した 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 27
補遺: 性能評価5 
• パラメタ(Minimum synteny block size)のベンチマーク 
• Staphylococcus Aureusの異なる系統を用いた 
• ターゲット: SPAdesでアセンブリした一細胞シーケンスデータ 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 28 
←ターゲット
補遺: ディスカッション 
• Pac Bio やjumping library は必要ないかもしれない 
• シンテニーブロックの構築にSibeliaをしているが、他のツールでもよ 
いように改良を計画している 
• Sibeliaはバクテリアゲノム用だったが、他のツールを用いれば真 
核にも拡張できる 
• ゲノム中に複数存在するシンテニーブロックや小さなコンティグを挿 
入するのにアセンブリグラフの情報のみを使っているため、ターゲッ 
トの系統にリアレンジメントが起きている場合はエラーが入りうる 
• de Bruijn graphからリアレンジメントを解析できるかもしれない 
29
様々なシンテニーブロックサイズで作ったスキャフォールドの 
マージ 
• コンティグがstrong:Asに含まれる 
• コンティグがweak:Awに含まれ、Asに含まれない 
• AsとAwがconsistent:Asにおいて隣接しているコンティグが、(1) Awにおいて隣接している 
か(2) weak なコンティグのみによって分割されている 
1. consistent ならば、AsのコンティグをAwに挿入し、マージしたものとする 
2. 1を大きなシンテニーブロックのサイズから順に繰り返す 
30 
As: 大きなシンテニーブロックのサイズで作成したスキャフォールド 
Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド 
M: マージしてできたスキャフォールド 
C: スキャフォールドに含まれるコンティグ 
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Mais conteúdo relacionado

Destaque

160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会Haruka Ozaki
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet AllocationHaruka Ozaki
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)Haruka Ozaki
 
巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table について巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table についてHaruka Ozaki
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料at grandpa
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理Ken'ichi Matsui
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 

Destaque (9)

160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table について巨大な表を高速に扱うData.table について
巨大な表を高速に扱うData.table について
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 

Semelhante a ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...n-yuki
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試みKamiya Toshihiro
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境Hideki Takase
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCAAkisato Kimura
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 

Semelhante a ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes (7)

2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み
任意粒度機能モデルコードクローン検出手法のリファクタリング理解への適用の試み
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 

ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

  • 1. 14.09.11 ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes 1 @yuifu 尾崎遼 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  • 2. 内容 1. イントロダクション 2. 先行研究 3. 提案手法 1. 概略 2. シンテニーブロックの列への変換 3. half-breakpoint graph の構築 4. シンテニーブロック隣接関係を状態とした系統樹の構築 5. 系統樹の内部状態の推定 6. シンテニーブロック隣接関係の再構築 7. スキャフォールドの再構築 8. 様々なシンテニーブロックサイズで作ったスキャフォールドのマージ 9. 使わなかったコンティグの挿入 4. (時間があったら性能評価など) 2
  • 3. イントロダクション • ゲノムアセンブリ • ゲノム配列を断片化したリードからゲノム配列を再構築する • コンティグcontig • 連続的に重なり合うリードの一群 • スキャフォールドscaffold • 互いの位置関係が明らかなコンティグを線形にまとめたもの • 目標: コンティグの集合から長いスキャフォールドを作ること 3
  • 4. 先行研究 • 実験による解決 • Long read (e.g. Pac Bio), Jumping library (e.g. paired reads) • Reference-assisted assembly: 近縁種のリファレンスゲノムの情報を利用 • 1. アラインメント結果を用いる方法 • リファレンスにコンティグをマップし、リファレンスでの位置情報を利用 • 2. Contig ordering problem • リファレンスと出力されるスキャフォールドの2-break distanceが最小になる ようにする • 3. Reference genome + outgroup (RACA) • 単一のリファンレンスゲノムと複数の”外群”を入力とする 4
  • 5. 先行研究(RACA) Figure 1 from RACA paper Kim, J. et al., PNAS, 110, 1785–90 (2013). 5
  • 6. 既存のReference-assisted assembly手法の問題点 • アラインメント結果を用いる方法 • 複数のリファレンスを扱えない • リファレンスとターゲットの間でStructural variationが存在するとエラーが生じる • Contig ordering problem • 複数のリファレンスを扱えない • リファレンスとターゲットの間でリアレンジメントが存在するとエラーが生じる • RACA • リファレンスとターゲットのペアワイズアラインメントからシンテニーブロックを 構築→ リファレンスにないコンティグは捨ててしまう • シンテニーブロック検出の最小サイズ(スケール)は一つしか設定できない→ コンティグは様々なサイズがあるため、複数のサイズを用いたい 6
  • 7. 提案手法(概略) • Ragout • 入力 • ターゲットゲノムのアセンブリ(コンティグのセット) • 1種以上の近縁種のリファレンスゲノム配列のセット • 系統樹(リファレンスとターゲット含む) • 出力 • スキャフォールド(コンティグの列) 7
  • 8. ざっくりいうと 8 リファレンスゲノムターゲットアセンブリ シンテニーブロックの列シンテニーブロックの列 multi-color half-breakpoint graph half-breakpointが各ゲノムにおいてどのノードと連 結しているかを葉の状態とした系統樹 種系統樹 内部節での状態の推定 multi-color half-breakpoint graphにおける最大マッ チング問題 様々なシンテニーブロックの サイズについて繰り返す 各サイズでできた スキャフォールドをマージ ターゲットのスキャフォールドの構築 アセンブリグラフを利用して コンティグをマージ
  • 9. シンテニーブロックへの変換 9 • 塩基配列をシンテニーブロックの列へ変換する • Sibelia (Minkin et al., 2013)という著者らが作ったソフトウェアを使用 • リファレンスゲノム→単一のシンテニーブロックの列 • ターゲットゲノムのアセンブリ→複数のシンテニーブロックの列 • 邪魔なシンテニーブロックを除く シンテニーブロックの列(例) Reference 1: + 1 +2 +3 +4 +5 Reference 2: + 1 +3 +4 +5 Reference 3: + 1 – 4 – 3 + 5 Target assembly: +1 | +2+ 3 | +4 | +5 • ターゲットゲノムのアセンブリに存在しないシンテニーブロックをリ ファレンスゲノムから除く • アセンブリかリファレンスゲノムにおいて、複数存在するシンテニー ブロックすべては除く
  • 10. half-breakpoint graph の構築 • Incomplete multi-color half-breakpoint graphs • ノード:各シンテニーブロックのhead (h)もしくはtail (t) • エッジ:シンテニーブロックの端(ノード)の隣接関係 • エッジの色はターゲット(赤)もしくはリファレンス(その他の色)において 隣接していることを表す • このグラフにおいてターゲットのエッジ(赤)を再構築することが目標 Incomplete multi-color half-breakpoint graph シンテニーブロックの列 Reference 1 (blue): + 1 +2 +3 +4 +5 Reference 2 (green): + 1 +3 +4 +5 Reference 3 (yellow): + 1 – 4 – 3 + 5 Target assembly (red): +1 | +2+ 3 | +4 | +5 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 10
  • 11. シンテニーブロック隣接関係を状態とした系統樹の構築 • 系統樹T が与えられた時、half-breakpoint u について、uとつながっているノードを 葉の状態としてラベルする • シンテニーブロックがリファレンスゲノムに存在しないときは、voild状態とする • ターゲットのエッジ(赤)がないときは、それぞれの状態を入れる Incomplete multi-color half-breakpoint graph Phylogenetic tree ← {3h, 4t} Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 11
  • 12. 系統樹の内部状態の推定 • 最節約法により内部節の状態を再構築する • Sankoffのアルゴリズム • 状態変化のコスト: (b:枝、τ:枝長) • 最終的なコスト: Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 12
  • 13. シンテニーブロック隣接関係の再構築 • ターゲット(赤)のエッジのない各ノードについて、隣接関係を再構築したい • を最小にするような隣接関係を求める • この問題は、重み付きグラフの最大マッチング問題として解ける • マッチング:ノードを共有しないエッジの集合 • Blossom algorithmを用いる • エッジ(u, v) のコストは {uからの赤のエッジがvであるときのP(u, T)} + {vからの赤のエッジがuであるときのP(v, T)} • ターゲットでの隣接関係が分かっているノードは予め除く Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 13
  • 14. スキャフォールドの再構築 • スキャフォールドの再構築 • グラフ上のエッジを両方向へたどる Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 14
  • 15. 様々なシンテニーブロックサイズで作ったスキャフォールドの マージ 1. 以下のいずれかの条件のとき、Asのみに含まれるコンティグをAwに挿入する 1. Asにおいて隣接しているコンティグが、Awにおいて隣接している 2. Asにおいて隣接しているコンティグが、AwにおいてAwにのみ存在するコンティグだ けで分割されている 2. 1を大きなシンテニーブロックのサイズから順に繰り返す 15 As: 大きなシンテニーブロックのサイズで作成したスキャフォールド Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド M: マージしてできたスキャフォールド C: スキャフォールドに含まれるコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  • 16. 使わなかったコンティグの挿入 • リアレンジメントの解析に使われなかったコンティグをアセンブリグラフを用いてスキャフォールドに 挿入する • ターゲットのみで得られたコンティグ • シンテニーブロックを検出するには短いコンティグ 1. スキャフォールド上で連続したコンティグのペアについて、アセンブリグラフ上でのパスを全通り探す • ただし、スキャフォールドに含まれるコンティグをパスに含まないもの 2. パスが単一だったら、そのパス上のコンティグをスキャフォールドに挿入する 16 大きい丸(黄色、緑):スキャフォールド上で隣接したコンティグのペア 小さい丸:リアレンジメントの解析に使われなかったコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  • 17. 疑似コード Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 17
  • 18. コメント • 性能向上に対して、2つの改善点の寄与度がよくわからない • 複数のゲノムをシンテニーブロック検出に利用 • 複数のサイズでシンテニーブロックを検出 • Reference-assisted assemblyではないScaffoldingツールとの比較を していない • 性能比較において、RACAのシンテニーブロックサイズ、outgroup の選択は適切だったか 18
  • 19. 補遺: Sankoff’s dynamic programming algorithm for the weight small parsimony problem ライクな系統樹内部枝状態推定アルゴリズム 19 u: half-breakpoint T: 系統樹 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  • 20. 補遺: Blossom algorithm • グラフが与えられたときに、最大のマッチングを探す • マッチング:2つ以上のエッジが同一のノードを共有しないよ うなエッジのセット • Independent edge set ともいう • 詳しくはhttp://en.wikipedia.org/wiki/Blossom_algorithm 20
  • 21. 補遺: 性能評価 • Ragout • Minimum synteny block size: 5000, 500, 100 bp • 比較対象 • Accepts only one reference genome • Mauve Contig Mover (Rissman et al., 2009) • OSLay (Richter et al., 2007) • Parameters recommended for bacterial genomes • Accepts one reference genome and multiple outgroups • RACA (Kim et al., 2013) • Minimum synteny fragment size: prob. 150 kbp (Maximum) 21
  • 22. 補遺: 性能評価指標 • Misordered contigsの数 • スキャフォールドにおいて、マッピングが前後のコンティグ の位置と方向と一致していないコンティグの最小数 • Gap • 一つのスキャフォールドにおいて、隣接したコンティグのペ アのうち、正解では間に別のコンティグが存在するペアの数 • Coverage • 正解に対してアラインされた塩基数/ゲノムサイズ 22
  • 23. 補遺: 性能評価1 • Structural variationを起こしていないゲノム • one reference (E. coli DH1), one target (E. coli MG1655) • ターゲット: SPAdes (Bankevich et al., 2012)でアセンブリしたコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 23
  • 24. 補遺: 性能評価2 • Helicobacter Pylori の4系統をリファレンスに、1系統をターゲットに • いずれのリファレンスもターゲットに対して、structural variationを起こしている • ターゲット: Abyss (Simpson et al., 2009)でアセンブリしたコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 24 用いた系統の系統樹 ターゲットとのドットプロット ←ターゲット
  • 25. 補遺: 性能評価2 • 単一のリファレンスを用いる(Ragout, RACA, Mauve contig mover, OSLay) • 複数のリファレンスを用いる(Ragout, RACA) • RACA: G27をリファレンスにし、他を外群とした 単一のリファレンスゲノムを用いた場合複数のリファレンスゲノムを用いた場合 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 25
  • 26. 補遺: 性能評価3 • ターゲットが複数の染色体から成る場合 • Vibrio Cholerae (染色体が2本) • リファレンスとターゲットの間にstructural variationが存在 • ターゲット: SPAdes でアセンブリしたコンティグ(40 bp Illumina reads) • RACA: O1 Inaba をリファレンスとする ←ターゲット Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 26
  • 27. 補遺: 性能評価4 • Structural variationが多い場合 • 外側の枝ごとに5個の逆位と5個の転座をシミュレーション • 各枝ごとに10個のindelをシミュレーション • リファレンス: シンテニーブロックに分解 • ターゲット(E.coli K-12 str. MG1655): 各コンティグが各シンテニーブロックに対応するように切断 • シミュレーションは100回繰り返した Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 27
  • 28. 補遺: 性能評価5 • パラメタ(Minimum synteny block size)のベンチマーク • Staphylococcus Aureusの異なる系統を用いた • ターゲット: SPAdesでアセンブリした一細胞シーケンスデータ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 28 ←ターゲット
  • 29. 補遺: ディスカッション • Pac Bio やjumping library は必要ないかもしれない • シンテニーブロックの構築にSibeliaをしているが、他のツールでもよ いように改良を計画している • Sibeliaはバクテリアゲノム用だったが、他のツールを用いれば真 核にも拡張できる • ゲノム中に複数存在するシンテニーブロックや小さなコンティグを挿 入するのにアセンブリグラフの情報のみを使っているため、ターゲッ トの系統にリアレンジメントが起きている場合はエラーが入りうる • de Bruijn graphからリアレンジメントを解析できるかもしれない 29
  • 30. 様々なシンテニーブロックサイズで作ったスキャフォールドの マージ • コンティグがstrong:Asに含まれる • コンティグがweak:Awに含まれ、Asに含まれない • AsとAwがconsistent:Asにおいて隣接しているコンティグが、(1) Awにおいて隣接している か(2) weak なコンティグのみによって分割されている 1. consistent ならば、AsのコンティグをAwに挿入し、マージしたものとする 2. 1を大きなシンテニーブロックのサイズから順に繰り返す 30 As: 大きなシンテニーブロックのサイズで作成したスキャフォールド Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド M: マージしてできたスキャフォールド C: スキャフォールドに含まれるコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).