O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
Enshu8
Enshu8
Carregando em…3
×

Confira estes a seguir

1 de 30 Anúncio

Mais Conteúdo rRelacionado

Semelhante a ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes (7)

Anúncio

Mais recentes (20)

ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

  1. 1. 14.09.11 ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes 1 @yuifu 尾崎遼 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  2. 2. 内容 1. イントロダクション 2. 先行研究 3. 提案手法 1. 概略 2. シンテニーブロックの列への変換 3. half-breakpoint graph の構築 4. シンテニーブロック隣接関係を状態とした系統樹の構築 5. 系統樹の内部状態の推定 6. シンテニーブロック隣接関係の再構築 7. スキャフォールドの再構築 8. 様々なシンテニーブロックサイズで作ったスキャフォールドのマージ 9. 使わなかったコンティグの挿入 4. (時間があったら性能評価など) 2
  3. 3. イントロダクション • ゲノムアセンブリ • ゲノム配列を断片化したリードからゲノム配列を再構築する • コンティグcontig • 連続的に重なり合うリードの一群 • スキャフォールドscaffold • 互いの位置関係が明らかなコンティグを線形にまとめたもの • 目標: コンティグの集合から長いスキャフォールドを作ること 3
  4. 4. 先行研究 • 実験による解決 • Long read (e.g. Pac Bio), Jumping library (e.g. paired reads) • Reference-assisted assembly: 近縁種のリファレンスゲノムの情報を利用 • 1. アラインメント結果を用いる方法 • リファレンスにコンティグをマップし、リファレンスでの位置情報を利用 • 2. Contig ordering problem • リファレンスと出力されるスキャフォールドの2-break distanceが最小になる ようにする • 3. Reference genome + outgroup (RACA) • 単一のリファンレンスゲノムと複数の”外群”を入力とする 4
  5. 5. 先行研究(RACA) Figure 1 from RACA paper Kim, J. et al., PNAS, 110, 1785–90 (2013). 5
  6. 6. 既存のReference-assisted assembly手法の問題点 • アラインメント結果を用いる方法 • 複数のリファレンスを扱えない • リファレンスとターゲットの間でStructural variationが存在するとエラーが生じる • Contig ordering problem • 複数のリファレンスを扱えない • リファレンスとターゲットの間でリアレンジメントが存在するとエラーが生じる • RACA • リファレンスとターゲットのペアワイズアラインメントからシンテニーブロックを 構築→ リファレンスにないコンティグは捨ててしまう • シンテニーブロック検出の最小サイズ(スケール)は一つしか設定できない→ コンティグは様々なサイズがあるため、複数のサイズを用いたい 6
  7. 7. 提案手法(概略) • Ragout • 入力 • ターゲットゲノムのアセンブリ(コンティグのセット) • 1種以上の近縁種のリファレンスゲノム配列のセット • 系統樹(リファレンスとターゲット含む) • 出力 • スキャフォールド(コンティグの列) 7
  8. 8. ざっくりいうと 8 リファレンスゲノムターゲットアセンブリ シンテニーブロックの列シンテニーブロックの列 multi-color half-breakpoint graph half-breakpointが各ゲノムにおいてどのノードと連 結しているかを葉の状態とした系統樹 種系統樹 内部節での状態の推定 multi-color half-breakpoint graphにおける最大マッ チング問題 様々なシンテニーブロックの サイズについて繰り返す 各サイズでできた スキャフォールドをマージ ターゲットのスキャフォールドの構築 アセンブリグラフを利用して コンティグをマージ
  9. 9. シンテニーブロックへの変換 9 • 塩基配列をシンテニーブロックの列へ変換する • Sibelia (Minkin et al., 2013)という著者らが作ったソフトウェアを使用 • リファレンスゲノム→単一のシンテニーブロックの列 • ターゲットゲノムのアセンブリ→複数のシンテニーブロックの列 • 邪魔なシンテニーブロックを除く シンテニーブロックの列(例) Reference 1: + 1 +2 +3 +4 +5 Reference 2: + 1 +3 +4 +5 Reference 3: + 1 – 4 – 3 + 5 Target assembly: +1 | +2+ 3 | +4 | +5 • ターゲットゲノムのアセンブリに存在しないシンテニーブロックをリ ファレンスゲノムから除く • アセンブリかリファレンスゲノムにおいて、複数存在するシンテニー ブロックすべては除く
  10. 10. half-breakpoint graph の構築 • Incomplete multi-color half-breakpoint graphs • ノード:各シンテニーブロックのhead (h)もしくはtail (t) • エッジ:シンテニーブロックの端(ノード)の隣接関係 • エッジの色はターゲット(赤)もしくはリファレンス(その他の色)において 隣接していることを表す • このグラフにおいてターゲットのエッジ(赤)を再構築することが目標 Incomplete multi-color half-breakpoint graph シンテニーブロックの列 Reference 1 (blue): + 1 +2 +3 +4 +5 Reference 2 (green): + 1 +3 +4 +5 Reference 3 (yellow): + 1 – 4 – 3 + 5 Target assembly (red): +1 | +2+ 3 | +4 | +5 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 10
  11. 11. シンテニーブロック隣接関係を状態とした系統樹の構築 • 系統樹T が与えられた時、half-breakpoint u について、uとつながっているノードを 葉の状態としてラベルする • シンテニーブロックがリファレンスゲノムに存在しないときは、voild状態とする • ターゲットのエッジ(赤)がないときは、それぞれの状態を入れる Incomplete multi-color half-breakpoint graph Phylogenetic tree ← {3h, 4t} Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 11
  12. 12. 系統樹の内部状態の推定 • 最節約法により内部節の状態を再構築する • Sankoffのアルゴリズム • 状態変化のコスト: (b:枝、τ:枝長) • 最終的なコスト: Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 12
  13. 13. シンテニーブロック隣接関係の再構築 • ターゲット(赤)のエッジのない各ノードについて、隣接関係を再構築したい • を最小にするような隣接関係を求める • この問題は、重み付きグラフの最大マッチング問題として解ける • マッチング:ノードを共有しないエッジの集合 • Blossom algorithmを用いる • エッジ(u, v) のコストは {uからの赤のエッジがvであるときのP(u, T)} + {vからの赤のエッジがuであるときのP(v, T)} • ターゲットでの隣接関係が分かっているノードは予め除く Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 13
  14. 14. スキャフォールドの再構築 • スキャフォールドの再構築 • グラフ上のエッジを両方向へたどる Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 14
  15. 15. 様々なシンテニーブロックサイズで作ったスキャフォールドの マージ 1. 以下のいずれかの条件のとき、Asのみに含まれるコンティグをAwに挿入する 1. Asにおいて隣接しているコンティグが、Awにおいて隣接している 2. Asにおいて隣接しているコンティグが、AwにおいてAwにのみ存在するコンティグだ けで分割されている 2. 1を大きなシンテニーブロックのサイズから順に繰り返す 15 As: 大きなシンテニーブロックのサイズで作成したスキャフォールド Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド M: マージしてできたスキャフォールド C: スキャフォールドに含まれるコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  16. 16. 使わなかったコンティグの挿入 • リアレンジメントの解析に使われなかったコンティグをアセンブリグラフを用いてスキャフォールドに 挿入する • ターゲットのみで得られたコンティグ • シンテニーブロックを検出するには短いコンティグ 1. スキャフォールド上で連続したコンティグのペアについて、アセンブリグラフ上でのパスを全通り探す • ただし、スキャフォールドに含まれるコンティグをパスに含まないもの 2. パスが単一だったら、そのパス上のコンティグをスキャフォールドに挿入する 16 大きい丸(黄色、緑):スキャフォールド上で隣接したコンティグのペア 小さい丸:リアレンジメントの解析に使われなかったコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  17. 17. 疑似コード Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 17
  18. 18. コメント • 性能向上に対して、2つの改善点の寄与度がよくわからない • 複数のゲノムをシンテニーブロック検出に利用 • 複数のサイズでシンテニーブロックを検出 • Reference-assisted assemblyではないScaffoldingツールとの比較を していない • 性能比較において、RACAのシンテニーブロックサイズ、outgroup の選択は適切だったか 18
  19. 19. 補遺: Sankoff’s dynamic programming algorithm for the weight small parsimony problem ライクな系統樹内部枝状態推定アルゴリズム 19 u: half-breakpoint T: 系統樹 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
  20. 20. 補遺: Blossom algorithm • グラフが与えられたときに、最大のマッチングを探す • マッチング:2つ以上のエッジが同一のノードを共有しないよ うなエッジのセット • Independent edge set ともいう • 詳しくはhttp://en.wikipedia.org/wiki/Blossom_algorithm 20
  21. 21. 補遺: 性能評価 • Ragout • Minimum synteny block size: 5000, 500, 100 bp • 比較対象 • Accepts only one reference genome • Mauve Contig Mover (Rissman et al., 2009) • OSLay (Richter et al., 2007) • Parameters recommended for bacterial genomes • Accepts one reference genome and multiple outgroups • RACA (Kim et al., 2013) • Minimum synteny fragment size: prob. 150 kbp (Maximum) 21
  22. 22. 補遺: 性能評価指標 • Misordered contigsの数 • スキャフォールドにおいて、マッピングが前後のコンティグ の位置と方向と一致していないコンティグの最小数 • Gap • 一つのスキャフォールドにおいて、隣接したコンティグのペ アのうち、正解では間に別のコンティグが存在するペアの数 • Coverage • 正解に対してアラインされた塩基数/ゲノムサイズ 22
  23. 23. 補遺: 性能評価1 • Structural variationを起こしていないゲノム • one reference (E. coli DH1), one target (E. coli MG1655) • ターゲット: SPAdes (Bankevich et al., 2012)でアセンブリしたコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 23
  24. 24. 補遺: 性能評価2 • Helicobacter Pylori の4系統をリファレンスに、1系統をターゲットに • いずれのリファレンスもターゲットに対して、structural variationを起こしている • ターゲット: Abyss (Simpson et al., 2009)でアセンブリしたコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 24 用いた系統の系統樹 ターゲットとのドットプロット ←ターゲット
  25. 25. 補遺: 性能評価2 • 単一のリファレンスを用いる(Ragout, RACA, Mauve contig mover, OSLay) • 複数のリファレンスを用いる(Ragout, RACA) • RACA: G27をリファレンスにし、他を外群とした 単一のリファレンスゲノムを用いた場合複数のリファレンスゲノムを用いた場合 Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 25
  26. 26. 補遺: 性能評価3 • ターゲットが複数の染色体から成る場合 • Vibrio Cholerae (染色体が2本) • リファレンスとターゲットの間にstructural variationが存在 • ターゲット: SPAdes でアセンブリしたコンティグ(40 bp Illumina reads) • RACA: O1 Inaba をリファレンスとする ←ターゲット Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 26
  27. 27. 補遺: 性能評価4 • Structural variationが多い場合 • 外側の枝ごとに5個の逆位と5個の転座をシミュレーション • 各枝ごとに10個のindelをシミュレーション • リファレンス: シンテニーブロックに分解 • ターゲット(E.coli K-12 str. MG1655): 各コンティグが各シンテニーブロックに対応するように切断 • シミュレーションは100回繰り返した Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 27
  28. 28. 補遺: 性能評価5 • パラメタ(Minimum synteny block size)のベンチマーク • Staphylococcus Aureusの異なる系統を用いた • ターゲット: SPAdesでアセンブリした一細胞シーケンスデータ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014). 28 ←ターゲット
  29. 29. 補遺: ディスカッション • Pac Bio やjumping library は必要ないかもしれない • シンテニーブロックの構築にSibeliaをしているが、他のツールでもよ いように改良を計画している • Sibeliaはバクテリアゲノム用だったが、他のツールを用いれば真 核にも拡張できる • ゲノム中に複数存在するシンテニーブロックや小さなコンティグを挿 入するのにアセンブリグラフの情報のみを使っているため、ターゲッ トの系統にリアレンジメントが起きている場合はエラーが入りうる • de Bruijn graphからリアレンジメントを解析できるかもしれない 29
  30. 30. 様々なシンテニーブロックサイズで作ったスキャフォールドの マージ • コンティグがstrong:Asに含まれる • コンティグがweak:Awに含まれ、Asに含まれない • AsとAwがconsistent:Asにおいて隣接しているコンティグが、(1) Awにおいて隣接している か(2) weak なコンティグのみによって分割されている 1. consistent ならば、AsのコンティグをAwに挿入し、マージしたものとする 2. 1を大きなシンテニーブロックのサイズから順に繰り返す 30 As: 大きなシンテニーブロックのサイズで作成したスキャフォールド Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド M: マージしてできたスキャフォールド C: スキャフォールドに含まれるコンティグ Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

×