6. What is “Pareto-optimal” problem?
• イタリアの経済学者ヴィルフレド・パレート(冪乗則を
発見した)が提唱
• パレート効率性(交換によってどちらも得をする)の高
い方法を選択してパレート改善をする
• それ以上改善できない状態をパレート最適
必要資金資源A
例
必要時間資源B
複数の対象に関するパレート最適を!
求めるためには?
7. DTL (Duplication-Transfer-Loss) model
種の木 (host) と遺伝子(parasite)の木の違いを説明するイベント
• Speciation,Duplication, Transfer, Loss
• 最節約法だとSpeciationはコスト0
DTL-reconciliationを解く手法!
• 最節約法:コストを設定する必要、種の時間が決定→多項式時間、Internal
nodeを決定できない場合→NP-hard
• 確率的手法:分化時間などのパラメーターを推定する必要、葉の少ない複数
の木では時間がかかる (Szollosi et al. 2012. PNAS)
• 時間に完全一致するのではなく最適となるような制約で解くとO(nm) (m, n:#
of nodes in the gene and species tree) ←これが2012年の内容
10. 今回のモデル
最悪の場合:O(m^5 n logm)
パレート最適なEvent count vectorをequivalence classに分割する:O(m^4 logm)
入力:種と木のNewickフォーマット(葉のマップは済んでいる)
3つのツール!
• costscape : computes the Pareto-optimal event count vectors and
equivalent region
• eventscape : identifies the individual events that are common to the
reconciliation to identify events in each region and uses this information
to identify events that are strongly supported across the event cost
space.
• sigscape : permits new, more robust statistical significance tests in
cophylogenetic analyses.
11. Reconciliation and DTL scenarios
• map each node of T (gene tree) to a unique node in S in a consistent way (topology of S)
• designate each node of T as representing either a speciation, duplication or transfer event
Constraints
1. Leafならノードマッピング(M)=リーフマッピング(L)
2. tがインターナルノード,t’・t”が子のとき、(a)マップされた先でルートからの道に途中に
t’,t”はいない(b)子孫の少なくともどちらか一つはマッピングした方でも子孫
3. マップされたtとt’がincomparable(同じパス上にない)ときt,t’間のエッジはtransfer
12. 4. tがインターナルノード,t’・t”が子のとき、(a)マップされた先でt’t”のlast common ancestor
がtで二つがincomparableなときのみtはspeciation (b) lcaがt以下にあったらduplication
(c) t,t’間かt,t”間のエッジがtransferだったらtはtransfer (d) t,t’間のエッジがtransferだった場
合その受け取り先とはincompatible
Gene tree
t
t’ t”
Species tree
t
t’ t”
Speciation!
(対象のGeneの)
Duplication
Transfer
t
t
t’
τ(t)
t”
t’’’
t”
t’
1
1
Loss
0 1
Loss
0
Speciation
Loss
13. Reconciliation and DTL scenarios
• Count the minimum number of gene losses
• Positive cost
• Pareto-optimal event count vector
Species treeでのエッジ数を数える??
1. Speciation: 親との間のエッジ数(最初の一
本は抜く) 子が親と同一もありえる
2. Duplication:親との間のエッジ数の和
3. Transfer:親との間のエッジ数(Transferは
その受け先の遺伝子がLoss, transferされ
た遺伝子が挿入)
具体的なコスト(C)を未知としたいので、
Δ,Θ,Lossについてパレート最適を求める
すべてのPareto-optimal event count vectorを求
めることで、コストに依存しない状態で最節約
なleaf-mappingとそれに対するevent count
vectorが得られる
14. Solving PV problem
T,Sとそのleaf-mappingがあるとき、すべてのPareto-optimal event count vectorsを
見つける問題について、lossの数を数えるDPと効率的なデータセットの扱い方
T内のノードt, S内のノードsに対して
Pareto-optimal event count vectors(t,s)=PΣ⊕PΔ⊕PΘ
このPΣ,PΔ,PΘを計算して保存
再利用するためにとっておく
全部計算したら で木全体の最適解が求まる
Δ : Duplication
Θ : Transfer
L : Loss
を使って、数え上げを表記。例えばv+(L,i) =lossをi増加させる
18. Counting solutions and enumerating events
• DPのトラックでそれぞれのevent count vectorに対してreconciliationの数を覚えておく
• set of events occurring in the reconciliation associated with a Pareto-optimal event count vector
• reconciliationの数はexponentialに増えていくが、最終的なeventの数はO(mn^2)に収束
→全体集合のunionやintersectionなどの関連する集合を得るために効率的な探索が可能
xscape in Python
costscape -> eventscape -> sigscape
20. Costscape
Dataset : predominantly prokaryotic species sampled broadly from across the tree of life,
4860 gene trees over 100 species
-> restricted to a subset of 3433 gene families from 20 randomly sampled species
exclude 34 gene families for which eventscape used more than the allocated 5GB of RAM
←????
結果!
• 85.8% gene families induce at least two regions
• 37.5% have at least five regions
• tree size ↑ #region ↑
• 54.1% gene families have at least one region with
zero area
• five or fewer regions covers the majority of the event
cost space (b)
• 極端な領域をカバーすることもあるが、zero area (red)
はほとんどがbiological relevant solutionを含んでいる。
らしい。
21. Eventscape
• イベントコスト空間でよくサポートされているイベントを探す
• range of costs on transfer and loss (with respect to the unit cost of duplication)のコスト空間 (0.5~2) で、
Pareto-optimal regionsとそれぞれの個数の領域で共通のイベントを推定する
• Fraction s (0~1)内の領域すべてのreconciliationでそのイベントが見られたときsのconsensus supportがある
と定義
結果!
• speciationはよくサポートされている(特に根に近いものは
共通して保存されている)
• 80%超えだと2.1%dup, 15.1%transfer, 2.1% loss
• jumpが50%付近に存在。怪しい。
• thresholdが高いとDTLそれぞれ同じ割合に
• 即ちあるコストに定めて計算するとそれに応じてイベントの
割合がかわるspecificityがある
22. Eventscape
結果!
• event cost spaceでも結果は同様
• ただしジャンプがより顕著
• a few large regionによってevent cost spaceが占め
られていることがよくわかる
• duplicationが66.7~でジャンプ
!
• cophylogenetic eventでもconsistentな結果
23. まとめ
• Pareto-optimal count vectorsとevent cost spaceを同等の領域に分割する
手法を開発
• Sampling手法はdensityなどがわかっていないと不正確
• ad hocなコストを選ぶことの危険性
• high-supportなspeciationに比べ、その他はlow-support。適当に決めたコ
ストによるものに比べてrobustかも。
• same hostへの複数マッピングなど