O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

合成経路探索 -論文まとめ- (PFN中郷孝祐)

11.512 visualizações

Publicada em

PFN社内で化学反応・合成経路探索に関するdeep learning 応用の先行研究をサーベイしたときの資料です。

Publicada em: Ciências
  • Seja o primeiro a comentar

合成経路探索 -論文まとめ- (PFN中郷孝祐)

  1. 1. Kosuke Nakago Preferred Networks, Inc. 合成経路探索 ~ 論文まとめ ~
  2. 2. 目次 • 合成経路・逆合成経路探索とは • 研究の流れ • アプローチ – 古典的特徴量抽出 + NN – Graph Conv系列 – seq2seq系列 • 課題・考察 2
  3. 3. 合成経路・逆合成経路 • 反応 (Reaction) – 反応物 Reactant + 触媒 Reagent → 生成物 Product • 合成経路 :順方向な合成 – Reactant, Reagent が与えられたときにどのようなProductができるか • 逆合成経路:逆方向な合成 – Product が与えられたとき、どのようなReactant, Reagentができるか – 一意とは限らない 3
  4. 4. 逆合成経路探索 • 逆合成経路探索 – “商用利用可能な” Reactant, Reagentを用いて、 所望のProduct を合成したい – 逆合成経路予測を複数ステップ行う必要がある 4 https://arxiv.org/pdf/1708.04202.pdf
  5. 5. Reaction SMILESについて • Mixed: Reactant.Reagent >> Product • Separated: Reactant > Reagent > Product というような形式で記載 – 触媒が明示的に分けられている Separated の方が情報量は多い 5 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  6. 6. Reaction SMILESについて • Reactant >> Product • Reactant > Reagent > Product というような形式で記載 • 複数分子が存在するので “.” で区切られている • どのAtomが反応前後でどの部分に行ったのかの対応を取るために、各Atomにidが 振られている場合が多い (Atom-mapping) ※ USPTO Datasetの mapping は自動生成されたもので間違っているものもあるので注意! • RDKitで扱える。可視化など ↓ 6 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  7. 7. Datasetについて • USPTO Dataset ができてから機械学習の適用トレンドが生まれた。 • Lowe が集めたものを Jin et al. などがそれぞれ自身のタスクようにFilterし 独自のSub setのデータセットを作成・評価している 7 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  8. 8. 研究の流れ Molecular Transormer Molecular Transformer for Chemical Reaction Prediction and Uncertainty Estimation seq2seq, Schwaller IBM “Found in Translation": Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models 2017 2016 2019 NLP系 8 Neural Symbolic ML - Neural‐Symbolic Machine Learning for Retrosynthesis and Reaction Prediction AlphaChem - Towards "AlphaChem": Chemical Synthesis Planning with Tree Search and Deep Neural Network Policies - AlphaChem: Planning chemical syntheses with deep neural networks and symbolic AI - Learning to Plan Chemical Syntheses Computer Assisted Retrosynthesis Computer-Assisted Retrosynthesis Based on Molecular Similarity WLDN / WLDN5 - Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network - A graph-convolutional neural network model for the prediction of chemical reactivity ELECTRO A GENERATIVE MODEL FOR ELECTRON PATHS seq2seq, Liu Stanford Retrosynthetic reaction prediction using neural sequence-to-sequence models seq2seq, Nam&Kim Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions Molecule CHEF Generating Molecules via Chemical Reactions Graph conv特徴量抽出+NN GTPN GRAPH TRANSFORMATION POLICY NETWORK FOR CHEMICAL REACTION PREDICTION 2018
  9. 9. 研究の流れ 研究を進められている組織は少なく、限られている印象 • ドイツの機関:Marwin Segler, John BradShaw et al. • MIT:Jin, Connor Coley et al. • IBM:Phillipe Schwaller et al. 9
  10. 10. 手法の比較 • 調べた限りでは NLP 系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 10 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  11. 11. 研究の流れ • これまではTemplate-basedな手法 – ルールを人手で列挙してきた。(→最近は自動列挙する研究もある) – 問題点1:新規の反応に対応するには、新しいルールを足していく必要がある。 – 問題点2:精度が低い ← Templateの範囲しか見ないため、全体の分子のコンテキストか らより起こりそうな反応を重視するといったことができない。 – 問題点3:Sub Graph isomorphism matching をすべてのルールに対して適用する必要が あるため、時間がかかる。 11
  12. 12. 研究の流れ • AlphaChem のあたりで 特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた • 機械学習を活用した template-free な手法へ • Jin et alがUSPTOデータセットを公開してから急激に進んでいる • シンプルなNNから徐々にGraphConv 勢 VS NLP 勢 へ移行してきている – 一方で難しい逆合成経路探索はいったん保留して、 まずは簡単な順合成予測を解いている研究が最近のトレンド 12
  13. 13. 特徴量抽出+NN • AlphaChem のあたりで 特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた。 – ただしend-to-end ではなくどこかにルールで制限を加えている • 反応はルールを列挙 • 記述子は学習ベースではなくECFPを使う など。 13
  14. 14. Neural Symbolic ML • 逆合成経路探索。事前に反応の種類を列挙。以下2種類で実験 – Hand code した場合:103 rules – Data-drivenで自動抽出:8720 rules (手法の詳細はかかれていない? 。。) • Product を入力として、反応の種類を分類予測 – これまでのルールベースのものと異なり、分子全体のコンテキストからより起 こりそうな反応を予測したい。 14
  15. 15. Neural Symbolic ML • ProductをECFP4で特徴量抽出して MLP へ入れて分類問題解く • 疑問点:反応の種類さえわかれば、逆合成経路が記述できる? – どの位置で反応するかなどの情報無くてもよいのか? 15
  16. 16. AlphaChem • 概要:Productの反応分類をNNで行い、MCTSで探索することでこれまで より高精度・高速な逆合成経路探索を可能にした。 • MCTS探索のアイデアはAlpha Goから来ている – Expansion Policy → In-scope filter → Rollout Policy を用いて探索 16 https://arxiv.org/pdf/1708.04202.pdf
  17. 17. AlphaChem • MCTS探索のアイデアはAlpha Goから来ている – Expansion Policy & Rollout Policy を用いて探索 – Expansion policy • 精度よく展開したい • 広いルールを探索 – Rollout policy • 高速に計算 • 少ないルールで探索 17https://arxiv.org/pdf/1708.04202.pdf
  18. 18. AlphaChem • データセット:Reaxysを使用。12.4M single step の合成データ – Transformation rulesは”Neural Symbolic ML” の時の手法を用いて自動抽出。 – Expansion policy: 30171 rules – Rollout policy: 17134 rules • 予測に使うNetworkは先行研究同様、軽いMLP or Linear regression。 18https://arxiv.org/pdf/1708.04202.pdf
  19. 19. AlphaChem • In Scope Filter – Expansion policy のTop-Kのそれぞれが本当に”起こるかどうか”を二値分類で 予測する – Product & Reactionを入力として二値分類結果を出力 AUC: 0.99 出たらしい! • データの負例の作り方に工夫: – データベースにあるものが正例 – 負例の作り方は以下2通り 1.Productで起こりえる反応のうち、 データベースの反応以外の反応は負例とした (反応はパターンとして書かれるので, ある化合物が複数のパターンにマッチする) 2.正例 (ρi, φi) に対して、 (ρi, φi)を負例とした 19https://arxiv.org/pdf/1708.04202.pdf
  20. 20. AlphaChem • 結果:既知の合成経路をきちんと見つけることができた 20
  21. 21. AlphaChem • 課題: – ECFPで特徴量抽出しているところは Graph convなど使って精度上げる方法がありそう。 – ルールの列挙が数が多い? 21
  22. 22. Computer Assisted Retrosynthesis • Morgan fingerprint + Tanimoto similarity でデータベースから似ている例を 見つけて、その反応ルールを適用するだけで十分よい精度で逆合成経路探 索ができるという主張 • NNなどの学習はなし。 22 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  23. 23. Computer Assisted Retrosynthesis • 逆合成経路は複数あるという例 – 複数の中からどれが一番よさそうかランキングしたい 23 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  24. 24. Computer Assisted Retrosynthesis • 上のTarget Productの逆合成経路予測 • 左にあるように先行例 “Precedent” をデータベースから抽出 Similarity: s_prod • 先行例と同じ反応した場合の反応物を算出 その “precursor” とのSimilarity も算出 Similarity: s_reac • 最終スコアは s_prod * s_reac で算出 大きいものから順にランク付けする。 • これだけシンプルな手法で十分らしい。 24 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  25. 25. Computer Assisted Retrosynthesis • 結果:先行研究の seq2seq [Liu] よりは精度良い • 既知のProductの逆合成経路探索もできた。 25 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  26. 26. seq2seq 系 • Reactant > Reagent > Product で記載されるReaction SMILESを文字列として扱い、NLPで研究されている翻 訳タスクと同じ問題へ落とす – NLPの成果・コードを流用できる – seq2seq, transformer (multi-head attention)… • beam search 26
  27. 27. seq2seq, Nam&Kim • seq2seq のモデルを使って順方向の合成経路予測をする初期研究 • 以下2つのデータセットで学習・評価 – USPTO – Wade reaction templates in an organic chemistry textbook 27 https://arxiv.org/abs/1612.09529
  28. 28. seq2seq, Liu • seq2seq のモデルを使って逆合成経路予測 • SMARTS 記法で retrosynthesis prediction – 逆合成なので、順方向より難しいタスク 28 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  29. 29. seq2seq, Liu • Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – Reaction SMILES の product を入力して、 reactant を出力するように学習 – reaction type は固定 29 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  30. 30. seq2seq, Liu • Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – 推論時はBeam searchで、最も確率が高いものTop-Kを選ぶ (論文ではbeam width 5, K=5, decode length 140 char) 30 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  31. 31. seq2seq, Liu • 結果 • template base の baseline と比較して、精度はよい・悪い傾向 のものがそれぞれあったらしい。 "leaving group" 脱離基 がかな り大きいものを使うようなタイプの合成方法だと rule base で template matching した方が精度がよいらしい。 • 逆に単一のルールベースで書きづらいような全体をみつつ反応 が決まるようなものはMLの方が得意 31 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  32. 32. seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 32 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  33. 33. seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 33 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  34. 34. seq2seq, Schwaller • 順方向の Reaction を seq2seq (BiLSTM + attention使用)で予測 • Reaction smiles は reactant, reagent(触媒) に前処理で分けた後、 reagent に関してはパターンが有限で限られているので頻出する76個を tokenize 34 https://arxiv.org/pdf/1711.04810.pdf
  35. 35. seq2seq, Schwaller • Attentionが効いていることが直感的にわかる図 – 基本的には大体の部分は同じままで、反応する部分だけを少し変えたような生 成物を作るように“翻訳”できればよい 35 https://arxiv.org/pdf/1711.04810.pdf
  36. 36. seq2seq, Schwaller • データセットはLowe‘s dataset, Jin’s USPTO, Pistachio database を使用 • 結果 – 先行研究のWLDNより精度よく予測できたとのこと 36 https://arxiv.org/pdf/1711.04810.pdf
  37. 37. Molecular Transformer • 順方向の合成経路予測:Multihead attention を張るタイプのseq2seq で reaction smiles を予測しているだけのシンプルな手法 • code: https://github.com/pschwllr/MolecularTransformer • slide: https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf • Free web service: https://rxn.res.ibm.com/ – IBM RXNとして公開 – APIまで公開してる 37 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  38. 38. Molecular Transformer • 結果:様々なデータセット、先行研究モデルと比較 – 2019.6時点ではSOTAか – 触媒を明示的に分けたSeparated方が精度はよい 38 https://arxiv.org/pdf/1811.02633.pdf
  39. 39. Molecular Transformer • 結果:複雑な文字列の変更もきちんと予測できている。 39 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  40. 40. Molecular Transformer • IBM RXN https://rxn.res.ibm.com/ 40 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  41. 41. Graph Conv系 41
  42. 42. WLDN • 1. Reaction center prediction (atom pair):反応中心の予測 • 2. Candidate generation:列挙 • 3. Ranking 3段階で順方向の反応を予測。1, 3 でGraph convを用いる。 42 https://arxiv.org/pdf/1709.04555.pdf
  43. 43. WLDN 1. Reaction center prediction (atom pair):反応中心の予測 • 反応前後でBond 情報が変わっているところを1、 同じところは0となるように予測する – Atom mappingの情報が必要 • 手法 – Weiffeiler-Lehman Networkを使用 • Local Model:atom u, v および 辺 uv の情報から予測 • Global Model:全体からAttention score (softmaxではなくsigmoid使って いるのでGateっぽい) 計算した後に予測→触媒の情報も入る – N atom について N^2 の pair に対して予測 • binary_cross_entropy で学習 • Top-K を採用 43 https://arxiv.org/pdf/1709.04555.pdf
  44. 44. WLDN 2. Candidate generation:列挙 • 1. での予測結果からのTop-K の中から k個 (1~K) 選んで、その部分が変化 した場合の生成物(Product) として可能なものを全列挙 – この部分はルールベースで、学習要素はなし – 全列挙しても現実的には valency condition などでかなり数は絞られる – 結果で示すように、templated-based なものよりは候補少なくなっていて、 十分に候補は絞られている • Practical には K=6くらいで十分なよう 44 https://arxiv.org/pdf/1709.04555.pdf
  45. 45. WLDN 3. Ranking • 2. で列挙されたProductの候補 のうちどれが一番もっともらしいかを予測する。 • 各Product 候補 に対してスコアを算出。 r が元のreactant。2通り実験 – WLN: r と のEmbedding vectorの差 から算出 – WLDN: に対して Difference vector を割り当てたGraphに対して からWL Networkを適用してスコアを計算する • Softmaxで分類問題として学習 – を入力とし、正解である を予測できるように 45 https://arxiv.org/pdf/1709.04555.pdf 𝑝0, … 𝑝 𝑚 𝑝𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝0, … 𝑝 𝑚 𝑝0
  46. 46. WLDN • 結果: – 予測精度を USPTO-15K Dataset で評価 – 化学者との合成結果予測実験では、人をOut performした。 46 https://arxiv.org/pdf/1709.04555.pdf 1 2 3
  47. 47. WLDN5 • 内容は WLDNとほぼ同じ? – 第一・第二著者(Wengong Jin, Connor W. Coley)が入れ替わっている – Network を少し変えた? – 1. atom pair prediction時に どの bond に変わるかも予測。(u, v, b) 47 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  48. 48. WLDN5 • n=5 で十分現実の反応をカバーできるので、n=5までの列挙としたらしい。 • 1. のNetwork の上位 K=16 から 5個を選んで列挙する 48 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  49. 49. WLDN5 • 学習時間 – 1. WLN: Titan X で 19時間 – 3. WLDN: Titan X で 72時間 • 結果:精度比較 – WLDNやseq2seq (Schwaller) よりも良い精度 – ELECTRO (後述) と同等くらいの精度 49 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  50. 50. WLDN5 • 正しく予測できているものの例:わりと複雑なものまで扱えている印象 • Appendixにもっと詳細な考察あり(割愛) 50https://chemrxiv.org/articles/A_Graph-Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Reactivity/7163189/1
  51. 51. ELECTRO • Electron path を sequential に予測することで順方向の反応を予測 – “Mechanistic” であることが特徴 – 電子の移動には LEF: Linear Electron Flow 表記を採用 52 https://arxiv.org/pdf/1805.10970.pdf
  52. 52. ELECTRO • Algorithm 概要:3 step に分けて Sequentialに予測していく 2. & 3. は終了するまでループする。 – 1. Starting Location – 2. Electron Movement • t odd: Remove location • t even: Add location – 3. Continue / Termination classification 53 https://arxiv.org/pdf/1805.10970.pdf t: oddのRemoveで終わるときは、 電気的に偏って終了する?
  53. 53. ELECTRO Algorithm 詳細 • Graph convのArchはGGNN使用 訓練 • 各ステップ t 毎に学習 • t 時点の正解分子構造 から 正解Atom (start, add, remove) を予測 推論 • 合計のパスの尤度 beam search で求めてTop- Kを算出 • 全てのステップを確率値で算出 しているため各パスの尤度が計算可能 • AppendixにAlgorithm記載あり。 54 1 2 3 𝑀𝑡 ∗ 𝑎 𝑡 ∗ log 𝑝 𝜃 𝑃0:𝑇 𝑀0, 𝑀𝑒) https://arxiv.org/pdf/1805.10970.pdf
  54. 54. ELECTRO • LEFの構成方法 – USPTOのデータセット自体にはLEF情報無いので前処理して作り出す • 反応前後で変わった部分から算出 • 電気陰性度の順で並べると、start→end のOrderがわかるらしい – USPTOの中のうち、きちんとLEFが取り出せたもののみを評価に使用 →Subset のみしか扱えない(電子1個移動する場合しか扱えない?) ”USPTO_LEF” と呼ぶ 55 https://arxiv.org/pdf/1805.10970.pdf
  55. 55. ELECTRO • 結果 (ELECTRO-LITEは触媒情報 を入れなかったもの) – Mechanism prediction:割愛 – Product prediction • Electron pathが違っても結果が同じProductとなる場合があるらしい 最終Productがあって入ればOKというSetting(他の論文もこちらの基準を採用) • WLDN, Seq2Seq (Schwaller) よりはよく、WLDN5と同等の精度 56 https://arxiv.org/pdf/1805.10970.pdf 𝑀𝑒
  56. 56. ELECTRO • Appendix – (左) Symmetry があるため一意に決まらないものの例 – (右) ELECTRO-LITE の予測例 57 https://arxiv.org/pdf/1805.10970.pdf
  57. 57. GTPN:Graph Transformation Policy Network • 順方向の合成経路予測を強化学習 (policy gradient) を用いてアプローチ – 先行研究のグラフ生成モデルGCPN: Graph Convolutional Policy Network がベースアイデア • 反応前後を “可変長のボンドのつなぎ変え” 操作だとみなし、その可変長のActionを policy gradient で学習していく – Action (ξ, u, v, b) の系列からなる – 辺 (u, v) を Bond b に変更する。ξ : stop flag 1になったらそこで終了。 58https://arxiv.org/pdf/1812.09441.pdf
  58. 58. GTPN:Graph Transformation Policy Network • Network 構成:3つのNetworkを使用 – GNN:Graph Neural Network – NPPN:Node Pair Prediction Network – PN:Policy Network 59 https://arxiv.org/pdf/1812.09441.pdf
  59. 59. GTPN:Graph Transformation Policy Network • 推論時のbeam search – Action 系列の尤度が高い方からTop-Nを算出 – Beam 幅が広いと常に精度がいいとは限らない。 • 以下の例ではBeam 幅 1 の精度74.49 を超えるためには beam 幅20 まで上げる必要があった 65 https://arxiv.org/pdf/1812.09441.pdf
  60. 60. GTPN:Graph Transformation Policy Network • 結果 – 精度は ELECTROと同等か多少劣るくらい 66 https://arxiv.org/pdf/1812.09441.pdf
  61. 61. GTPN:Graph Transformation Policy Network • エラー内容の分析 – Atom pair predictionでの間違いが一番多い。 – symmetry で間違えたことになってしまっているのは全体の 5.7% 67 https://arxiv.org/pdf/1812.09441.pdf 左から、1. reactant, 2. incorrect prediction, 3. ground truth, 4. product.
  62. 62. Molecule Chef • “合成可能な分子” のみを生成するグラフ生成モデルを提案 [発想の転換] • これまでのようにproduct を直接出すのではなく、 bag of reactants を生成する • 先行研究で出てきた順方向のreaction prediction model を使用することで割と精度 よく予測できることを利用 → 現状SOTAの Molecular Transformer を使用。 68 https://openreview.net/pdf?id=BJlQEILY_N 可変長のReactants のセット
  63. 63. Molecule Chef • 生成モデル – GGNN Encoder + RNN decoder のVAE – bag of reactants を生成 • Encoder 側 – GGNNで各Reactantを別々に潜在空間にMapping – Sum とって (Readout)、最終的な “bag of reactants” の 表現 z を得る 69 https://openreview.net/pdf?id=BJlQEILY_N
  64. 64. Molecule Chef • Decoder 側 – USPTOで計15回以上出てくる reactant のみをtokenize (3180個) – RNNで可変長のReactantを生成 – Halt signal が選ばれたらストップ – 学習時はRandom にOrderを決めて、Teacher forcingした 70 https://openreview.net/pdf?id=BJlQEILY_N
  65. 65. Molecule Chef • Dataset – 簡単な設定としたいため USPTO全体ではなく USPTO_LEF で学習 – USPTOで計15回以上出てくる reactant のみをtokenize • 3180 reactants • 21928 products – Reagent は今回は Filter outして、未使用 72
  66. 66. Molecule Chef • 結果 – 生成する空間を「よく使われているReactantから合成可能なProduct」 に限定しているためValidity がとても高い 73 https://openreview.net/pdf?id=BJlQEILY_N
  67. 67. Molecule Chef • 結果 – 直接対象分子を生成するモデルと比べて、安定な分子が生成できる 74 https://openreview.net/pdf?id=BJlQEILY_N
  68. 68. Molecule Chef • 結果:Optimization – 本来の目的であった Molecular search も当然可能 75 https://openreview.net/pdf?id=BJlQEILY_N
  69. 69. Molecule Chef • Retro synthesisへの応用 – z → “bag of reactants” のDecoderはすでに学習済み – product → z という 新しいEncoder を学習すれば、逆合成経路探索にも使える – product →(New encoder) z →(Decoder) “bag of reactants” →(Molecular Transformer) product’ となるため 本当に作りたいproduct と実際にできると予測される product’が一 致する保証はないが、似ている product は作れる 76 https://openreview.net/pdf?id=BJlQEILY_N
  70. 70. Molecule Chef • Retro synthesisへの応用 – 例:(b), (c) では別のものができてしまっている。 – 逆合成をメインとした論文ではないので、あくまでのおまけの使い方として可能性の紹介 77 https://openreview.net/pdf?id=BJlQEILY_N
  71. 71. 手法の比較 • 今のところ seq2seq 系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 78 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  72. 72. 79

×