Mais conteúdo relacionado Mais de Deep Learning JP (20) 【DL輪読会】Generative models for molecular discovery: Recent advances and challenges1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Generative models for molecular discovery: Recent
advances and challenges”
Kensuke Wakasugi, Panasonic Holdings Corporation.
Wakasugi, Panasonic Holdings Corporation
2. 書誌情報1
紹介論文[1]
タイトル:
Generative models for molecular discovery: Recent advances and challenges
著者:Bilodeau, C., Jin, W., Jaakkola, T., Barzilay, R., & Jensen, K. F.
所属:Massachusetts Institute of Technology
出版日: 2022/03/05
DOI:https://doi.org/10.1002/wcms.1608
ジャーナル:Wiley Interdisciplinary Reviews: Computational Molecular Science,
Impact factor:25.113(2020)
選書理由
化学の分野において、深層学習の生成モデルがどのように応用されているか興味があったため
Wakasugi, Panasonic Holdings Corporation
2
※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
3. 書誌情報2
紹介論文[2]
タイトル:
GraphAF: a flow-based autoregressive model for molecular graph generation
著者: Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J.
所属: 北京大学, 上海交通大学, Mila, モントリオール大学, CIFAR
出版日: 2020/01/26
被引用数: 136 (22/05/24時点)
DOI:https://doi.org/10.48550/arXiv.2001.09382
ジャーナル:ICLR 2020
選書理由
具体的な深層学習の応用事例のうち、Flowベースモデルの一種として有力な手法だったため
Wakasugi, Panasonic Holdings Corporation
3
※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
4. 目次
• 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation
Wakasugi, Panasonic Holdings Corporation
4
6. 分子の表現
• 一次元表現
– SMILES
Wakasugi, Panasonic Holdings Corporation
6
出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法
一次元表現では、SMILESと呼ばれる記法を利用.自然言語と類似
• 文字列で表現され、
自然言語処理分野の各種手法が応用可能
• 言語における文法が存在し、
任意の配列が成立するわけではない
• 不正でないSMILESの生成効率も一つの課
題.
7. 分子の表現
• 二次元表現
– グラフ(node、edge).
Wakasugi, Panasonic Holdings Corporation
7
出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法
二次元表現では、原子とその結合のグラフで表現
左表の構造をそのままグラフのnode、edge
に割当てて表現.
逐次的生成と、一括生成する手法がある.
SMILES同様に、
valency rulesなどの整合性判定が存在.
8. 分子の表現
• 三次元表現
– point clouds
Wakasugi, Panasonic Holdings Corporation
8
出典:
https://commons.wikimedia.org/wiki/File:Glucose_animation.gif?us
elang=ja
三次元表現では、空間上の点で表現
三次元空間上の点集合として表現.
情報量が最も多くなるが、学習も難しくなる
1次、2次、3次の順に、情報量は詳細に
(空間配置、異性体など)
9. アーキテクチャ
Wakasugi, Panasonic Holdings Corporation
9
基本的な生成モデルのアーキテクチャは画像分野に準じる
FIGURE 1
・VAE:
再構成誤差と、
隠れ層のKLダイバージェンスで学習
・GAN:
生成分子に対する、
real or fakeを利用して学習
・Normalizing flow:
実空間と潜在空間の変換・逆変換を学習
・その他:
diffusion-based models
合成可能性を考慮した生成モデル
異性体の考慮はできていない
10. 生成モデルを使う問題設定
Wakasugi, Panasonic Holdings Corporation
10
問題設定は、制約のあるなしで大きく三種類
(1) 制約なし分子生成
特に条件を課さない生成モデル.ただし、chemical validityは必要
とにかく多様な新規分子が欲しいケース.
chemical validity, novelty, uniquenessで評価
(2) 特性制約つき分子生成(出力側の制約)
特性値の制約条件を課す場合.
例えば、薬としての効能を最大化したいケースなど.
分子生成に合わせて実験的評価を行うことは困難であるため、特性予測器と併用する.
この場合、ベイズ最適化や、強化学習の枠組みで最適解を探すことになる.
(3) 構造制約つき分子生成(入力側の制約)
指定の構造から派生した分子生成、あるいは、所定の部分構造を含む分子生成.
既知の素性の良い分子から出発し、よりよい分子生成を目指す.
11. ベンチマーク・データセット
Wakasugi, Panasonic Holdings Corporation
11
比較検証用のベンチマークは用意されているが、実問題との乖離も
・最新のデータセットは、MOSES、Guacamol
・ Unconstrainedの場合
valid, unique, novel, diverseなどで評価
・ Goal-orientedの場合
similarity:対象分子に似た分子が生成できるか
Property Optimization:特性最適化
・ 特性としてはlogP or QEDが良く使われる
logP:オクタノール/水分配係数
QED:quantitative estimate of drug-likeliness
・注意点として、 logP or QEDは実際的に
必要な特性を表していないことも多い
12. 一般的なワークフロー
Wakasugi, Panasonic Holdings Corporation
12
現状single-passの取り組みが多いが、closed-loopとしての利用も期待
FIGURE 3
・現状:
所望の分子を多数生成 (>104)し、
マニュアルでスクリーニング
最終的に、2,3個を合成評価
・将来:
絞り込み機能の自動化と、合成評価の自動化・高速化
13. 実用時の課題:評価方法が乏しい
Wakasugi, Panasonic Holdings Corporation
13
生成モデルは単純に利用可能だが、実験的評価は高コスト
FIGURE 2
• 任意の分子に対する、目的関数が与えられた下での最適化
• 複数の目的関数が与えられた場合
• 説明変数(分子の構造)に制約がある場合
根本的課題は、分子の評価方法.
高精度な予測器か、高速な実験検証環境が必要
■分子設計の最適化の際に、利用可能な評価方法が乏しい
14. 実用時の課題:合成可能性の評価、データのノイズ
Wakasugi, Panasonic Holdings Corporation
14
生成モデルの良し悪しの他、合成可否・データバイアス・予測性能も考慮が必要
■合成可能か否かは重要な指標だが、近似的評価方法の利用に留まる
Synthetic accessibilityなどが利用されるが、
実際に合成できることを正しく評価できるわけではない
■特性が付与された学習データに、ノイズ、バイアスが含まれる.
ベイズ最適化などを行う際の特性予測器に、不確実性が含まれ、
それらを考慮した探索が必要
15. 将来展望
Wakasugi, Panasonic Holdings Corporation
15
将来展望として、ベンチマーク拡充と表現方法の進化に期待
■ベンチマーク拡充
ベンチマークに対し、高性能を示すモデルが提案されつつあるが、
実応用を考えた時に、十分な評価がなされているとはいいがたい.
LogP、QEDでは不十分
■表現方法の進化
より複雑な特徴量の獲得のため、2D、3Dの生成モデルの発展が必要.
同時に、計算量の増加、大規模データベースが必要という課題も発生.
現状のモデルでは、自己回帰モデルが使われているが、本質的には順序のないモデルが良い
鏡面対象分子を区別することも望ましい
17. 目次
• 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation
Wakasugi, Panasonic Holdings Corporation
17
18. 背景
Wakasugi, Panasonic Holdings Corporation
18
深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用.
(1) high model flexibility for data density estimation;
(2) efficient parallel computation for training;
(3) an iterative sampling process,
which allows leveraging chemical domain knowledge for valency
checking.
■自己回帰Flowモデルのメリット
19. 自己回帰Flow
Wakasugi, Panasonic Holdings Corporation
19
深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用.
■ Normalizing flow(Kobyzev et al., 2019)
■ Autoregressive flow( Papamakarios et al. 2017)
ガウス分布などの潜在空間の変数εから、実データzへの写像を逆関数が定義できる形で表現
zの尤度計算ができる
変数の依存関係に制約が加わることになり、ヤコビアンの行列式計算が簡略化される
28. 所感
Wakasugi, Panasonic Holdings Corporation
28
• 画像分野での流れを順調に踏襲
• 実験関連でのブレイクスルーがどのように起こるかがポイントか?
• 自己回帰Flowのメリットの享受もあるが、
回転対称性の考慮など、物理学視点からの理論発展も期待
• 一次元表現においては、Transformer等の応用も期待