【DL輪読会】Generative models for molecular discovery: Recent advances and challenges

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Generative models for molecular discovery: Recent
advances and challenges”
Kensuke Wakasugi, Panasonic Holdings Corporation.
Wakasugi, Panasonic Holdings Corporation

書誌情報１
紹介論文[1]
タイトル：
Generative models for molecular discovery: Recent advances and challenges
著者：Bilodeau, C., Jin, W., Jaakkola, T., Barzilay, R., & Jensen, K. F.
所属：Massachusetts Institute of Technology
出版日: 2022/03/05
DOI：https://doi.org/10.1002/wcms.1608
ジャーナル：Wiley Interdisciplinary Reviews: Computational Molecular Science,
Impact factor:25.113（2020）
選書理由
化学の分野において、深層学習の生成モデルがどのように応用されているか興味があったため
2
※本資料の図表は，特に記載がない限り紹介論文[1][2]より引用したものです

書誌情報２
紹介論文[2]
タイトル：
GraphAF: a flow-based autoregressive model for molecular graph generation
著者： Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J.
所属：北京大学, 上海交通大学, Mila, モントリオール大学, CIFAR
出版日: 2020/01/26
被引用数: 136 （22/05/24時点）
DOI：https://doi.org/10.48550/arXiv.2001.09382
ジャーナル：ICLR 2020
選書理由
具体的な深層学習の応用事例のうち、Flowベースモデルの一種として有力な手法だったため
3
※本資料の図表は，特に記載がない限り紹介論文[1][2]より引用したものです

目次
• 紹介論文[1]：Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]：GraphAF: a flow-based autoregressive model for molecular graph generation
4

概要
5
分子生成への深層生成モデルの応用として、VAE、GAN、Flowが研究されている
FIGURE 1
• 画像分野と比較して、
入出力形式は分子用にする必要があるが、
その他は踏襲

分子の表現
• 一次元表現
– SMILES
6
出典Wikipedia：https://ja.wikipedia.org/wiki/SMILES記法
一次元表現では、SMILESと呼ばれる記法を利用．自然言語と類似
• 文字列で表現され、
自然言語処理分野の各種手法が応用可能
• 言語における文法が存在し、
任意の配列が成立するわけではない
• 不正でないSMILESの生成効率も一つの課
題．

分子の表現
• 二次元表現
– グラフ（node、edge）．
7
出典Wikipedia：https://ja.wikipedia.org/wiki/SMILES記法
二次元表現では、原子とその結合のグラフで表現
 左表の構造をそのままグラフのnode、edge
に割当てて表現．
 逐次的生成と、一括生成する手法がある．
 SMILES同様に、
valency rulesなどの整合性判定が存在．

分子の表現
• 三次元表現
– point clouds
8
出典：
https://commons.wikimedia.org/wiki/File:Glucose_animation.gif?us
elang=ja
三次元表現では、空間上の点で表現
 三次元空間上の点集合として表現．
 情報量が最も多くなるが、学習も難しくなる
 1次、2次、3次の順に、情報量は詳細に
（空間配置、異性体など）

アーキテクチャ
9
基本的な生成モデルのアーキテクチャは画像分野に準じる
FIGURE 1
・VAE：
再構成誤差と、
隠れ層のKLダイバージェンスで学習
・GAN：
生成分子に対する、
real or fakeを利用して学習
・Normalizing flow：
実空間と潜在空間の変換・逆変換を学習
・その他：
diffusion-based models
合成可能性を考慮した生成モデル
異性体の考慮はできていない

生成モデルを使う問題設定
10
問題設定は、制約のあるなしで大きく三種類
(1) 制約なし分子生成
特に条件を課さない生成モデル．ただし、chemical validityは必要
とにかく多様な新規分子が欲しいケース．
chemical validity, novelty, uniquenessで評価
(2) 特性制約つき分子生成（出力側の制約）
特性値の制約条件を課す場合．
例えば、薬としての効能を最大化したいケースなど．
分子生成に合わせて実験的評価を行うことは困難であるため、特性予測器と併用する．
この場合、ベイズ最適化や、強化学習の枠組みで最適解を探すことになる．
(3) 構造制約つき分子生成（入力側の制約）
指定の構造から派生した分子生成、あるいは、所定の部分構造を含む分子生成．
既知の素性の良い分子から出発し、よりよい分子生成を目指す．

ベンチマーク・データセット
11
比較検証用のベンチマークは用意されているが、実問題との乖離も
・最新のデータセットは、MOSES、Guacamol
・ Unconstrainedの場合
valid, unique, novel, diverseなどで評価
・ Goal-orientedの場合
similarity：対象分子に似た分子が生成できるか
Property Optimization：特性最適化
・特性としてはlogP or QEDが良く使われる
logP：オクタノール／水分配係数
QED：quantitative estimate of drug-likeliness
・注意点として、 logP or QEDは実際的に
必要な特性を表していないことも多い

一般的なワークフロー
12
現状single-passの取り組みが多いが、closed-loopとしての利用も期待
FIGURE 3
・現状：
所望の分子を多数生成（>104）し、
マニュアルでスクリーニング
最終的に、２，３個を合成評価
・将来：
絞り込み機能の自動化と、合成評価の自動化・高速化

実用時の課題：評価方法が乏しい
13
生成モデルは単純に利用可能だが、実験的評価は高コスト
FIGURE 2
• 任意の分子に対する、目的関数が与えられた下での最適化
• 複数の目的関数が与えられた場合
• 説明変数（分子の構造）に制約がある場合
根本的課題は、分子の評価方法．
高精度な予測器か、高速な実験検証環境が必要
■分子設計の最適化の際に、利用可能な評価方法が乏しい

実用時の課題：合成可能性の評価、データのノイズ
14
生成モデルの良し悪しの他、合成可否・データバイアス・予測性能も考慮が必要
■合成可能か否かは重要な指標だが、近似的評価方法の利用に留まる
Synthetic accessibilityなどが利用されるが、
実際に合成できることを正しく評価できるわけではない
■特性が付与された学習データに、ノイズ、バイアスが含まれる．
ベイズ最適化などを行う際の特性予測器に、不確実性が含まれ、
それらを考慮した探索が必要

将来展望
15
将来展望として、ベンチマーク拡充と表現方法の進化に期待
■ベンチマーク拡充
ベンチマークに対し、高性能を示すモデルが提案されつつあるが、
実応用を考えた時に、十分な評価がなされているとはいいがたい．
LogP、QEDでは不十分
■表現方法の進化
より複雑な特徴量の獲得のため、２D、3Dの生成モデルの発展が必要．
同時に、計算量の増加、大規模データベースが必要という課題も発生．
現状のモデルでは、自己回帰モデルが使われているが、本質的には順序のないモデルが良い
鏡面対象分子を区別することも望ましい

紹介論文[1]：まとめ
16
• 画像分野での各種手法（VAE,GAN,Flow）が順次転用．
• ベンチマーク不足などが課題になりつつある．
• 合成可能性など、実験由来のボトルネックも課題

目次
• 紹介論文[1]：Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]：GraphAF: a flow-based autoregressive model for molecular graph generation
17

背景
18
深層生成モデルの各種転用が進む流れの一つ．自己回帰Flowモデルを利用．
(1) high model flexibility for data density estimation;
(2) efficient parallel computation for training;
(3) an iterative sampling process,
which allows leveraging chemical domain knowledge for valency
checking.
■自己回帰Flowモデルのメリット

自己回帰Flow
19
深層生成モデルの各種転用が進む流れの一つ．自己回帰Flowモデルを利用．
■ Normalizing flow（Kobyzev et al., 2019）
■ Autoregressive flow（ Papamakarios et al. 2017）
ガウス分布などの潜在空間の変数εから、実データzへの写像を逆関数が定義できる形で表現
zの尤度計算ができる
変数の依存関係に制約が加わることになり、ヤコビアンの行列式計算が簡略化される

分子のグラフ表現
20
原子種類と結合の種類のバイナリで表現
■分子のグラフ表現
■nodeの表現、d種類の原子のいずれか
■edgeの表現、b種類の結合のいずれか
■l相における、nodeの特徴量
入力隠れ層
■更新式
※D-1/2の意味は把握できていないです

分子の生成
21
新しい原子と、既存原子との接続を逐次的に生成
■既存のグラフを元に、原子→結合の順に生成
生成
■自己回帰モデルとして、ziのガウス分布の平均と分散をGiで表現
■平均、分散を算出するgは隠れ層HからMLPで算出

分子生成の全体像
22
新しい原子と、既存原子との接続を逐次的に生成
• 訓練時には、並列にεを推定可能

特性最適化
23
特性最適化は強化学習の枠組みで実現
• 訓練時には、nodeやedgeを追加した際の報酬をVで置き、
強化学習の枠組みで最適化

制約なし生成モデルの性能評価
24
いずれの指標においても高い性能
• GraphNVPと比較して、
逐次更新の際にValidityを考慮する
ので、本手法が有利．

特性最適化
25
LogP,QEDで評価し、高精度という結果
• 目的の特性を持つ分子を
より高精度に生成

制約付き特性最適化
26
オリジナルの分子との類似度を維持したもと、特性最適化

Summary
27
自己回帰Flowを分子生成モデルに適用し、良好な結果を得た
• 分子生成で100% validな分子生成
• 特性最適化においても、比較手法を上回る結果
• 将来的に、ソーシャルグラフへの展開を検討

所感
28
• 画像分野での流れを順調に踏襲
• 実験関連でのブレイクスルーがどのように起こるかがポイントか？
• 自己回帰Flowのメリットの享受もあるが、
回転対称性の考慮など、物理学視点からの理論発展も期待
• 一次元表現においては、Transformer等の応用も期待

【DL輪読会】Generative models for molecular discovery: Recent advances and challenges

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (11)

【DL輪読会】Generative models for molecular discovery: Recent advances and challenges