SlideShare uma empresa Scribd logo
1 de 28
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Generative models for molecular discovery: Recent
advances and challenges”
Kensuke Wakasugi, Panasonic Holdings Corporation.
Wakasugi, Panasonic Holdings Corporation
書誌情報1
紹介論文[1]
タイトル:
Generative models for molecular discovery: Recent advances and challenges
著者:Bilodeau, C., Jin, W., Jaakkola, T., Barzilay, R., & Jensen, K. F.
所属:Massachusetts Institute of Technology
出版日: 2022/03/05
DOI:https://doi.org/10.1002/wcms.1608
ジャーナル:Wiley Interdisciplinary Reviews: Computational Molecular Science,
Impact factor:25.113(2020)
選書理由
化学の分野において、深層学習の生成モデルがどのように応用されているか興味があったため
Wakasugi, Panasonic Holdings Corporation
2
※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
書誌情報2
紹介論文[2]
タイトル:
GraphAF: a flow-based autoregressive model for molecular graph generation
著者: Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J.
所属: 北京大学, 上海交通大学, Mila, モントリオール大学, CIFAR
出版日: 2020/01/26
被引用数: 136 (22/05/24時点)
DOI:https://doi.org/10.48550/arXiv.2001.09382
ジャーナル:ICLR 2020
選書理由
具体的な深層学習の応用事例のうち、Flowベースモデルの一種として有力な手法だったため
Wakasugi, Panasonic Holdings Corporation
3
※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
目次
• 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation
Wakasugi, Panasonic Holdings Corporation
4
概要
Wakasugi, Panasonic Holdings Corporation
5
分子生成への深層生成モデルの応用として、VAE、GAN、Flowが研究されている
FIGURE 1
• 画像分野と比較して、
入出力形式は分子用にする必要があるが、
その他は踏襲
分子の表現
• 一次元表現
– SMILES
Wakasugi, Panasonic Holdings Corporation
6
出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法
一次元表現では、SMILESと呼ばれる記法を利用.自然言語と類似
• 文字列で表現され、
自然言語処理分野の各種手法が応用可能
• 言語における文法が存在し、
任意の配列が成立するわけではない
• 不正でないSMILESの生成効率も一つの課
題.
分子の表現
• 二次元表現
– グラフ(node、edge).
Wakasugi, Panasonic Holdings Corporation
7
出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法
二次元表現では、原子とその結合のグラフで表現
 左表の構造をそのままグラフのnode、edge
に割当てて表現.
 逐次的生成と、一括生成する手法がある.
 SMILES同様に、
valency rulesなどの整合性判定が存在.
分子の表現
• 三次元表現
– point clouds
Wakasugi, Panasonic Holdings Corporation
8
出典:
https://commons.wikimedia.org/wiki/File:Glucose_animation.gif?us
elang=ja
三次元表現では、空間上の点で表現
 三次元空間上の点集合として表現.
 情報量が最も多くなるが、学習も難しくなる
 1次、2次、3次の順に、情報量は詳細に
(空間配置、異性体など)
アーキテクチャ
Wakasugi, Panasonic Holdings Corporation
9
基本的な生成モデルのアーキテクチャは画像分野に準じる
FIGURE 1
・VAE:
再構成誤差と、
隠れ層のKLダイバージェンスで学習
・GAN:
生成分子に対する、
real or fakeを利用して学習
・Normalizing flow:
実空間と潜在空間の変換・逆変換を学習
・その他:
diffusion-based models
合成可能性を考慮した生成モデル
異性体の考慮はできていない
生成モデルを使う問題設定
Wakasugi, Panasonic Holdings Corporation
10
問題設定は、制約のあるなしで大きく三種類
(1) 制約なし分子生成
特に条件を課さない生成モデル.ただし、chemical validityは必要
とにかく多様な新規分子が欲しいケース.
chemical validity, novelty, uniquenessで評価
(2) 特性制約つき分子生成(出力側の制約)
特性値の制約条件を課す場合.
例えば、薬としての効能を最大化したいケースなど.
分子生成に合わせて実験的評価を行うことは困難であるため、特性予測器と併用する.
この場合、ベイズ最適化や、強化学習の枠組みで最適解を探すことになる.
(3) 構造制約つき分子生成(入力側の制約)
指定の構造から派生した分子生成、あるいは、所定の部分構造を含む分子生成.
既知の素性の良い分子から出発し、よりよい分子生成を目指す.
ベンチマーク・データセット
Wakasugi, Panasonic Holdings Corporation
11
比較検証用のベンチマークは用意されているが、実問題との乖離も
・最新のデータセットは、MOSES、Guacamol
・ Unconstrainedの場合
valid, unique, novel, diverseなどで評価
・ Goal-orientedの場合
similarity:対象分子に似た分子が生成できるか
Property Optimization:特性最適化
・ 特性としてはlogP or QEDが良く使われる
logP:オクタノール/水分配係数
QED:quantitative estimate of drug-likeliness
・注意点として、 logP or QEDは実際的に
必要な特性を表していないことも多い
一般的なワークフロー
Wakasugi, Panasonic Holdings Corporation
12
現状single-passの取り組みが多いが、closed-loopとしての利用も期待
FIGURE 3
・現状:
所望の分子を多数生成 (>104)し、
マニュアルでスクリーニング
最終的に、2,3個を合成評価
・将来:
絞り込み機能の自動化と、合成評価の自動化・高速化
実用時の課題:評価方法が乏しい
Wakasugi, Panasonic Holdings Corporation
13
生成モデルは単純に利用可能だが、実験的評価は高コスト
FIGURE 2
• 任意の分子に対する、目的関数が与えられた下での最適化
• 複数の目的関数が与えられた場合
• 説明変数(分子の構造)に制約がある場合
根本的課題は、分子の評価方法.
高精度な予測器か、高速な実験検証環境が必要
■分子設計の最適化の際に、利用可能な評価方法が乏しい
実用時の課題:合成可能性の評価、データのノイズ
Wakasugi, Panasonic Holdings Corporation
14
生成モデルの良し悪しの他、合成可否・データバイアス・予測性能も考慮が必要
■合成可能か否かは重要な指標だが、近似的評価方法の利用に留まる
Synthetic accessibilityなどが利用されるが、
実際に合成できることを正しく評価できるわけではない
■特性が付与された学習データに、ノイズ、バイアスが含まれる.
ベイズ最適化などを行う際の特性予測器に、不確実性が含まれ、
それらを考慮した探索が必要
将来展望
Wakasugi, Panasonic Holdings Corporation
15
将来展望として、ベンチマーク拡充と表現方法の進化に期待
■ベンチマーク拡充
ベンチマークに対し、高性能を示すモデルが提案されつつあるが、
実応用を考えた時に、十分な評価がなされているとはいいがたい.
LogP、QEDでは不十分
■表現方法の進化
より複雑な特徴量の獲得のため、2D、3Dの生成モデルの発展が必要.
同時に、計算量の増加、大規模データベースが必要という課題も発生.
現状のモデルでは、自己回帰モデルが使われているが、本質的には順序のないモデルが良い
鏡面対象分子を区別することも望ましい
紹介論文[1]:まとめ
Wakasugi, Panasonic Holdings Corporation
16
• 画像分野での各種手法(VAE,GAN,Flow)が順次転用.
• ベンチマーク不足などが課題になりつつある.
• 合成可能性など、実験由来のボトルネックも課題
目次
• 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges
• 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation
Wakasugi, Panasonic Holdings Corporation
17
背景
Wakasugi, Panasonic Holdings Corporation
18
深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用.
(1) high model flexibility for data density estimation;
(2) efficient parallel computation for training;
(3) an iterative sampling process,
which allows leveraging chemical domain knowledge for valency
checking.
■自己回帰Flowモデルのメリット
自己回帰Flow
Wakasugi, Panasonic Holdings Corporation
19
深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用.
■ Normalizing flow(Kobyzev et al., 2019)
■ Autoregressive flow( Papamakarios et al. 2017)
ガウス分布などの潜在空間の変数εから、実データzへの写像を逆関数が定義できる形で表現
zの尤度計算ができる
変数の依存関係に制約が加わることになり、ヤコビアンの行列式計算が簡略化される
分子のグラフ表現
Wakasugi, Panasonic Holdings Corporation
20
原子種類と結合の種類のバイナリで表現
■分子のグラフ表現
■nodeの表現、d種類の原子のいずれか
■edgeの表現、b種類の結合のいずれか
■l相における、nodeの特徴量
入力 隠れ層
■更新式
※D-1/2の意味は把握できていないです
分子の生成
Wakasugi, Panasonic Holdings Corporation
21
新しい原子と、既存原子との接続を逐次的に生成
■既存のグラフを元に、原子→結合の順に生成
生成
■自己回帰モデルとして、ziのガウス分布の平均と分散をGiで表現
■平均、分散を算出するgは隠れ層HからMLPで算出
分子生成の全体像
Wakasugi, Panasonic Holdings Corporation
22
新しい原子と、既存原子との接続を逐次的に生成
• 訓練時には、並列にεを推定可能
特性最適化
Wakasugi, Panasonic Holdings Corporation
23
特性最適化は強化学習の枠組みで実現
• 訓練時には、nodeやedgeを追加した際の報酬をVで置き、
強化学習の枠組みで最適化
制約なし生成モデルの性能評価
Wakasugi, Panasonic Holdings Corporation
24
いずれの指標においても高い性能
• GraphNVPと比較して、
逐次更新の際にValidityを考慮する
ので、本手法が有利.
特性最適化
Wakasugi, Panasonic Holdings Corporation
25
LogP,QEDで評価し、高精度という結果
• 目的の特性を持つ分子を
より高精度に生成
制約付き特性最適化
Wakasugi, Panasonic Holdings Corporation
26
オリジナルの分子との類似度を維持したもと、特性最適化
Summary
Wakasugi, Panasonic Holdings Corporation
27
自己回帰Flowを分子生成モデルに適用し、良好な結果を得た
• 分子生成で100% validな分子生成
• 特性最適化においても、比較手法を上回る結果
• 将来的に、ソーシャルグラフへの展開を検討
所感
Wakasugi, Panasonic Holdings Corporation
28
• 画像分野での流れを順調に踏襲
• 実験関連でのブレイクスルーがどのように起こるかがポイントか?
• 自己回帰Flowのメリットの享受もあるが、
回転対称性の考慮など、物理学視点からの理論発展も期待
• 一次元表現においては、Transformer等の応用も期待

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

Último (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

【DL輪読会】Generative models for molecular discovery: Recent advances and challenges

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Generative models for molecular discovery: Recent advances and challenges” Kensuke Wakasugi, Panasonic Holdings Corporation. Wakasugi, Panasonic Holdings Corporation
  • 2. 書誌情報1 紹介論文[1] タイトル: Generative models for molecular discovery: Recent advances and challenges 著者:Bilodeau, C., Jin, W., Jaakkola, T., Barzilay, R., & Jensen, K. F. 所属:Massachusetts Institute of Technology 出版日: 2022/03/05 DOI:https://doi.org/10.1002/wcms.1608 ジャーナル:Wiley Interdisciplinary Reviews: Computational Molecular Science, Impact factor:25.113(2020) 選書理由 化学の分野において、深層学習の生成モデルがどのように応用されているか興味があったため Wakasugi, Panasonic Holdings Corporation 2 ※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
  • 3. 書誌情報2 紹介論文[2] タイトル: GraphAF: a flow-based autoregressive model for molecular graph generation 著者: Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J. 所属: 北京大学, 上海交通大学, Mila, モントリオール大学, CIFAR 出版日: 2020/01/26 被引用数: 136 (22/05/24時点) DOI:https://doi.org/10.48550/arXiv.2001.09382 ジャーナル:ICLR 2020 選書理由 具体的な深層学習の応用事例のうち、Flowベースモデルの一種として有力な手法だったため Wakasugi, Panasonic Holdings Corporation 3 ※本資料の図表は,特に記載がない限り紹介論文[1][2]より引用したものです
  • 4. 目次 • 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges • 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation Wakasugi, Panasonic Holdings Corporation 4
  • 5. 概要 Wakasugi, Panasonic Holdings Corporation 5 分子生成への深層生成モデルの応用として、VAE、GAN、Flowが研究されている FIGURE 1 • 画像分野と比較して、 入出力形式は分子用にする必要があるが、 その他は踏襲
  • 6. 分子の表現 • 一次元表現 – SMILES Wakasugi, Panasonic Holdings Corporation 6 出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法 一次元表現では、SMILESと呼ばれる記法を利用.自然言語と類似 • 文字列で表現され、 自然言語処理分野の各種手法が応用可能 • 言語における文法が存在し、 任意の配列が成立するわけではない • 不正でないSMILESの生成効率も一つの課 題.
  • 7. 分子の表現 • 二次元表現 – グラフ(node、edge). Wakasugi, Panasonic Holdings Corporation 7 出典Wikipedia:https://ja.wikipedia.org/wiki/SMILES記法 二次元表現では、原子とその結合のグラフで表現  左表の構造をそのままグラフのnode、edge に割当てて表現.  逐次的生成と、一括生成する手法がある.  SMILES同様に、 valency rulesなどの整合性判定が存在.
  • 8. 分子の表現 • 三次元表現 – point clouds Wakasugi, Panasonic Holdings Corporation 8 出典: https://commons.wikimedia.org/wiki/File:Glucose_animation.gif?us elang=ja 三次元表現では、空間上の点で表現  三次元空間上の点集合として表現.  情報量が最も多くなるが、学習も難しくなる  1次、2次、3次の順に、情報量は詳細に (空間配置、異性体など)
  • 9. アーキテクチャ Wakasugi, Panasonic Holdings Corporation 9 基本的な生成モデルのアーキテクチャは画像分野に準じる FIGURE 1 ・VAE: 再構成誤差と、 隠れ層のKLダイバージェンスで学習 ・GAN: 生成分子に対する、 real or fakeを利用して学習 ・Normalizing flow: 実空間と潜在空間の変換・逆変換を学習 ・その他: diffusion-based models 合成可能性を考慮した生成モデル 異性体の考慮はできていない
  • 10. 生成モデルを使う問題設定 Wakasugi, Panasonic Holdings Corporation 10 問題設定は、制約のあるなしで大きく三種類 (1) 制約なし分子生成 特に条件を課さない生成モデル.ただし、chemical validityは必要 とにかく多様な新規分子が欲しいケース. chemical validity, novelty, uniquenessで評価 (2) 特性制約つき分子生成(出力側の制約) 特性値の制約条件を課す場合. 例えば、薬としての効能を最大化したいケースなど. 分子生成に合わせて実験的評価を行うことは困難であるため、特性予測器と併用する. この場合、ベイズ最適化や、強化学習の枠組みで最適解を探すことになる. (3) 構造制約つき分子生成(入力側の制約) 指定の構造から派生した分子生成、あるいは、所定の部分構造を含む分子生成. 既知の素性の良い分子から出発し、よりよい分子生成を目指す.
  • 11. ベンチマーク・データセット Wakasugi, Panasonic Holdings Corporation 11 比較検証用のベンチマークは用意されているが、実問題との乖離も ・最新のデータセットは、MOSES、Guacamol ・ Unconstrainedの場合 valid, unique, novel, diverseなどで評価 ・ Goal-orientedの場合 similarity:対象分子に似た分子が生成できるか Property Optimization:特性最適化 ・ 特性としてはlogP or QEDが良く使われる logP:オクタノール/水分配係数 QED:quantitative estimate of drug-likeliness ・注意点として、 logP or QEDは実際的に 必要な特性を表していないことも多い
  • 12. 一般的なワークフロー Wakasugi, Panasonic Holdings Corporation 12 現状single-passの取り組みが多いが、closed-loopとしての利用も期待 FIGURE 3 ・現状: 所望の分子を多数生成 (>104)し、 マニュアルでスクリーニング 最終的に、2,3個を合成評価 ・将来: 絞り込み機能の自動化と、合成評価の自動化・高速化
  • 13. 実用時の課題:評価方法が乏しい Wakasugi, Panasonic Holdings Corporation 13 生成モデルは単純に利用可能だが、実験的評価は高コスト FIGURE 2 • 任意の分子に対する、目的関数が与えられた下での最適化 • 複数の目的関数が与えられた場合 • 説明変数(分子の構造)に制約がある場合 根本的課題は、分子の評価方法. 高精度な予測器か、高速な実験検証環境が必要 ■分子設計の最適化の際に、利用可能な評価方法が乏しい
  • 14. 実用時の課題:合成可能性の評価、データのノイズ Wakasugi, Panasonic Holdings Corporation 14 生成モデルの良し悪しの他、合成可否・データバイアス・予測性能も考慮が必要 ■合成可能か否かは重要な指標だが、近似的評価方法の利用に留まる Synthetic accessibilityなどが利用されるが、 実際に合成できることを正しく評価できるわけではない ■特性が付与された学習データに、ノイズ、バイアスが含まれる. ベイズ最適化などを行う際の特性予測器に、不確実性が含まれ、 それらを考慮した探索が必要
  • 15. 将来展望 Wakasugi, Panasonic Holdings Corporation 15 将来展望として、ベンチマーク拡充と表現方法の進化に期待 ■ベンチマーク拡充 ベンチマークに対し、高性能を示すモデルが提案されつつあるが、 実応用を考えた時に、十分な評価がなされているとはいいがたい. LogP、QEDでは不十分 ■表現方法の進化 より複雑な特徴量の獲得のため、2D、3Dの生成モデルの発展が必要. 同時に、計算量の増加、大規模データベースが必要という課題も発生. 現状のモデルでは、自己回帰モデルが使われているが、本質的には順序のないモデルが良い 鏡面対象分子を区別することも望ましい
  • 16. 紹介論文[1]:まとめ Wakasugi, Panasonic Holdings Corporation 16 • 画像分野での各種手法(VAE,GAN,Flow)が順次転用. • ベンチマーク不足などが課題になりつつある. • 合成可能性など、実験由来のボトルネックも課題
  • 17. 目次 • 紹介論文[1]:Generative models for molecular discovery: Recent advances and challenges • 紹介論文[2]:GraphAF: a flow-based autoregressive model for molecular graph generation Wakasugi, Panasonic Holdings Corporation 17
  • 18. 背景 Wakasugi, Panasonic Holdings Corporation 18 深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用. (1) high model flexibility for data density estimation; (2) efficient parallel computation for training; (3) an iterative sampling process, which allows leveraging chemical domain knowledge for valency checking. ■自己回帰Flowモデルのメリット
  • 19. 自己回帰Flow Wakasugi, Panasonic Holdings Corporation 19 深層生成モデルの各種転用が進む流れの一つ.自己回帰Flowモデルを利用. ■ Normalizing flow(Kobyzev et al., 2019) ■ Autoregressive flow( Papamakarios et al. 2017) ガウス分布などの潜在空間の変数εから、実データzへの写像を逆関数が定義できる形で表現 zの尤度計算ができる 変数の依存関係に制約が加わることになり、ヤコビアンの行列式計算が簡略化される
  • 20. 分子のグラフ表現 Wakasugi, Panasonic Holdings Corporation 20 原子種類と結合の種類のバイナリで表現 ■分子のグラフ表現 ■nodeの表現、d種類の原子のいずれか ■edgeの表現、b種類の結合のいずれか ■l相における、nodeの特徴量 入力 隠れ層 ■更新式 ※D-1/2の意味は把握できていないです
  • 21. 分子の生成 Wakasugi, Panasonic Holdings Corporation 21 新しい原子と、既存原子との接続を逐次的に生成 ■既存のグラフを元に、原子→結合の順に生成 生成 ■自己回帰モデルとして、ziのガウス分布の平均と分散をGiで表現 ■平均、分散を算出するgは隠れ層HからMLPで算出
  • 22. 分子生成の全体像 Wakasugi, Panasonic Holdings Corporation 22 新しい原子と、既存原子との接続を逐次的に生成 • 訓練時には、並列にεを推定可能
  • 23. 特性最適化 Wakasugi, Panasonic Holdings Corporation 23 特性最適化は強化学習の枠組みで実現 • 訓練時には、nodeやedgeを追加した際の報酬をVで置き、 強化学習の枠組みで最適化
  • 24. 制約なし生成モデルの性能評価 Wakasugi, Panasonic Holdings Corporation 24 いずれの指標においても高い性能 • GraphNVPと比較して、 逐次更新の際にValidityを考慮する ので、本手法が有利.
  • 25. 特性最適化 Wakasugi, Panasonic Holdings Corporation 25 LogP,QEDで評価し、高精度という結果 • 目的の特性を持つ分子を より高精度に生成
  • 26. 制約付き特性最適化 Wakasugi, Panasonic Holdings Corporation 26 オリジナルの分子との類似度を維持したもと、特性最適化
  • 27. Summary Wakasugi, Panasonic Holdings Corporation 27 自己回帰Flowを分子生成モデルに適用し、良好な結果を得た • 分子生成で100% validな分子生成 • 特性最適化においても、比較手法を上回る結果 • 将来的に、ソーシャルグラフへの展開を検討
  • 28. 所感 Wakasugi, Panasonic Holdings Corporation 28 • 画像分野での流れを順調に踏襲 • 実験関連でのブレイクスルーがどのように起こるかがポイントか? • 自己回帰Flowのメリットの享受もあるが、 回転対称性の考慮など、物理学視点からの理論発展も期待 • 一次元表現においては、Transformer等の応用も期待