More Related Content Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction (20) More from Deep Learning JP (20) [DL輪読会]Meta-Learning Probabilistic Inference for Prediction1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"Meta-Learning Probablistic Inference for Prediction"
副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解
Presentater: Kei Akuzawa, Matsuo Lab. M2
2. 書誌情報
• タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION
• 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian
Nowozin, Richard E. Turner
• ケンブリッジ大学が中心
• ICLR2019 under review (scores: 6, 7, 8)
• https://openreview.net/forum?id=HkxStoC5F7
• TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ
を踏まえた新しいメタ学習手法の紹介
• (断りがない限り,本資料の図表は発表論文からの引用)
6. メタ学習とは?
• バイアス:
• 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ
• e.g., どの分類器を使うか,DNNのモデル構造
• 二つの仮説空間𝐻𝐿 𝐴
, 𝐻𝐿 𝐵
が|𝐻𝐿 𝐴
| ≤ |𝐻𝐿 𝐵
|を満たすなら,|𝐻𝐿 𝐴
|の方がバイアスが
強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と
モデルの設計者が決めつけているから.
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
9. メタ学習とは?
• 学習器のバイアスを決定するためのメタ知識:
• バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに,背後にある
真の関数𝐹 𝑚
: 𝑋 𝑚
→ 𝑌 𝑚
を効率的に(=少ないサンプルで)近似することができ
る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う
ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,
適切な仮説を獲得する普通の学習器をベース学習器という.その上位
で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning).
11. 論文の背景と貢献
• メタ学習の問題点:
• 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい
• この研究の貢献
• 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の
手法が含まれる.
• MAML[Finn+ 2017]
• Prototypical Nets[Snell+2017]
• Conditional Neural Process[Garnelo+2018]
• 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案
• 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 )
• 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
12. ML-PIP
• Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP)
• 著者らが提案するメタ学習の統一的なフレームワーク
• 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する
1. グラフィカルモデルによる表現
2. 近似予測分布の作り方
16. 近似予測分布の作り方
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は𝐷 𝑡
の条件付き分布=>Amotized Variational Inference(AVI)
• 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる.
• VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速
• AVIとVIの違いはKim+2018等を参照
• Loss関数: 予測分布と近似分布のKLD最小化
17. 関連研究
• 多くのメタ学習手法がML-PIPのフレームワークに属する
• ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる
• Gradient-based
• Metric-based
• Amortized MAP inference (今日は話さない)
• Conditional models trained via maximum likelihood
18. Gradient-based Meta-Learning
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 の設計:
• 該当する研究
• Semi Amortized VAE (Kim+ 2018)
• MAML (Finn+ 2017)
• LSTM-based meta-learning (Ravi and Larochelle+ 2017)
• 欠点
• 誤差逆伝播の計算量が大きい
• 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い
図引用 Finn+2017
概要:
初期値𝜓0から,Gradient Descentで
タスク固有のパラメータ𝜓(𝑡)
を得る
19. Metric-based Few-shot learning
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計:
• 該当する研究
• Prototypical Nets [Snell+2017]
• 欠点:
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 が決定論的
• 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている
図引用 Snell+2017
概要:
訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に
クラスごとにセントロイドを作って,テストデータとセント
ロイドの距離を特徴空間で測ることによるfew-shot学習.
20. Conditional models trained via maximum likelihood
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 決定論的な𝑞 𝜙
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって
特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して
いる場合を指してるのだと思う
• 該当する研究:
• Conditional Neural Process [Garnelo+ 2018]
概要:
訓練データセットを入力として
して出てきた特徴量をテスト
データに対する予測に使う
図引用 Garnelo+ 2018
21. 提案手法: Versatile
• 概要:
• 分類版と回帰版がある
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布)
• 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 がBack-propを必要とせず高速
• タスクごとにshotが異なって良い
• 分類版ではタスクごとにwayも異なっていて良い
• way: クラス数, shot: 訓練データ数
24. 提案手法: Versatile 分類タスク
• この𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は何をしているのか
• 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1
𝐶
𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛
𝑐
𝑛=1
𝑘 𝑐
, 𝜃 のように,𝜓のクラスごとの独立
性を仮定している(クラスごとにPoolingをしてる点に注意)
• 結局この𝑞 𝜙のどこが良いのか
• クラス数がタスクごとに変わっても良い
• 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに
なっている(c.f. softmax, appendix B)
25. 提案手法: Versatile 回帰タスク
• xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる
• グローバルパラメータ𝜃はGenerator
• 訓練データセット 𝑥𝑖
𝑡
, 𝑦𝑖
𝑡
𝑖=1
𝑘
を入力に潜在変数𝜓(𝑡)が出てくるイメージ
• 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早
かったので考慮できていないのか?
26. 実験
1. Toy data
2. Few-shot classification
1. overall results
2. versatility
3. comparision to standard and amortized VI(今日は話さない)
3. Shapenet view reconstruction
27. 実験1. 𝑞 𝜙(𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認
• 訓練時に近づけるのは予測分布と近似分布であって,𝑞 𝜙(𝜓|𝐷)と
𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく
=> アルゴリズムが期待通りに動いていることのサポート
• 観測点が増えるほど𝑞 𝜙(𝜓|𝐷)が真の分布を近似できている
28. • データセット:
• omniglot
• miniImageNet
• SOTA
• 注:近年few-shot界隈ではResNetを特徴
抽出に使うだけでSOTAな結果が得られ
ることが[Chen+2018]等で指摘されてい
るが,この論文ではそうした大きなモ
デルは比較対象にしていない.
実験2-1. Overall results
29. 実験2-2. Versatility
• データセット: omniglot
• テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility)
• way: クラス数, shot: 訓練データ数
• ショット数を5から10に増やしても精度があがらないのは気になる
• おそらく元から99%でサチってるので参考にならない
• (Prototypical Netsとかでも同じことできる気がするが……?)
30. 実験3. Shapenet view reconstruction
• GQNと同様,視点から画像の生成を行うタスク
• ベースライン:CVAE
• 訓練データをサンプルサイズ1にして, 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている?
• 提案法はCVAEに比べて良い結果
31. まとめと感想
• まとめ
• 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ
• Amortization大事
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要
• 提案法はタスクごとにway,shotが異なっても良い.
• 発表者の感想
• MAMLが流行っている印象だったが,あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ
ストかはよく考えなければいけないなという気持ちになった
• GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在
しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる
• GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ
ているのではないか、アンテナを張ると良さそう
32. 参考文献
• Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial
Intelligence Review, 18 (2) (2002), pp. 77-95
• Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl.
and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010)
• S. Ravi and H. Larochelle. Optimization as a model for few-shot learning.
ICLR2017.
• C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. ICML2017.
• M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M.
Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural
processes. ICML2018
33. • Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized
variational autoencoders. In Proceedings of the 35th International
Conference on Machine Learning, 2018b.
• J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot
learning. In Advances in Neural Information Processing Systems, pages
4080–4090, 2017.
• Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M.,
Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene
representation and rendering. Science, 360(6394):1204–1210, 2018.
• M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and
Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations
and Applications of Deep Generative Models.
• Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic
Feature Augmentation for One-shot Learning, arxiv 2018,
https://arxiv.org/abs/1804.05298