[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"Meta-Learning Probablistic Inference for Prediction"
副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解
Presentater: Kei Akuzawa, Matsuo Lab. M2

書誌情報
• タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION
• 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian
Nowozin, Richard E. Turner
• ケンブリッジ大学が中心
• ICLR2019 under review (scores: 6, 7, 8)
• https://openreview.net/forum?id=HkxStoC5F7
• TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と，それ
を踏まえた新しいメタ学習手法の紹介
• （断りがない限り，本資料の図表は発表論文からの引用）

目次
• メタ学習とは？
• 論文の背景
• メタ学習の統一的なフレームワークML-PIP
• 関連研究
• 提案手法
• 実験
• まとめ

メタ学習とは？
• 複数あるメタ訓練データセットは，タ
スクやドメインが異なって良い．
• 一つのメタ訓練データセットは訓練/テ
ストデータセットに分割される。
• それぞれの訓練データセットは非常に
少ないサンプルサイズ（1~100くらい）
本当に予測を行いたいデータセット。
テスト時に得られる少数の訓練サンプル
からこのデータセットに適応したい
メタ学習の問題設定（Ravi and Larochelle 2017）
• 注1. タスク：出力データが従う確率空間, ドメイン：入力データが従う確率空間 [Pan and Yang 2010]
• 注2. データセットごとにタスクが違う設定の研究が多いので，それぞれのデータセットを「タスク」
と呼ぶこともある
メタ訓練データセット
メタテストデータセット
図引用 Ravi and Larchelle 2017

• (http://ibisforest.org/index.php?メタ学習より．2018/12/08)
• (おそらく[Vilalta and Drissi 2002]の翻訳)
ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，
適切な仮説を獲得する普通の学習器をベース学習器という．その上位
で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定
するためのメタ知識を獲得するのがメタ学習 (meta learning)．

• バイアス：
• 帰納バイアス（Inductive Bias）のこと．ざっくり言うとハイパラ
• e.g., どの分類器を使うか，DNNのモデル構造
• 二つの仮説空間𝐻𝐿 𝐴
, 𝐻𝐿 𝐵
が|𝐻𝐿 𝐴
| ≤ |𝐻𝐿 𝐵
|を満たすなら，|𝐻𝐿 𝐴
|の方がバイアスが
強い．なぜなら，「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と
モデルの設計者が決めつけているから．

• ベース学習器：
• ベース学習器：学習アルゴリズムそのものか，学習アルゴリズムによって出
力された仮説のことを言ってるのだと思う
• 学習アルゴリズム：訓練データ集合𝑇から仮説空間𝐻𝐿への写像𝐿のこと．
• ここまでのまとめ：普通の（メタでない）学習アルゴリズム𝐿はそれ
に対応する仮説空間𝐻𝐿を持っている。学習アルゴリズムとそれに付
随する𝐻𝐿は普通設計者がヒュリスティックに決める

• 学習対象のタスクやドメインに応じて:
• タスク：出力データの確率空間，ドメイン：入力データの確率空間
• つまり，メタ学習では訓練データセットが複数個降ってきて，それぞ
れのデータセットごとに入力や出力の空間が異なる状況を想定

• 学習器のバイアスを決定するためのメタ知識:
• バイアスを選ぶ: ある訓練データセット𝐷 𝑚を入力としたときに，背後にある
真の関数𝐹 𝑚
: 𝑋 𝑚
→ 𝑌 𝑚
を効率的に（=少ないサンプルで）近似することができ
る仮説空間𝐻 𝐿 𝑚を選びたいということだと思う

• つまり，メタ学習では：
• 通常設計者がヒュリスティックスに決める仮説空間𝐻 𝐿 𝑚を
• 複数の（タスクやドメインが異なる）データセットを活用して
• データ・ドリブンに決める

論文の背景と貢献
• メタ学習の問題点：
• 統一的なフレームワークがなく，様々ある既存手法の関係性の理解が難しい
• この研究の貢献
• 既存のメタ学習手法を統一するようなフレームワークの紹介．例えば以下の
手法が含まれる．
• MAML[Finn+ 2017]
• Prototypical Nets[Snell+2017]
• Conditional Neural Process[Garnelo+2018]
• 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案
• 利点1. Rapid: 新しいタスクに対する適応が早い（DNNのForward1回）
• 利点2. Flexible: タスクごとに，クラス数や訓練サンプル数が異なっていても良い

ML-PIP
• Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP)
• 著者らが提案するメタ学習の統一的なフレームワーク
• 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する
1. グラフィカルモデルによる表現
2. 近似予測分布の作り方

グラフィカルモデルによる表現
t番目の訓練データセット t番目のテストデータセット
t番目のデータセット（タスク）
に対して固有のパラメータ
全てのデータセット（タスク）
で共有されるパラメータ（メタ知識）
ML-PIPでは，データ生成過程を以下のようにモデリングする

グラフィカルモデルによる表現
グラフィカルモデルを決めた-> 予測分布の形がわかる
(𝜃を無視すれば)
𝜓 𝑡
は普通の分類器
データドリブンに学習された
𝜃（メタ知識）が𝜓 𝑡
の空間を規定
 メタ知識による帰納バイアスっぽい

近似予測分布の作り方
• データ生成過程と，予測分布の形はわかった．
• 予測分布： 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• ただし𝑃(𝜓 𝑡 | 𝑥 𝑡, 𝐷 𝑡 , 𝜃)の計算はコストが高い（または解析的に求め
られない）ので，近似分布を考えてあげる

近似予測分布の作り方
• 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• 近似分布: 𝑞 𝜙 𝑦 𝑡 𝑥 𝑡, 𝜃 = 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 d𝜓 𝑡
• パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡, 𝐷 𝑡 , 𝜃 の計算を回避
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの
• 𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は𝐷 𝑡
の条件付き分布=>Amotized Variational Inference（AVI）
• 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる．
• VIでは𝜓 𝑡 の推定にBack-propが必要だが，AVIはForward一発で高速
• AVIとVIの違いはKim+2018等を参照
• Loss関数: 予測分布と近似分布のKLD最小化

関連研究
• 多くのメタ学習手法がML-PIPのフレームワークに属する
• ただし𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる
• Gradient-based
• Metric-based
• Amortized MAP inference (今日は話さない)
• Conditional models trained via maximum likelihood

Gradient-based Meta-Learning
𝐷 𝑡
, 𝜃 の設計:
• 該当する研究
• Semi Amortized VAE (Kim+ 2018)
• MAML (Finn+ 2017)
• LSTM-based meta-learning (Ravi and Larochelle+ 2017)
• 欠点
• 誤差逆伝播の計算量が大きい
• 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い
図引用 Finn+2017
概要:
初期値𝜓0から，Gradient Descentで
タスク固有のパラメータ𝜓(𝑡)
を得る

Metric-based Few-shot learning
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 の設計:
• 該当する研究
• Prototypical Nets [Snell+2017]
• 欠点:
𝐷 𝑡
, 𝜃 が決定論的
• 𝑝 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている
図引用 Snell+2017
概要：
訓練データをエンコーダーℎ 𝜃で特徴空間に移したした後に
クラスごとにセントロイドを作って，テストデータとセント
ロイドの距離を特徴空間で測ることによるfew-shot学習．

Conditional models trained via maximum likelihood
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計:
• 決定論的な𝑞 𝜙
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく，データセットを入力にとって
特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して
いる場合を指してるのだと思う
• 該当する研究:
• Conditional Neural Process [Garnelo+ 2018]
概要：
訓練データセットを入力として
して出てきた特徴量をテスト
データに対する予測に使う
図引用 Garnelo+ 2018

提案手法: Versatile
• 概要:
• 分類版と回帰版がある
• 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的（ガウス分布）
• 任意の訓練データ数kを入力にとれる．また入力に対してpermutation-invariant
𝐷 𝑡
, 𝜃 がBack-propを必要とせず高速
• タスクごとにshotが異なって良い
• 分類版ではタスクごとにwayも異なっていて良い
• way: クラス数， shot: 訓練データ数

提案手法: Versatile 分類タスク
• グローバルパラメータ𝜃が各訓練データ点をエンコード（ℎ 𝜃(𝑥)）
• クラスkの全サンプルのℎ 𝜃(𝑥𝑖
𝑘
)をプーリングし，重みwを得る

• グローバルパラメータ𝜃が，テストデータ点をエンコード（ℎ 𝜃( 𝑥)）
• ℎ 𝜃( 𝑥)を入力に、前スライドで得た重みを使って線型分類

• この𝑞 𝜙 𝜓 𝑡
𝐷 𝑡
, 𝜃 は何をしているのか
• 𝑞 𝜙 𝜓 𝐷 𝑡 , 𝜃 = 𝑐=1
𝐶
𝑞 𝜙 𝜓𝑐 ℎ 𝜃 𝑥 𝑛
𝑐
𝑛=1
𝑘 𝑐
, 𝜃 のように，𝜓のクラスごとの独立
性を仮定している（クラスごとにPoolingをしてる点に注意）
• 結局この𝑞 𝜙のどこが良いのか
• クラス数がタスクごとに変わっても良い
• 𝜓のクラスごとの独立性の仮定は理論が背景にあり，よい帰納バイアスに
なっている(c.f. softmax, appendix B)

提案手法: Versatile 回帰タスク
• xは視点でyは画像を想定．設定はGQN[Eslami+ 2018]と似てる
• グローバルパラメータ𝜃はGenerator
• 訓練データセット 𝑥𝑖
𝑡
, 𝑦𝑖
𝑡
𝑖=1
𝑘
を入力に潜在変数𝜓(𝑡)が出てくるイメージ
• 注：Neural Process[Garnelo +2018]に対する優位性がわからないが，versatileの方がarxivに上がった日付は早
かったので考慮できていないのか？

実験
1. Toy data
2. Few-shot classification
1. overall results
2. versatility
3. comparision to standard and amortized VI（今日は話さない）
3. Shapenet view reconstruction

• データセット:
• omniglot
• miniImageNet
• SOTA
• 注：近年few-shot界隈ではResNetを特徴
抽出に使うだけでSOTAな結果が得られ
ることが[Chen+2018]等で指摘されてい
るが，この論文ではそうした大きなモ
デルは比較対象にしていない．
実験2-1. Overall results

実験2-2. Versatility
• データセット: omniglot
• テスト時に(左)wayか(右)shotを変えてもそれなりに動く（versatility）
• way: クラス数， shot: 訓練データ数
• ショット数を5から10に増やしても精度があがらないのは気になる
• おそらく元から99%でサチってるので参考にならない
• （Prototypical Netsとかでも同じことできる気がするが……？）

実験3. Shapenet view reconstruction
• GQNと同様，視点から画像の生成を行うタスク
• ベースライン：CVAE
• 訓練データをサンプルサイズ1にして， 𝑧~𝑞 𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている？
• 提案法はCVAEに比べて良い結果

まとめと感想
• まとめ
• 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ
• Amortization大事
• 𝑃 𝑦 𝑡 𝑥 𝑡, 𝜓 𝑡 , 𝜃 , 𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要
• 提案法はタスクごとにway，shotが異なっても良い．
• 発表者の感想
• MAMLが流行っている印象だったが，あの𝑞 𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ
ストかはよく考えなければいけないなという気持ちになった
• GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在
しない)だが，GQNやNeural processもfew-shot（メタ）学習として解釈できる
• GQNのように「実はメタ（few-shot）学習で記述できる重要な問題」が眠っ
ているのではないか、アンテナを張ると良さそう

参考文献
• Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial
Intelligence Review, 18 (2) (2002), pp. 77-95
• Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl.
and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010)
• S. Ravi and H. Larochelle. Optimization as a model for few-shot learning.
ICLR2017.
• C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. ICML2017.
• M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M.
Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural
processes. ICML2018

• Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized
variational autoencoders. In Proceedings of the 35th International
Conference on Machine Learning, 2018b.
• J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot
learning. In Advances in Neural Information Processing Systems, pages
4080–4090, 2017.
• Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M.,
Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene
representation and rendering. Science, 360(6394):1204–1210, 2018.
• M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and
Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations
and Applications of Deep Generative Models.
• Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic
Feature Augmentation for One-shot Learning, arxiv 2018,
https://arxiv.org/abs/1804.05298

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction

Similar to [DL輪読会]Meta-Learning Probabilistic Inference for Prediction (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction