SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
転移学習の基礎
異なるタスクの知識を利用するための機械学習の方法
松井孝太
名古屋大学大学院医学系研究科 生物統計学分野
第 27 回画像センシングシンポジウム (SSII2021)
2021 年 6 月 10 日
はじめに
Inductive Transfer : 10 Years Later (NIPS2005 Workshop)
Inductive transfer or transfer learning refers to the problem
of retaining and applying the knowledge learned in one or
more tasks to efficiently develop an effective hypothesis for a
new task.
帰納的転移または転移学習とは, 新しいタスクに対する有効
な仮説を効率的に見つけ出すために, 一つ以上の別のタスク
で学習された知識を保持 · 適用する問題を指す.
本発表の目的
• 転移学習を体系的に整理する
• 転移学習の問題設定と具体的な定式化を説明する
• 転移学習の具体的な方法の例を紹介する
注) ∗
の付いているスライドや章は時間の都合上説明を省略します
松井 (名古屋大) 転移学習の基礎 1 / 41
Table of contents i
1. 転移学習の定式化
2. 転移学習の基本問題
3. 深層学習時代の転移学習
4. ∗ 同時リスクを考慮した転移学習
5. メタ学習
6. まとめ
松井 (名古屋大) 転移学習の基礎 2 / 41
転移学習の定式化
機械学習と転移学習
学習データ テストデータ
学習データ テストデータ
従来の機械学習(単⼀のドメイン)
ドメイン = (標本空間, データ分布)
転移学習(複数のドメイン)
元ドメイン ⽬標ドメイン
学習データとテストデータ
の空間と分布は同じ
学習データと
テストデータ
の空間や分布
が異なる
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 3 / 41
転移学習の様々な問題設定
タスク集合
メタ知識
ドメイン適応
マルチタスク学習
メタ学習
継続学習
⽬標ドメイン
元ドメイン
転移の⽅向
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 4 / 41
ドメイン適応 (Domain Adaptation)
目的: 目標ドメインにおける期待リスク最小化
Find h∗
s.t. RT(h∗
) = min
h
RT(h),
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 5 / 41
∗
マルチタスク学習 (Multi-task Learning)
目標: 全てのドメインにおける期待リスク最小化
Find h∗
i s.t. Ri(h∗
i ) = min
h
Ri(h), i = 1, 2, ...
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 6 / 41
メタ学習 (Meta Learning)
目標: メタ知識 (タスク集合/分布に関する知識) の獲得
Find ω∗
= arg min
ω
ET =(L,D)∼P(T )[L(ω; D)]
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 7 / 41
∗
継続学習 (Continual Learning)
目標: ドメインの系列全体に対する期待リスク最小化
Find h∗
s.t. Ri(h∗
) = min
h
Ri(h), i = 1, 2, ...
• 単一のモデルでタスク系列を処理 (MTL との違い)
• 過去のタスク性能が劣化しないことにフォーカス (破滅的
忘却の回避)
松井 (名古屋大) 転移学習の基礎 転移学習の定式化 8 / 41
転移学習の基本問題
転移学習の基本問題
1. 何を転移するか (What to transfer)
• 事例転移 (データそのものを転移)
• 特徴転移 (抽出した特徴間で転移)
• パラメータ転移 (学習したモデルや特徴抽出器を転移)
2. いつ転移するか (When to transfer)
• 元ドメインと目標ドメインが似ているとき
• 不一致度による “似てる度” の定量化
• 転移仮定 (転移を成功させるための条件)
• 負転移を回避したい
• 転移によって目標ドメインの性能がむしろ悪化
3. どう転移するか (How to transfer) : 具体的なアルゴリズム
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 9 / 41
何を転移するか
元ドメインから目標ドメインへ転移する「知識」の種類
! !"#$%&'$()*%+,-
./012 !,34562"
! 7!"#$89:;0<=>?@A
BCDE
! FG8HIJFGKLM$N&OP
! !"#!$%&'( !"#$%&'(')*+,-.,/0
! )*+,-#./01
!"#$ %&#$ '()*+#$
! !"#$%&'$()*%+Q5E
./012 !Q34562"
! 7!"#$89:;0RS8TU*%
BVW !XYZ["
! TU*%&,345]^/>?
FGKLM$N0_`
! 2345 !1#'2)*+,-.,/0
! 6789:;<=> !3'2%2)*+,-.4/0
! !"#$%&'()*+,-.
/0123456#789:;
"#$%&<=>
! ?@'(+,-4A<
! 5678*!19:;%2)*+,-.</0
! 3=8>,*!7'?@AB?)*+,-.C/0*
! 3=8>D*!5BAE2)*+,-,-/0
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 10 / 41
いつ転移するか: 負転移
負転移
1. 一方のドメインのみで学習したモデルを目標タスクで用いる
2. 両ドメインを使って学習したモデルを目標タスクで用いる
として (2 のタスク性能) ≤ (1 のタスク性能) のとき (下図 (b))
1.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
0.0
AUC
AUC
The number of target training cases
The number of target training cases
(a) (b)
source only
transfer
target only
source only
transfer
target only
• 2 つのドメインが乖離しているほど負転移が発生しやすい
• 負転移を防ぐことは転移学習における重要な課題
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 11 / 41
いつ転移するか: ドメインの不一致度 (discrepancy)
ドメインの非類似度をデータ生成分布の不一致度で評価
• 不一致度が小さい → 両ドメインのデータ生成分布が似て
いる (負転移が起こりにくい)
• 様々な discrepancy が定義されている
• H∆H divergence [Ben-David+ (2010)]
• Wasserstein distance [Courty+ (2017)]
• source-guided discrepancy [Kuroki+ (2019)]
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 12 / 41
いつ転移するか: 転移仮定 i
ドメインの分布の違い方に対する仮定 [Quionero-Candela+ (2009)]
• データセットシフト : PS(X, Y) ̸= PT(X, Y)
• 共変量シフト : PS(Y | X) = PT(Y | X), PS(X) ̸= PT(X)
• クラス事前確率シフト (ターゲットシフト) :
PS(X | Y) = PT(X | Y), PS(Y) ̸= PT(Y)
• サンプル選択バイアス :
PS(X, Y) = P(X, Y | v = 1), PT(X, Y) = P(X, Y)
v は (X, Y) が学習データに含まれる (v = 1) か否 (v = 0) か
• クラスバランスシフト [Redko+ (2019)] :
PS = (1 − πS)P0 + πSP1, PT = (1 − πT)P0 + πTP1 (πS ̸= πT)
P0, P1 はクラス 0, 1 に対応する共変量分布
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 13 / 41
いつ転移するか: 転移仮定 iii
共通の生成過程 [Teshima+ (ICML2020)]
• 因果モデルで捉えられるデータ生成過程の知識を転移
松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 15 / 41
深層学習時代の転移学習
深層学習の発展は転移学習をどう変えたか
1. 事前学習モデルの利用の拡大
• 巨大なネットワークでも事前学習済みモデルが公開されて
いる
• ファインチューニング (FT) によって自分で用意するデータ
は比較的少量で済む
2. 深層モデルによる表現学習/特徴抽出方法の進化
• 特徴量 (の抽出法) をネットワークに学習させる
• 特にドメインに関する特徴の抽出も可能になってきた
• ドメイン不変な特徴量による精度の向上
• 特徴を独立な成分に分解し, ドメイン間で共有されている成
分は転移し, 異なっている成分は転移しない (非もつれ表現)
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 16 / 41
事前学習済みモデルの利用
· · ·
· · ·
• 元ドメインのデータで学習したネットワーク (構造, パラメ
ータ) を目標ドメインで利用
• 再学習なしで利用 (狭義の転移学習), 再学習ありで利用
(FT) どちらもある
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 17 / 41
巨大事前学習済みモデルとファインチューニング
• トランスフォーマー (上図) を用いた巨大な事前学習済み
モデルを FT して利用
• GPT-2 [Radford+ (2019)], GPT-3 [Brown+ (2020)],
DALL-E [Ramesh+ (2021)] (Open-AI)
• スクラッチ学習に膨大なコスト (計算リソースや時間) が
かかるモデルでも FT のみ (相対的に低コスト) で使える
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 18 / 41
知識蒸留 [Gou+ (2020)] : 事前学習済みモデルの圧縮
• 学習済みモデルのパラメータではなく, モデルが学習した
暗黙知 (dark knowledge) を転移する
• (猫を犬と間違える確率) ≪ (猫を車と間違える確率)
• 手書き数字の “2” は “7” よりも “3” に似ていやすい
• ネットワークを直接転移しないのでファインチューニング
に比べて転移先のモデルは小さくて済む (モデル圧縮)
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 19 / 41
∗
深層学習以前の特徴の獲得方法: カーネル法
• 幅が無限大の全結合型 2 層 NN として解釈可能
• 特徴抽出器 (入力層-中間層) はユーザーが設計, 固定
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 21 / 41
∗
カーネル法による特徴表現に基づく転移学習
元ドメイン ⽬標ドメイン
次元が異なる
共通空間
[Duan+ (ICML2012)]
``いらいらするほど簡単なDA’’
[Daume III, ACL2007]
ドメイン共通の特徴
ドメイン固有の特徴
min
PS,PT
max
α
1⊤
ns+nt
α −
1
2
(α ◦ y)⊤
KPS,PT
(α ◦ y)
s.t. y⊤
α = 0, 0ns+nt
≤ α ≤ C1ns+nt
∥PS∥2
F ≤ λp, ∥PT∥2
F ≤ λq
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 22 / 41
深層モデルによる転移学習のための表現学習
• ドメイン不変な特徴抽出器/特徴表現を獲得する
• オートエンコーダーや敵対的学習が良く用いられる
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 23 / 41
不変な表現学習を目指す理論的根拠
目標ドメインの期待リスクバウンド (統計的学習理論) に基づ
く
目標リスクの典型的な上界の表現
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• fT, fS : 目標ドメイン, 元ドメインの真のラベル関数
• Disc : 元ドメインと目標ドメインの周辺分布の不一致度
• Diff : 元ドメインと目標ドメインのラベル関数の違い
• Disc を小さく抑えることが RT の最小化に直接寄与する
→ 両ドメインで不変な特徴量は分布の不一致度 Disc を小
さくする
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 24 / 41
∗
目標リスクの上界の例
• 2 値判別問題
• 全変動距離でドメインの不一致度を評価:
dH(DS, DT) = 2 sup
h∈H
|PS(AS) − PT(AT)|, A = {x ∈ D; h(x) = 1}
Theorem 1 (Ben-David+ (2010))
任意の δ > 0 に対して確率 1 − δ 以上で以下が成立
RT(h, fT) ≤ RS(h, fS) + dH(DS, DT)
| {z }
Disc
+ min
h∈H
RT(h, fT) + RS(h, fS)
| {z }
Diff
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 25 / 41
例: 深層オートエンコーダーによるドメイン不変表現学習
Transfer Learning with Deep Autoencoders [Zhuang+ (2015)]
• オートエンコーダーによる教師付き表現学習
min Err(x, x̂)
| {z }
reconstruction error
+α (KL(PS||PT) + KL(PT||PS))
| {z }
discrepancy
+β ℓ(yS; θ, ξS)
| {z }
softmax loss
+γReg
• 元ドメインと目標ドメインで符号化と復号化の重みを共有
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 26 / 41
例: 敵対的学習によるドメイン不変表現学習
Domain Adversarial Training [Ganin+ (2015)]
• 特徴抽出器がドメイン不変な特徴を抽出
• ドメイン識別器の学習は gradient に負定数をかけ逆伝播
する勾配反転層を導入することで実現
松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 27 / 41
∗
同時リスクを考慮した転移学習
不変性のみを考慮することの限界 i
目標ドメインのリスク上界 (再掲)
RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS)
• 不変な特徴表現の獲得 = 第 2 項の最小化
• 同時リスク Diff(fT, fS) = infh∈H RS(h, fS) + RT(h, fT) は無視
→ 目標ドメインのラベル関数が考慮されない (上図)
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 28 / 41
不変性のみを考慮することの限界 ii
• 実験的な同時リスクの検証 [Liu+ (2019)]
• DANN のようなドメイン不変な表現学習のみを行う手法で
は同時リスク RS(h) + RT(h) が大きくなるような仮説が学
習されてしまう
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 29 / 41
不変性と同時リスクの関係
同時リスクの下界 [Zhao+ (2019)]
RS(h ◦ g) + RT(h ◦ g)
≥
1
2

dJS(PT
(Y), PS
(Y)) − dJS(PT
(Z), PS
(Z))
2
• g : 特徴抽出器
• h : ラベル識別器
• dJS : JS ダイバージェンスの平方根
• Z : g によって抽出された特徴量
• ドメイン不変な表現学習に基づく転移学習が成功するため
の必要条件
• 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第
2 項の最小化 (不変表現学習) は RT(h ◦ g) を悪化させる
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 30 / 41
同時リスクを考慮した転移学習 i
Transferable Adversarial Training (TAT) [Liu+ (2019)]
• 元ドメインと目標ドメインのギャップを埋めるような疑似
データ (転移可能事例) を生成
• 転移可能事例を含めてラベル識別器を訓練
→ ドメイン不変な表現学習を経由せずに目標ドメインで
汎化するモデルを学習可能
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 31 / 41
同時リスクを考慮した転移学習 ii
TAT の学習問題
ドメイン識別器の
敵対的損失
交差エントロピー損失
転移可能特徴に関する
ドメイン識別器の敵対的損失
転移可能特徴に関する
ラベル識別器の敵対的損失
転移可能特徴
転移可能特徴の⽣成 (敵対的事例の⽣成則 + 正則化)
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 32 / 41
同時リスクを考慮した転移学習 iii
TAT による識別境界の学習と転移可能特徴の挙動
(a) Source Only Model (b) TAT (c) Transferable Examples
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 33 / 41
同時リスクを考慮した転移学習 iv
TAT の性能の評価 (識別精度)
Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50.
METHOD A→W D→W W→D A→D D→A W→A AVG.
RESNET-50 (HE ET AL., 2016) 68.4±0.2 96.7±0.1 99.3±0.1 68.9±0.2 62.5±0.3 60.7±0.3 76.1
DAN (LONG ET AL., 2015) 80.5±0.4 97.1±0.2 99.6±0.1 78.6±0.2 63.6±0.3 62.8±0.2 80.4
DANN (GANIN ET AL., 2016) 82.6±0.4 96.9±0.2 99.3±0.2 81.5±0.4 68.4±0.5 67.5±0.5 82.7
ADDA (TZENG ET AL., 2017) 86.2±0.5 96.2±0.3 98.4±0.3 77.8±0.3 69.5±0.4 68.9±0.5 82.9
VADA (SHU ET AL., 2018) 86.5±0.5 98.2±0.4 99.7±0.2 86.7±0.4 70.1±0.4 70.5±0.4 85.4
GTA (SANKARANARAYANAN ET AL., 2018) 89.5±0.5 97.9±0.3 99.7±0.2 87.7±0.5 72.8±0.3 71.4±0.4 86.5
MCD (SAITO ET AL., 2018) 88.6±0.2 98.5±0.1 100.0±.0 92.2±0.2 69.5±0.1 69.7±0.3 86.5
CDAN (LONG ET AL., 2018) 93.1±0.1 98.6±0.1 100.0±.0 92.9±0.2 71.0±0.3 69.3±0.3 87.5
TAT 92.5±0.3 99.3±0.1 100.0±.0 93.2±0.2 73.1±0.3 72.1±0.3 88.4
Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50.
METHOD I→P P→I I→C C→I C→P P→C AVG.
RESNET-50 (HE ET AL., 2016) 74.8±0.3 83.9±0.1 91.5±0.3 78.0±0.2 65.5±0.3 91.2±0.3 80.7
DAN (LONG ET AL., 2015) 74.5±0.4 82.2±0.2 92.8±0.2 86.3±0.4 69.2±0.4 89.8±0.4 82.5
DANN (GANIN ET AL., 2016) 75.0±0.3 86.0±0.3 96.2±0.4 87.0±0.5 74.3±0.5 91.5±0.6 85.0
CDAN (LONG ET AL., 2018) 76.7±0.3 90.6±0.3 97.0±0.4 90.5±0.4 74.5±0.3 93.5±0.4 87.1
TAT 78.8±0.2 92.0±0.2 97.5±0.3 92.0±0.3 78.2±0.4 94.7±0.4 88.9
松井 (名古屋大) 転移学習の基礎 ∗
同時リスクを考慮した転移学習 34 / 41
メタ学習
メタ学習 (Meta Learning)
メタ学習の定義
複数の学習エピソード (≈ データ) を訓練データとしてメタ知
識 (または帰納バイアス) を学習しておくことで, 目的のタス
クにおいて少数の学習データしかなくても性能を高める
• 帰納バイアス学習 (inductive bias learning), 学習の仕方の
学習 (learning to learn) などとも呼ばれる
• メタ知識: 機械学習を実行する際におく様々な仮定
• データ分布の仮定 (例: データは正規分布に従うとみなす)
• どのようなモデルを使うか (仮説集合の指定)
• 線形モデル → 線形回帰, 線形判別
• 深層モデル → 深層学習
• モデルの最適化アルゴリズムに何を使うか
• 確率的勾配降下法 (SGD)
• Adam
松井 (名古屋大) 転移学習の基礎 メタ学習 35 / 41
メタ学習の定式化 [Hospedales+ (2020)]
メタ損失 (⽬的関数)
第mドメインの損失
メタ知識 ω の下での
第mドメインの最適
パラメータ
: 第mドメインの訓練データ, 検証データ
メタ学習の2レベル最適化問題としての定式化
⽬的関数:メタ知識の最適化
制約条件:ドメイン毎のパラメータ学習
松井 (名古屋大) 転移学習の基礎 メタ学習 36 / 41
メタ学習の分類
• 何をメタ知識と考えるか
• パラメータの初期値 [Finn+ (2017)]
• 最適化器 [Chen+ (2017)]
• ハイパーパラメータ, ...
• メタ損失をどう設定するか
• 多数ショット (通常の) 学習 [Franceschi+ (2017)] vs 少数シ
ョット学習 [Finn+ (2017)]
• マルチタスク学習 [Li+ (2019)] vs シングルタスク学
習 [Veeriah+ (2019)]
• オンライン学習 [Veeriah+ (2019)] vs オフライン学習 [Finn+
(2017)], ...
• メタ損失をどう最適化するか
• 勾配ベースの最適化 [Finn+ (2017)]
• 強化学習による最適化 [Duan+ (2016)]
• 進化計算による最適化 [Soltoggio+ (2018)], ...
松井 (名古屋大) 転移学習の基礎 メタ学習 37 / 41
例: Model-Agnostic Meta-Learning (MAML)
様々なタスクに勾配法で少数ショット学習したときに性能が良
くなるような共通のパラメータの初期値を学習
• メタ知識 : 各タスクに共通なモデルパラメータの初期値
• メタ損失 : オフライン少数ショット学習
• メタ損失の最適化 : 勾配法に基づく
松井 (名古屋大) 転移学習の基礎 メタ学習 38 / 41
まとめ
まとめとこれから
• 転移学習の基本概念
• 問題設定
• 基本問題: 何を/いつ/どうやって転移するか
• 不一致度と転移仮定
• 深層モデルによるドメイン不変な表現学習
• 同時リスクを考慮に入れた方法
• メタ学習
転移学習の実用化に向けて
• 実際の問題に利用されているのはほぼ事前学習とファイン
チューニングのみ
• 転移学習を製品に実装するために考えるべき課題 (例)
• モデルの評価 (目標ドメインでのラベル付きデータが必要)
• 製品に実装されたモデルの微調整や定期的な更新
松井 (名古屋大) 転移学習の基礎 まとめ 39 / 41
References
[1] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007.
[2] A. Krizhevsky et al. Imagenet classification with deep convolutional neural networks. NeurIPS, 2012.
[3] A. Radford et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
[4] A. Ramesh et al. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092, 2021.
[5] A. Soltoggio et al. Born to learn: the inspiration, progress, and future of evolved plastic artificial neural
networks. Neural Networks, 108:48–67, 2018.
[6] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of
Statistics, 6:1550–1599, 2012.
[7] C. Finn et al. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017.
[8] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015.
[9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019.
[10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019.
[11] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019.
[12] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer
inhibition. KDD, 2018.
[13] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2018.
[14] J. Gou et al. Knowledge distillation: A survey. International Journal of Computer Vision, pages 1–31, 2021.
[15] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009.
[16] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012.
[17] L. Franceschi et al. Forward and reverse gradient-based hyperparameter optimization. 2017.
松井 (名古屋大) 転移学習の基礎 まとめ 40 / 41
[18] M. Sugiyama et al. Density ratio estimation in machine learning. Cambridge University Press, 2012.
[19] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine
intelligence, 39(9):1853–1865, 2016.
[20] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010.
[21] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. 2019.
[22] T. Brown et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
[23] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. 2020.
[24] V. Veeriah et al. Discovery of useful questions as auxiliary tasks. NeurIPS, 2019.
[25] Y. Chen et al. Learning to learn without gradient descent by gradient descent. 2017.
[26] Y. Duan et al. Rl ˆ2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint
arXiv:1611.02779, 2016.
[27] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016.
[28] Y. Li et al. Feature-critic networks for heterogeneous domain generalization. 2019.
[29] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models.
NeurIPS, 2016.
[30] S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. 2017.
[31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. 2014.
松井 (名古屋大) 転移学習の基礎 まとめ 41 / 41

Mais conteúdo relacionado

Mais procurados

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 

Mais procurados (20)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Semelhante a SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法

文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action RecognitionToru Tamaki
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~ryuz88
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_publicKazuaki Ishizaki
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】Tomoharu ASAMI
 
timeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてtimeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてDaisuke Matsubara
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...nkazuki
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a MapDeep Learning JP
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライドRyuichi Ueda
 

Semelhante a SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 (20)

文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public20171212 titech lecture_ishizaki_public
20171212 titech lecture_ishizaki_public
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
関数モデル 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第8回】
 
timeVaringMappedFixedValueについて
timeVaringMappedFixedValueについてtimeVaringMappedFixedValueについて
timeVaringMappedFixedValueについて
 
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz..."Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
"Puzzle-Based Automatic Testing: Bringing Humans into the Loop by Solving Puz...
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
Gurobi python
Gurobi pythonGurobi python
Gurobi python
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライド
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 

Mais de SSII

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII
 

Mais de SSII (20)

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
 

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法

  • 2. はじめに Inductive Transfer : 10 Years Later (NIPS2005 Workshop) Inductive transfer or transfer learning refers to the problem of retaining and applying the knowledge learned in one or more tasks to efficiently develop an effective hypothesis for a new task. 帰納的転移または転移学習とは, 新しいタスクに対する有効 な仮説を効率的に見つけ出すために, 一つ以上の別のタスク で学習された知識を保持 · 適用する問題を指す. 本発表の目的 • 転移学習を体系的に整理する • 転移学習の問題設定と具体的な定式化を説明する • 転移学習の具体的な方法の例を紹介する 注) ∗ の付いているスライドや章は時間の都合上説明を省略します 松井 (名古屋大) 転移学習の基礎 1 / 41
  • 3. Table of contents i 1. 転移学習の定式化 2. 転移学習の基本問題 3. 深層学習時代の転移学習 4. ∗ 同時リスクを考慮した転移学習 5. メタ学習 6. まとめ 松井 (名古屋大) 転移学習の基礎 2 / 41
  • 5. 機械学習と転移学習 学習データ テストデータ 学習データ テストデータ 従来の機械学習(単⼀のドメイン) ドメイン = (標本空間, データ分布) 転移学習(複数のドメイン) 元ドメイン ⽬標ドメイン 学習データとテストデータ の空間と分布は同じ 学習データと テストデータ の空間や分布 が異なる 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 3 / 41
  • 7. ドメイン適応 (Domain Adaptation) 目的: 目標ドメインにおける期待リスク最小化 Find h∗ s.t. RT(h∗ ) = min h RT(h), 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 5 / 41
  • 8. ∗ マルチタスク学習 (Multi-task Learning) 目標: 全てのドメインにおける期待リスク最小化 Find h∗ i s.t. Ri(h∗ i ) = min h Ri(h), i = 1, 2, ... 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 6 / 41
  • 9. メタ学習 (Meta Learning) 目標: メタ知識 (タスク集合/分布に関する知識) の獲得 Find ω∗ = arg min ω ET =(L,D)∼P(T )[L(ω; D)] 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 7 / 41
  • 10. ∗ 継続学習 (Continual Learning) 目標: ドメインの系列全体に対する期待リスク最小化 Find h∗ s.t. Ri(h∗ ) = min h Ri(h), i = 1, 2, ... • 単一のモデルでタスク系列を処理 (MTL との違い) • 過去のタスク性能が劣化しないことにフォーカス (破滅的 忘却の回避) 松井 (名古屋大) 転移学習の基礎 転移学習の定式化 8 / 41
  • 12. 転移学習の基本問題 1. 何を転移するか (What to transfer) • 事例転移 (データそのものを転移) • 特徴転移 (抽出した特徴間で転移) • パラメータ転移 (学習したモデルや特徴抽出器を転移) 2. いつ転移するか (When to transfer) • 元ドメインと目標ドメインが似ているとき • 不一致度による “似てる度” の定量化 • 転移仮定 (転移を成功させるための条件) • 負転移を回避したい • 転移によって目標ドメインの性能がむしろ悪化 3. どう転移するか (How to transfer) : 具体的なアルゴリズム 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 9 / 41
  • 13. 何を転移するか 元ドメインから目標ドメインへ転移する「知識」の種類 ! !"#$%&'$()*%+,- ./012 !,34562" ! 7!"#$89:;0<=>?@A BCDE ! FG8HIJFGKLM$N&OP ! !"#!$%&'( !"#$%&'(')*+,-.,/0 ! )*+,-#./01 !"#$ %&#$ '()*+#$ ! !"#$%&'$()*%+Q5E ./012 !Q34562" ! 7!"#$89:;0RS8TU*% BVW !XYZ[" ! TU*%&,345]^/>? FGKLM$N0_` ! 2345 !1#'2)*+,-.,/0 ! 6789:;<=> !3'2%2)*+,-.4/0 ! !"#$%&'()*+,-. /0123456#789:; "#$%&<=> ! ?@'(+,-4A< ! 5678*!19:;%2)*+,-.</0 ! 3=8>,*!7'?@AB?)*+,-.C/0* ! 3=8>D*!5BAE2)*+,-,-/0 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 10 / 41
  • 14. いつ転移するか: 負転移 負転移 1. 一方のドメインのみで学習したモデルを目標タスクで用いる 2. 両ドメインを使って学習したモデルを目標タスクで用いる として (2 のタスク性能) ≤ (1 のタスク性能) のとき (下図 (b)) 1.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 0.0 AUC AUC The number of target training cases The number of target training cases (a) (b) source only transfer target only source only transfer target only • 2 つのドメインが乖離しているほど負転移が発生しやすい • 負転移を防ぐことは転移学習における重要な課題 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 11 / 41
  • 15. いつ転移するか: ドメインの不一致度 (discrepancy) ドメインの非類似度をデータ生成分布の不一致度で評価 • 不一致度が小さい → 両ドメインのデータ生成分布が似て いる (負転移が起こりにくい) • 様々な discrepancy が定義されている • H∆H divergence [Ben-David+ (2010)] • Wasserstein distance [Courty+ (2017)] • source-guided discrepancy [Kuroki+ (2019)] 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 12 / 41
  • 16. いつ転移するか: 転移仮定 i ドメインの分布の違い方に対する仮定 [Quionero-Candela+ (2009)] • データセットシフト : PS(X, Y) ̸= PT(X, Y) • 共変量シフト : PS(Y | X) = PT(Y | X), PS(X) ̸= PT(X) • クラス事前確率シフト (ターゲットシフト) : PS(X | Y) = PT(X | Y), PS(Y) ̸= PT(Y) • サンプル選択バイアス : PS(X, Y) = P(X, Y | v = 1), PT(X, Y) = P(X, Y) v は (X, Y) が学習データに含まれる (v = 1) か否 (v = 0) か • クラスバランスシフト [Redko+ (2019)] : PS = (1 − πS)P0 + πSP1, PT = (1 − πT)P0 + πTP1 (πS ̸= πT) P0, P1 はクラス 0, 1 に対応する共変量分布 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 13 / 41
  • 17.
  • 18. いつ転移するか: 転移仮定 iii 共通の生成過程 [Teshima+ (ICML2020)] • 因果モデルで捉えられるデータ生成過程の知識を転移 松井 (名古屋大) 転移学習の基礎 転移学習の基本問題 15 / 41
  • 20. 深層学習の発展は転移学習をどう変えたか 1. 事前学習モデルの利用の拡大 • 巨大なネットワークでも事前学習済みモデルが公開されて いる • ファインチューニング (FT) によって自分で用意するデータ は比較的少量で済む 2. 深層モデルによる表現学習/特徴抽出方法の進化 • 特徴量 (の抽出法) をネットワークに学習させる • 特にドメインに関する特徴の抽出も可能になってきた • ドメイン不変な特徴量による精度の向上 • 特徴を独立な成分に分解し, ドメイン間で共有されている成 分は転移し, 異なっている成分は転移しない (非もつれ表現) 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 16 / 41
  • 21. 事前学習済みモデルの利用 · · · · · · • 元ドメインのデータで学習したネットワーク (構造, パラメ ータ) を目標ドメインで利用 • 再学習なしで利用 (狭義の転移学習), 再学習ありで利用 (FT) どちらもある 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 17 / 41
  • 22. 巨大事前学習済みモデルとファインチューニング • トランスフォーマー (上図) を用いた巨大な事前学習済み モデルを FT して利用 • GPT-2 [Radford+ (2019)], GPT-3 [Brown+ (2020)], DALL-E [Ramesh+ (2021)] (Open-AI) • スクラッチ学習に膨大なコスト (計算リソースや時間) が かかるモデルでも FT のみ (相対的に低コスト) で使える 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 18 / 41
  • 23. 知識蒸留 [Gou+ (2020)] : 事前学習済みモデルの圧縮 • 学習済みモデルのパラメータではなく, モデルが学習した 暗黙知 (dark knowledge) を転移する • (猫を犬と間違える確率) ≪ (猫を車と間違える確率) • 手書き数字の “2” は “7” よりも “3” に似ていやすい • ネットワークを直接転移しないのでファインチューニング に比べて転移先のモデルは小さくて済む (モデル圧縮) 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 19 / 41
  • 24.
  • 25. ∗ 深層学習以前の特徴の獲得方法: カーネル法 • 幅が無限大の全結合型 2 層 NN として解釈可能 • 特徴抽出器 (入力層-中間層) はユーザーが設計, 固定 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 21 / 41
  • 26. ∗ カーネル法による特徴表現に基づく転移学習 元ドメイン ⽬標ドメイン 次元が異なる 共通空間 [Duan+ (ICML2012)] ``いらいらするほど簡単なDA’’ [Daume III, ACL2007] ドメイン共通の特徴 ドメイン固有の特徴 min PS,PT max α 1⊤ ns+nt α − 1 2 (α ◦ y)⊤ KPS,PT (α ◦ y) s.t. y⊤ α = 0, 0ns+nt ≤ α ≤ C1ns+nt ∥PS∥2 F ≤ λp, ∥PT∥2 F ≤ λq 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 22 / 41
  • 28. 不変な表現学習を目指す理論的根拠 目標ドメインの期待リスクバウンド (統計的学習理論) に基づ く 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • fT, fS : 目標ドメイン, 元ドメインの真のラベル関数 • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い • Disc を小さく抑えることが RT の最小化に直接寄与する → 両ドメインで不変な特徴量は分布の不一致度 Disc を小 さくする 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 24 / 41
  • 29. ∗ 目標リスクの上界の例 • 2 値判別問題 • 全変動距離でドメインの不一致度を評価: dH(DS, DT) = 2 sup h∈H |PS(AS) − PT(AT)|, A = {x ∈ D; h(x) = 1} Theorem 1 (Ben-David+ (2010)) 任意の δ > 0 に対して確率 1 − δ 以上で以下が成立 RT(h, fT) ≤ RS(h, fS) + dH(DS, DT) | {z } Disc + min h∈H RT(h, fT) + RS(h, fS) | {z } Diff 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 25 / 41
  • 30. 例: 深層オートエンコーダーによるドメイン不変表現学習 Transfer Learning with Deep Autoencoders [Zhuang+ (2015)] • オートエンコーダーによる教師付き表現学習 min Err(x, x̂) | {z } reconstruction error +α (KL(PS||PT) + KL(PT||PS)) | {z } discrepancy +β ℓ(yS; θ, ξS) | {z } softmax loss +γReg • 元ドメインと目標ドメインで符号化と復号化の重みを共有 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 26 / 41
  • 31. 例: 敵対的学習によるドメイン不変表現学習 Domain Adversarial Training [Ganin+ (2015)] • 特徴抽出器がドメイン不変な特徴を抽出 • ドメイン識別器の学習は gradient に負定数をかけ逆伝播 する勾配反転層を導入することで実現 松井 (名古屋大) 転移学習の基礎 深層学習時代の転移学習 27 / 41
  • 33. 不変性のみを考慮することの限界 i 目標ドメインのリスク上界 (再掲) RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • 不変な特徴表現の獲得 = 第 2 項の最小化 • 同時リスク Diff(fT, fS) = infh∈H RS(h, fS) + RT(h, fT) は無視 → 目標ドメインのラベル関数が考慮されない (上図) 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 28 / 41
  • 34. 不変性のみを考慮することの限界 ii • 実験的な同時リスクの検証 [Liu+ (2019)] • DANN のようなドメイン不変な表現学習のみを行う手法で は同時リスク RS(h) + RT(h) が大きくなるような仮説が学 習されてしまう 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 29 / 41
  • 35. 不変性と同時リスクの関係 同時リスクの下界 [Zhao+ (2019)] RS(h ◦ g) + RT(h ◦ g) ≥ 1 2 dJS(PT (Y), PS (Y)) − dJS(PT (Z), PS (Z)) 2 • g : 特徴抽出器 • h : ラベル識別器 • dJS : JS ダイバージェンスの平方根 • Z : g によって抽出された特徴量 • ドメイン不変な表現学習に基づく転移学習が成功するため の必要条件 • 右辺第 1 項 (ラベル分布の不一致度) が大きいとき, 右辺第 2 項の最小化 (不変表現学習) は RT(h ◦ g) を悪化させる 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 30 / 41
  • 36. 同時リスクを考慮した転移学習 i Transferable Adversarial Training (TAT) [Liu+ (2019)] • 元ドメインと目標ドメインのギャップを埋めるような疑似 データ (転移可能事例) を生成 • 転移可能事例を含めてラベル識別器を訓練 → ドメイン不変な表現学習を経由せずに目標ドメインで 汎化するモデルを学習可能 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 31 / 41
  • 38. 同時リスクを考慮した転移学習 iii TAT による識別境界の学習と転移可能特徴の挙動 (a) Source Only Model (b) TAT (c) Transferable Examples 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 33 / 41
  • 39. 同時リスクを考慮した転移学習 iv TAT の性能の評価 (識別精度) Table 1. Classification accuracies (%) on Office-31 for unsupervised domain adaptation with ResNet-50. METHOD A→W D→W W→D A→D D→A W→A AVG. RESNET-50 (HE ET AL., 2016) 68.4±0.2 96.7±0.1 99.3±0.1 68.9±0.2 62.5±0.3 60.7±0.3 76.1 DAN (LONG ET AL., 2015) 80.5±0.4 97.1±0.2 99.6±0.1 78.6±0.2 63.6±0.3 62.8±0.2 80.4 DANN (GANIN ET AL., 2016) 82.6±0.4 96.9±0.2 99.3±0.2 81.5±0.4 68.4±0.5 67.5±0.5 82.7 ADDA (TZENG ET AL., 2017) 86.2±0.5 96.2±0.3 98.4±0.3 77.8±0.3 69.5±0.4 68.9±0.5 82.9 VADA (SHU ET AL., 2018) 86.5±0.5 98.2±0.4 99.7±0.2 86.7±0.4 70.1±0.4 70.5±0.4 85.4 GTA (SANKARANARAYANAN ET AL., 2018) 89.5±0.5 97.9±0.3 99.7±0.2 87.7±0.5 72.8±0.3 71.4±0.4 86.5 MCD (SAITO ET AL., 2018) 88.6±0.2 98.5±0.1 100.0±.0 92.2±0.2 69.5±0.1 69.7±0.3 86.5 CDAN (LONG ET AL., 2018) 93.1±0.1 98.6±0.1 100.0±.0 92.9±0.2 71.0±0.3 69.3±0.3 87.5 TAT 92.5±0.3 99.3±0.1 100.0±.0 93.2±0.2 73.1±0.3 72.1±0.3 88.4 Table 2. Classification accuracies (%) on Image-CLEF for unsupervised domain adaptation with ResNet-50. METHOD I→P P→I I→C C→I C→P P→C AVG. RESNET-50 (HE ET AL., 2016) 74.8±0.3 83.9±0.1 91.5±0.3 78.0±0.2 65.5±0.3 91.2±0.3 80.7 DAN (LONG ET AL., 2015) 74.5±0.4 82.2±0.2 92.8±0.2 86.3±0.4 69.2±0.4 89.8±0.4 82.5 DANN (GANIN ET AL., 2016) 75.0±0.3 86.0±0.3 96.2±0.4 87.0±0.5 74.3±0.5 91.5±0.6 85.0 CDAN (LONG ET AL., 2018) 76.7±0.3 90.6±0.3 97.0±0.4 90.5±0.4 74.5±0.3 93.5±0.4 87.1 TAT 78.8±0.2 92.0±0.2 97.5±0.3 92.0±0.3 78.2±0.4 94.7±0.4 88.9 松井 (名古屋大) 転移学習の基礎 ∗ 同時リスクを考慮した転移学習 34 / 41
  • 41. メタ学習 (Meta Learning) メタ学習の定義 複数の学習エピソード (≈ データ) を訓練データとしてメタ知 識 (または帰納バイアス) を学習しておくことで, 目的のタス クにおいて少数の学習データしかなくても性能を高める • 帰納バイアス学習 (inductive bias learning), 学習の仕方の 学習 (learning to learn) などとも呼ばれる • メタ知識: 機械学習を実行する際におく様々な仮定 • データ分布の仮定 (例: データは正規分布に従うとみなす) • どのようなモデルを使うか (仮説集合の指定) • 線形モデル → 線形回帰, 線形判別 • 深層モデル → 深層学習 • モデルの最適化アルゴリズムに何を使うか • 確率的勾配降下法 (SGD) • Adam 松井 (名古屋大) 転移学習の基礎 メタ学習 35 / 41
  • 42. メタ学習の定式化 [Hospedales+ (2020)] メタ損失 (⽬的関数) 第mドメインの損失 メタ知識 ω の下での 第mドメインの最適 パラメータ : 第mドメインの訓練データ, 検証データ メタ学習の2レベル最適化問題としての定式化 ⽬的関数:メタ知識の最適化 制約条件:ドメイン毎のパラメータ学習 松井 (名古屋大) 転移学習の基礎 メタ学習 36 / 41
  • 43. メタ学習の分類 • 何をメタ知識と考えるか • パラメータの初期値 [Finn+ (2017)] • 最適化器 [Chen+ (2017)] • ハイパーパラメータ, ... • メタ損失をどう設定するか • 多数ショット (通常の) 学習 [Franceschi+ (2017)] vs 少数シ ョット学習 [Finn+ (2017)] • マルチタスク学習 [Li+ (2019)] vs シングルタスク学 習 [Veeriah+ (2019)] • オンライン学習 [Veeriah+ (2019)] vs オフライン学習 [Finn+ (2017)], ... • メタ損失をどう最適化するか • 勾配ベースの最適化 [Finn+ (2017)] • 強化学習による最適化 [Duan+ (2016)] • 進化計算による最適化 [Soltoggio+ (2018)], ... 松井 (名古屋大) 転移学習の基礎 メタ学習 37 / 41
  • 44. 例: Model-Agnostic Meta-Learning (MAML) 様々なタスクに勾配法で少数ショット学習したときに性能が良 くなるような共通のパラメータの初期値を学習 • メタ知識 : 各タスクに共通なモデルパラメータの初期値 • メタ損失 : オフライン少数ショット学習 • メタ損失の最適化 : 勾配法に基づく 松井 (名古屋大) 転移学習の基礎 メタ学習 38 / 41
  • 46. まとめとこれから • 転移学習の基本概念 • 問題設定 • 基本問題: 何を/いつ/どうやって転移するか • 不一致度と転移仮定 • 深層モデルによるドメイン不変な表現学習 • 同時リスクを考慮に入れた方法 • メタ学習 転移学習の実用化に向けて • 実際の問題に利用されているのはほぼ事前学習とファイン チューニングのみ • 転移学習を製品に実装するために考えるべき課題 (例) • モデルの評価 (目標ドメインでのラベル付きデータが必要) • 製品に実装されたモデルの微調整や定期的な更新 松井 (名古屋大) 転移学習の基礎 まとめ 39 / 41
  • 47. References [1] Hal Daumé III. Frustratingly easy domain adaptation. ACL, 2007. [2] A. Krizhevsky et al. Imagenet classification with deep convolutional neural networks. NeurIPS, 2012. [3] A. Radford et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019. [4] A. Ramesh et al. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092, 2021. [5] A. Soltoggio et al. Born to learn: the inspiration, progress, and future of evolved plastic artificial neural networks. Neural Networks, 108:48–67, 2018. [6] B. K. Sriperumbudur et al. On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550–1599, 2012. [7] C. Finn et al. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017. [8] F. Zhuang et al. Supervised representation learning: Transfer learning with deep autoencoders. IJCAI, 2015. [9] H. Liu et al. Transferable adversarial training: A general approach to adapting deep classifiers. ICML, 2019. [10] H. Zhao et al. On learning invariant representations for domain adaptation, 2019. [11] I. Redko et al. Optimal transport for multi-source domain adaptation under target shift. AISTATS, 2019. [12] I. Sato et al. Managing computer-assisted detection system based on transfer learning with negative transfer inhibition. KDD, 2018. [13] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2018. [14] J. Gou et al. Knowledge distillation: A survey. International Journal of Computer Vision, pages 1–31, 2021. [15] J. Quionero-Candela et al. Dataset shift in machine learning. The MIT Press, 2009. [16] L. Duan et al. Learning with augmented features for heterogeneous domain adaptation. ICML, 2012. [17] L. Franceschi et al. Forward and reverse gradient-based hyperparameter optimization. 2017. 松井 (名古屋大) 転移学習の基礎 まとめ 40 / 41
  • 48. [18] M. Sugiyama et al. Density ratio estimation in machine learning. Cambridge University Press, 2012. [19] N. Courty et al. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853–1865, 2016. [20] S. Ben-David et al. A theory of learning from different domains. Machine learning, 79(1):151–175, 2010. [21] S. Kuroki et al. Unsupervised domain adaptation based on source-guided discrepancy. 2019. [22] T. Brown et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020. [23] T. Teshima et al. Few-shot domain adaptation by causal mechanism transfer. 2020. [24] V. Veeriah et al. Discovery of useful questions as auxiliary tasks. NeurIPS, 2019. [25] Y. Chen et al. Learning to learn without gradient descent by gradient descent. 2017. [26] Y. Duan et al. Rl ˆ2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016. [27] Y. Ganin et al. Domain-adversarial training of neural networks. JMLR, 17(1):2096–2030, 2016. [28] Y. Li et al. Feature-critic networks for heterogeneous domain generalization. 2019. [29] T. Iwata and M. Yamada. Multi-view anomaly detection via robust probabilistic latent variable models. NeurIPS, 2016. [30] S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. 2017. [31] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. 2014. 松井 (名古屋大) 転移学習の基礎 まとめ 41 / 41