PRML復々習レーン#3 3.1.3-3.1.5

PRML復々習レーン#3
3.1.3-3.1.5 (代打)
2012-07-16
Yoshihiko Suhara
@sleepy_yoshi

ここのポイント
• (1) 逐次学習
– 確率的勾配降下法

• (2) 正則化項
– 誤差関数との関係
– 特にイメージについて

2

3.1.3 逐次学習

3

確率的勾配降下法
(Stochastic Gradient Descent; SGD)
• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように，データ点に対する
誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下
の更新式で重みベクトルを更新
– 𝜂は学習率
• 収束保証のためには，単調減少させる必要あり
𝜏+1 𝜏
𝒘 = 𝒘 − 𝜂 𝜏 𝛻𝐸 𝑛

∞ ∞
ただし lim 𝜂 𝜏 = 0
𝜏→∞
𝜂𝜏 = ∞ 𝜂2 < ∞
𝜏
𝜏=1 4
𝜏=1

最急降下法 vs. 確率的勾配降下法
ホワイトボードで説明

最急降下法確率的勾配降下法
5

LMSアルゴリズム
• LMSアルゴリズム
– 確率的勾配法を用いて最小二乗学習を行う
– Widrow-Hoffの学習規則，Adalineとも呼ばれる

• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より
1
𝐸𝑛 𝒘 = 𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2
2

• よって勾配𝛻𝐸 𝑛 𝒘 は
𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛 𝜙(𝒙 𝑛 )

6

LMSアルゴリズム
INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘

1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛
𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇

7

余談: 二値分類における最小二乗法
• 二値分類においては0-1損失を考える
• 二値分類においてもLMSアルゴリズムは利用可能ではある
– ただし「正解しすぎても」損失が発生
– ⇒よりよい0-1損失の近似の利用を検討

𝐸𝑛
アレ?

1 𝑦𝑛 𝒘 𝑇 𝒙 𝑛 8

更に余談: よりよい0-1損失の近似
• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛
• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2

L2-loss SVM 𝐸𝑛

hinge-loss こんな損失

0-1 loss

𝑦𝑛 𝒘 𝑇 𝒙 𝑛 9

3.1.4 正則化最小二乗法

10

損失関数＋正則化項
• 正則化項を加えた損失関数
𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)

• 正則化項はたとえば重みベクトルの二乗和を
利用 (L2正則化項)
1 𝑇
𝐸𝑤 𝒘 = 𝒘 𝒘
2

11

正則化最小二乗法
• 二乗誤差関数にさきほどの正則化項を加え
ると誤差関数は
𝑁
1 𝑇 2
𝜆 𝑇
𝐸 𝒘 = 𝑡𝑛− 𝒘 𝜙 𝒙𝑛 + 𝒘 𝒘
2 2
𝑛=1

• 𝒘に関する勾配を0とおき， 𝒘について解けば
以下を得る
𝒘 = 𝜆𝐈 + 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕
12

正則化最小二乗の導出
𝑇
𝐿 𝒘 = 𝒚 − 𝑿𝒘 𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘
𝜕
𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘
𝜕𝒘

• これを0とおく
𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚
𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚
𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚 行列の微分

𝜕 𝑇 𝜕 𝑇
𝒂 𝒙= 𝒙 𝒂= 𝒂
𝜕𝒙 𝜕𝒙

𝑇 13
𝑨𝑩 = 𝑩𝑇 𝑨𝑇

確率的勾配法で解く場合

L2正則化LMSアルゴリズム
INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘

1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛
𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇

14

正則化項について (1/2)
• 一般的な正則化項
𝑀
𝜆 𝑞
𝐸𝑤 𝒘 = 𝑤𝑗
2
𝑗=1

• 𝑞 = 2のときL2正則化項
– q=1はlassoとも呼ばれる．q=2はridge

15

正則化項について (2/2)
• 誤差関数と正則化項を横から眺める
– (ホワイトボード)

• 二乗誤差関数＋L2正則化項 (凸＋凸＝凸)
– 証明はぐぐってください

16

正則化項の解釈
• 正則化していない二乗誤差を以下の制約条件
で最小化することと等しい (演習3.5)
𝑀
𝑞
𝑤𝑗 ≤ 𝜂
𝑗=1

• こたえ
𝑀
𝑞
𝜂= 𝑤 𝑗∗ 𝜆
𝑗=1
与えられた𝜆における誤差関数の最適値に依存
(ﾟДﾟ)ﾊｧ?
17

図3.4 を眺める
• 謎の図も今ならわかる

18

3.1.5 出力変数が多次元の場合

19

目標変数が多次元の場合
• 𝐾次元の目標ベクトル𝒕の推定を試みる
𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)

• 結論 (3.1.1と同様のロジック)
– 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓
– 各次元の目標変数が相互に依存しないため，𝑘
番目の目標変数を推定するためのパラメータは
𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる

20

PRML復々習レーン#3 3.1.3-3.1.5

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML復々習レーン#3 3.1.3-3.1.5

Similar to PRML復々習レーン#3 3.1.3-3.1.5 (20)

More from sleepy_yoshi

More from sleepy_yoshi (20)

PRML復々習レーン#3 3.1.3-3.1.5