More Related Content
Similar to PRML復々習レーン#3 3.1.3-3.1.5 (20)
More from sleepy_yoshi (20)
PRML復々習レーン#3 3.1.3-3.1.5
- 4. 確率的勾配降下法
(Stochastic Gradient Descent; SGD)
• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する
誤差の和で表現される場合に利用可能
• 各データ点に対する誤差関数の勾配を用いて以下
の更新式で重みベクトルを更新
– 𝜂は学習率
• 収束保証のためには,単調減少させる必要あり
𝜏+1 𝜏
𝒘 = 𝒘 − 𝜂 𝜏 𝛻𝐸 𝑛
∞ ∞
ただし lim 𝜂 𝜏 = 0
𝜏→∞
𝜂𝜏 = ∞ 𝜂2 < ∞
𝜏
𝜏=1 4
𝜏=1
- 6. LMSアルゴリズム
• LMSアルゴリズム
– 確率的勾配法を用いて最小二乗学習を行う
– Widrow-Hoffの学習規則,Adalineとも呼ばれる
• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より
1
𝐸𝑛 𝒘 = 𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2
2
• よって勾配𝛻𝐸 𝑛 𝒘 は
𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛 𝜙(𝒙 𝑛 )
6
- 7. LMSアルゴリズム
INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘
1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛
𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇
7
- 9. 更に余談: よりよい0-1損失の近似
• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛
• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2
L2-loss SVM 𝐸𝑛
hinge-loss こんな損失
0-1 loss
𝑦𝑛 𝒘 𝑇 𝒙 𝑛 9
- 13. 正則化最小二乗の導出
𝑇
𝐿 𝒘 = 𝒚 − 𝑿𝒘 𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘
𝜕
𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘
𝜕𝒘
• これを0とおく
𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚
𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚
𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚 行列の微分
𝜕 𝑇 𝜕 𝑇
𝒂 𝒙= 𝒙 𝒂= 𝒂
𝜕𝒙 𝜕𝒙
𝑇 13
𝑨𝑩 = 𝑩𝑇 𝑨𝑇
- 14. 確率的勾配法で解く場合
L2正則化LMSアルゴリズム
INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘
1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛
𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇
14
- 20. 目標変数が多次元の場合
• 𝐾次元の目標ベクトル𝒕の推定を試みる
𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)
• 結論 (3.1.1と同様のロジック)
– 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓
– 各次元の目標変数が相互に依存しないため,𝑘
番目の目標変数を推定するためのパラメータは
𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる
20