SlideShare a Scribd company logo
1 of 21
Download to read offline
PRML復々習レーン#3
  3.1.3-3.1.5 (代打)
      2012-07-16
    Yoshihiko Suhara
     @sleepy_yoshi
ここのポイント
• (1) 逐次学習
 – 確率的勾配降下法


• (2) 正則化項
 – 誤差関数との関係
 – 特にイメージについて




                   2
3.1.3 逐次学習



             3
確率的勾配降下法
 (Stochastic Gradient Descent; SGD)
• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する
  誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下
  の更新式で重みベクトルを更新
 – 𝜂は学習率
   • 収束保証のためには,単調減少させる必要あり
               𝜏+1           𝜏
           𝒘          = 𝒘        − 𝜂 𝜏 𝛻𝐸 𝑛

                        ∞               ∞
 ただし    lim 𝜂 𝜏 = 0
        𝜏→∞
                             𝜂𝜏 = ∞           𝜂2 < ∞
                                               𝜏
                       𝜏=1                             4
                                        𝜏=1
最急降下法 vs. 確率的勾配降下法
ホワイトボードで説明




   最急降下法       確率的勾配降下法
                          5
LMSアルゴリズム
• LMSアルゴリズム
  – 確率的勾配法を用いて最小二乗学習を行う
  – Widrow-Hoffの学習規則,Adalineとも呼ばれる

• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より
                   1
        𝐸𝑛 𝒘 =       𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2
                   2

• よって勾配𝛻𝐸 𝑛 𝒘 は
      𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛   𝜙(𝒙 𝑛 )

                                           6
LMSアルゴリズム
 INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘

1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛
                                   𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇

                                               7
余談: 二値分類における最小二乗法
• 二値分類においては0-1損失を考える
• 二値分類においてもLMSアルゴリズムは利用可能ではある
 – ただし「正解しすぎても」損失が発生
 – ⇒よりよい0-1損失の近似の利用を検討



               𝐸𝑛
                         アレ?




                    1    𝑦𝑛 𝒘 𝑇 𝒙 𝑛   8
更に余談: よりよい0-1損失の近似
• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛
• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2


               L2-loss SVM   𝐸𝑛

  hinge-loss                      こんな損失


    0-1 loss


                                         𝑦𝑛 𝒘 𝑇 𝒙 𝑛        9
3.1.4 正則化最小二乗法



             10
損失関数+正則化項
• 正則化項を加えた損失関数
      𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)

• 正則化項はたとえば重みベクトルの二乗和を
  利用 (L2正則化項)
                   1 𝑇
           𝐸𝑤   𝒘 = 𝒘 𝒘
                   2



                               11
正則化最小二乗法
• 二乗誤差関数にさきほどの正則化項を加え
  ると誤差関数は
             𝑁
        1              𝑇       2
                                    𝜆 𝑇
  𝐸 𝒘 =           𝑡𝑛− 𝒘 𝜙 𝒙𝑛       + 𝒘 𝒘
        2                           2
            𝑛=1


• 𝒘に関する勾配を0とおき, 𝒘について解けば
  以下を得る
       𝒘 = 𝜆𝐈 + 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕
                                           12
正則化最小二乗の導出
                    𝑇
    𝐿 𝒘 = 𝒚 − 𝑿𝒘        𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘
   𝜕
     𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘
  𝜕𝒘

• これを0とおく
          𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚
          𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚
        𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚    行列の微分

                                    𝜕 𝑇     𝜕 𝑇
                                       𝒂 𝒙=    𝒙 𝒂= 𝒂
                                    𝜕𝒙      𝜕𝒙

                                          𝑇         13
                                     𝑨𝑩       = 𝑩𝑇 𝑨𝑇
確率的勾配法で解く場合

       L2正則化LMSアルゴリズム
   INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
  OUTPUT: 𝒘

  1: Initialize 𝒘0 = 𝟎
  2: FOR 𝑛 in 0 to 𝑇 − 1
  3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
  4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛
                                     𝑛
  5: ENDIF
  6: ENDFOR
  7: RETURN 𝒘 𝑇

                                                        14
正則化項について (1/2)
• 一般的な正則化項
                        𝑀
                   𝜆              𝑞
          𝐸𝑤   𝒘 =           𝑤𝑗
                   2
                       𝑗=1

• 𝑞 = 2のときL2正則化項
 – q=1はlassoとも呼ばれる.q=2はridge




                                      15
正則化項について (2/2)
• 誤差関数と正則化項を横から眺める
 – (ホワイトボード)



• 二乗誤差関数+L2正則化項 (凸+凸=凸)
 – 証明はぐぐってください



                          16
正則化項の解釈
• 正則化していない二乗誤差を以下の制約条件
  で最小化することと等しい (演習3.5)
              𝑀
                              𝑞
                      𝑤𝑗          ≤ 𝜂
          𝑗=1


• こたえ
                  𝑀
                                      𝑞
         𝜂=            𝑤 𝑗∗       𝜆
              𝑗=1
                      与えられた𝜆における誤差関数の最適値に依存
                                          (゚Д゚)ハァ?
                                               17
図3.4 を眺める
• 謎の図も今ならわかる




                  18
3.1.5 出力変数が多次元の場合




                    19
目標変数が多次元の場合
• 𝐾次元の目標ベクトル𝒕の推定を試みる
           𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)


• 結論 (3.1.1と同様のロジック)
 – 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓
 – 各次元の目標変数が相互に依存しないため,𝑘
   番目の目標変数を推定するためのパラメータは
   𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる


                                       20
おしまい


       21

More Related Content

What's hot

RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21
horihorio
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

What's hot (20)

PRML8章
PRML8章PRML8章
PRML8章
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
Prml14 5
Prml14 5Prml14 5
Prml14 5
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 

Similar to PRML復々習レーン#3 3.1.3-3.1.5

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
 

Similar to PRML復々習レーン#3 3.1.3-3.1.5 (20)

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
双対性
双対性双対性
双対性
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
楕円曲線入門 トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門 トーラスと楕円曲線のつながり
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
Finite field
Finite fieldFinite field
Finite field
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
Sized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルSized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアル
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 

More from sleepy_yoshi

SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
sleepy_yoshi
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
sleepy_yoshi
 

More from sleepy_yoshi (20)

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical SearchWSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
WSDM2012読み会: Learning to Rank with Multi-Aspect Relevance for Vertical Search
 
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
Collaborative Ranking: A Case Study on Entity Ranking (EMNLP2011読み会)
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
 

PRML復々習レーン#3 3.1.3-3.1.5