カステラ本勉強会第三回補足

1
「統計的学習の基礎」読書会
3.4.4 最小角回帰 7/26
ベック和穂

おさらい
• 訓練データに対してあてはまりの良い
線形モデル：
を求めたい
安易な解としては最小二乗推定：
が考えうるが、もう少しパラメータを抑制した中で解を
求めたい、という欲求がある。
(変数選択、縮小推定)
2
1, ,{( , )}i i i Nx y  
y X 
 
1t t
X X X y



最小角回帰
• 残差と相関の高い変数からパラメータを動かしていく手法
• 例(2変数のケース)
3
1. 予測変数は平均0ノルム1に正規化
2. 残差との相関(内積の絶対値)が最大のもの
を選び、モデルに追加する
3. 上記の変数のパラメータをモデルの最小二
乗方向に動かす
4. 残差との内積でモデルに含まれていない変
数がモデルに含まれている変数に追いつい
たらパラメータを動かすのをやめ、その変数
をモデルに追加する
5. p個の変数がモデルに加わるまでこの操作
を続ける
1X 2X
r
2変数からの
等角方向

最小角回帰
• あるステップでの更新方向：
：k回目の操作開始時のモデルの変数集合(追加されたばかりの物も含む)
：現在の残差
とする。このステップでの更新は、
であり(出発点βからモデル変数の最小二乗推定量に向かう)
係数はあるα(0≦α ≦1)によって、
と書くことができる
4
kA
k kA Ay X 
 
 
1
1
k k k
k k k k
T T
k A A A k
T T
A A A A
X X X r
X X X y





 
( )k kA A k    
(3.55)

最小角回帰
• あるステップでの更新幅(演習3.25)
とする。
Akに含まれない全ての変数に対して、に対する内積が等しくなるような
αを求め、その[0,1]内での最小値が更新幅となる。
αは以下の式により決定する
5
,k i kx A x A 
, ix x
1 1
1
, ,
k
k i k i
k k A k
r x s r x
r r X 
 

 

 
, , , ,k kk i A k i k i i i A k ir x X x s r x s X x     
, ,
( )
, ,k k
i k i k
i i
i A k i A k
s r x r x
s
s X x X x

 



min { (1), ( 1)}ki A i i   
Siは、符号を吸収する
ための変数(1or-1)
1 1, ,k k ir x r x 

最小角回帰
• 図3.15(パラメータ変化の様子)
– 区分的に線形
– 相関係数を減少させながら変数を統合してモデルに組み入れていく
6

Lassoとの比較
• 図3.16(パラメータ変化の様子 vs Lasso)
7
非零の変数が０になる時にだけ、最小角回帰と差が生じる
L1弧長？？またはのいずれかでしょうか？
1
1
t
k
 
 
 
 
 
 T
k k  

最小角回帰(Lasso修正)
• 非零係数が0になったとき、その変数をモデルから外して、
現在の結合最小二乗方向を再計算する
⇒これで完全にLassoと全く同じ係数経路が得られる(らしい)
8

最小角回帰がLassoと類似する理由
9
• 最小角回帰のあるステップでの変数集合をAとして、
A内の変数は残差との相関の絶対値が等しく、
jによらない値とによって
• 一方Lassoは、制約パラメータλでの変数集合をBとして、
これを微分して0とすると、
1 1js or 
(3.56), (3.58)を比較すると、βの符号と内積の符号が一致する場合のみ同一と
なる。したがって、使用済み変数の係数が0をまたぐと差異が生じ始める

少数データでの評価
図3.17 N=100 図3.6 N=300
10
データを減らしたことにより、
• 前向き漸次的回帰が早くから過学習を起こすようになった(黒)
• 収束の遅い、前向き段階的回帰の性能が非常に良い(薄緑)
• Lasso(茶)や最小角回帰(水色)もそれに近い動き

モデルの自由度
• 様々なモデルが存在するが、その複雑さ(自由度)を目に見
える指標として与えたいね、という話。
1. データと無関係にk個の変数が決まっているのならkでいいだろう
2. データごとに最適なk個、となるとkよりも大きいと考えられる
• 定義(モデルの有効自由度)
– 予測値と、対応する出力値の共分散の和
– 上記の条件1,2を満たす
– 最小角回帰では、k番目の手順後に自由度kとなる
– Lassoは非零係数の数と近い値になる(詳しくはZou et al 2007)
– 詳しくは7.4~7.6章で扱う
11
2
1
1
ˆ ˆdf( ) ( , )
N
i i
i
y Cov y y
 
 
ˆiy ˆiy

カステラ本勉強会第三回補足

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a カステラ本勉強会第三回補足

Semelhante a カステラ本勉強会第三回補足 (20)