スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

スパース性に基づく機械学習
3.3〜3.4節
機械学習プロフェッショナルシリーズ
@St_Hakky

自己紹介と告知
• Twitter : @St_Hakky
• ブログ：http://st-hakky.hatenablog.com/
• 関西で機械学習勉強会を実施中!!
• 団体のモットー：
• 圧倒的スピード感で大量の書物と論文をぶった切る
• 「えっ、まだ読んでないの？」と煽り奉り、輪講会を乱立させる
• 過去のイベント例
• PRML輪講会、PRML上巻/下巻一気読み
• データ解析のための統計モデリング入門の輪講会
• わかりやすいパターン認識(続)の輪講会
• 参加したい方は、Facebookのグループにまずは参加を。
• URL :https://www.facebook.com/groups/1767916400127792/

スパース性に基づく機械学習の
3.3〜3.4節をやります

コンテンツ
• 3.3 : 人口データを用いた説明
• 3.4 : 文献に関する補遺

人口データを用いた説明
• 実際にデータを用いて𝑙1ノルム正則化の効果を示す。
• 効果を示すために、以下を行う
1. パラメータの生成
2. 入力データの生成
3. 出力値の生成
4. 損失関数の設定

データの生成方法
• 𝑑 ： 200次元
• 𝒘∗：真の回帰係数ベクトル
• 最初のk=10個の要素が非ゼロで、残りの要素がゼロになるように
ランダムに選ぶ
• 𝑛をサンプル数として、𝑋 ∈ ℝ 𝑛 ×dを次スライドのように生成
する

𝑋 ∈ ℝ 𝑛 ×d
の生成方法
• 𝑋の各列について以下のように処理をする。
• 初めのk列：真の回帰係数ベクトルと直交するベクトルと弱い相関
を持つ正規分布から生成
• 残りのdーk列：相関のない正規分布から生成

出力𝑦の生成方法
• 最後に、出力𝑦を以下の式で生成
• ξ : n次元のベクトルで各要素が独立同一に標準正規分布
𝑁(0,1)に従って生成

損失関数
• 今回の生成モデルでは、𝑖番目のサンプル𝑦𝑖は𝒙𝒊
𝑻
𝒘∗
を平均
とする正規分布に従う。これにより、損失関数は、以下が
考えられる。

比較の対象とする手法
• 比較の対象とする手法は、以下の通りである。
• 𝐿1 (𝑙1ノルム正則化付き最小二乗法)
• 𝐿2 (𝑙2ノルム正則化付き最小二乗法：リッジ回帰)
• 𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• 2𝑠𝑡𝑒𝑝𝑠
• 𝑂𝑝𝑡𝑖𝑜𝑚𝑎𝑙 (二乗回帰モデル)
• 上記の手法についてそれぞれ説明する

𝐿１(𝑙1ノルム正則化付き最小二乗法)
• 𝑙1ノルム正則化付き最小二乗法と等しい
• 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−3~103の区間
を対数線形に20等分した値を候補として用い、この中で得
られた最小の誤差を示す

𝐿2 (𝑙2ノルム正則化付き最小二乗法：リッジ回帰)
• この手法では、以下の最適化問題の解として得られる
• 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−6~106の区間
を対数線形に20等分した値を候補として用い、この中で得
られた最小の誤差を示す

𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• この手法では、初めにL2の解を得た後、重みベクトル 𝒘の
絶対値の大きい順にk個の係数を残して、残りをゼロに打
ち切る

2𝑠𝑡𝑒𝑝𝑠
• この手法は、各変数𝑗 = 1, … , 𝑑ごとに1変数相関
1/𝑛 𝑖=1
𝑛
𝑦𝑖 𝑥𝑖𝑗を計算し、相関の絶対値の大きい順にk個の
変数を選んだ後、このk変数に対してL2の解を得る

Optiomal (二乗回帰モデル)
• この手法は、初めのk変数だけが回帰に関係すると言うこ
とを事前知識として与えられている二乗回帰モデル。L2と
同様に、𝑙2ノルム正則化を用いる

各手法のテスト誤差の結果
縦軸：訓練データと同分布
からサンプルした1000個
のテスト点に対する平均
二乗誤差
横軸：サンプル数

各手法の結果
• 最も性能が良い：Optimal
• 事前知識として、どの要素が非ゼロであるべきなのか
がわかっているため、当たり前といえば当たり前
• 2番目に性能がいいもの： L１
• L１はいくつの非ゼロ要素があるかも、d=200変数のうち
のどの要素が非ゼロであるかもわかっていないことに
注意
• テスト誤差が最大値の1/2を下回るのはn=50の付近
• これは、理論的に予想される𝑘𝑙𝑜𝑔(𝑑) ≃ 53に近い

各手法の結果
• 3番目に性能が良いもの：2𝑠𝑡𝑒𝑝𝑠と𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• どちらも非ゼロ要素の数k=10を知っていることを仮定
• 最も性能が悪いもの：L2
• テスト誤差が最大値の1/2を下回るのは、n=200と250
の間

重みベクトルの結果の比較
サンプル数n=150における
真の重みベクトルと描く手
法を用いて得られた重み
ベクトルの比較

重みベクトルの結果の比較
• L2：全ての200変数が非ゼロ要素
• L1：非ゼロ要素70程度
• 予測性能を犠牲にして、大きな正則化パラメータλを選ぶことで、より非
ゼロを減らすことができる
• L1とOptimal：
• 最初の10変数と真のパラメータを比較すると、L1は係数間の大乗関係も
含めてほぼ理想的に推定できている
• 得られた係数はL１の方がやや絶対値が小さい。これは𝑙1ノルムによる推
定バイアスであり、ノルムが非ゼロ要素の数だけでなく、係数の絶対値に
比例することに起因
• Largest-kと2steps：
• 正しい非ゼロ係数を捉えているが、無関係な変数にも反応してい
るため、誤差が大きくなっている。

文献に関する補遺
• 画像処理で著名なRudin[70]によれば𝑙1ノルム最小化の歴
史はガリレオやラプラスに遡る
• 𝑙1ノルム最小化を用いて信号と雑音の分離が可能であるこ
とを示した(Logan [27])
• Logan [27]の論文の核心は｢信号とそのフーリエ変換は同時にス
パースになることはない｣という点
• DonohoとStarkによって不確定性原理として証明済[27]

• スパース信号の推定のための𝑙1ノルム最小化は地球物理
学、電波天文学など、フーリエ変換と分光法を用いた計測
を行う分野で同時多発的に提案されてきた[54,60,71,74]
• 1990年代には、統計学者のDonoho[17]やTibshirani[78]に
よって整理・体系化
• また、同時期に計算神経科学の分野で有名なOlshausenと
Fieldによるスパースコーディングの研究[61]がある

• 2000年代に入っても以下のような研究が行われて
きました。
• 機械学習の分野(ベイズ理論)：Girolami[35],
Tipping[79], Palmer[62]
• 機械学習の分野(サポートベクトルマシン)：
Mangasarian[55], Zhu[89]
• 圧縮センシング理論：Candes[10]
• 核磁気共鳴画像法(MRI)：Candes[53]
• このように今またスパース性が注目されている

参考文献
• [10] Candès, Emmanuel J., Justin Romberg, and Terence Tao. "Robust
uncertainty principles: Exact signal reconstruction from highly incomplete
frequency information." IEEE Transactions on information theory 52.2 (2006):
489-509.
• http://ieeexplore.ieee.org/document/1580791/?arnumber=1580791&tag=1
• [17] Chen, S. S., D. L. Donoho, and M. A. Saunders. "Atomic decomposition by
basis pursuit: SIA M Journal on Scientific Computing, 20, 33–61." (1998):
S1064827596304010.
• https://web.stanford.edu/group/SOL/papers/BasisPursuit-SIGEST.pdf
• [27] Donoho, David L., and Philip B. Stark. "Uncertainty principles and signal
recovery." SIAM Journal on Applied Mathematics 49.3 (1989): 906-931.
• http://circuit.ucsd.edu/~massimo/ECE287C/Handouts_files/DohonoStark.pdf

参考文献
• [35] Girolami, Mark. "A variational method for learning sparse and
overcomplete representations." Neural computation 13.11 (2001):
2517-2532.
• http://www.mitpressjournals.org/doi/abs/10.1162/089976601753196003#
.WHjLXraLS_A
• [52] Logan, Benjamin Franklin. Properties of high-pass signals. 1965.
• [53] Lustig, Michael, David Donoho, and John M. Pauly. "Sparse MRI:
The application of compressed sensing for rapid MR
imaging." Magnetic resonance in medicine 58.6 (2007): 1182-1195.
• http://onlinelibrary.wiley.com/doi/10.1002/mrm.21391/full

参考文献
• [54] Mammone, R., and G. Eichmann. "Restoration of discrete Fourier
spectra using linear programming." JOSA 72.8 (1982): 987-992.
• https://www.osapublishing.org/josa/abstract.cfm?uri=josa-72-8-987
• [55] Mangasarian, Olvi L. "Generalized support vector
machines." Advances in Neural Information Processing
Systems (1999): 135-146.
• http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.7044&rep=r
ep1&type=pdf
• [60] Oldenburg, D. W., T. Scheuer, and S. Levy. "Recovery of the
acoustic impedance from reflection seismograms." Geophysics 48.10
(1983): 1318-1337.
• http://library.seg.org/doi/abs/10.1190/1.1441413

参考文献
• [62] Palmer, Jason, et al. "Variational EM algorithms for non-Gaussian
latent variable models." Advances in neural information processing
systems. 2005.
• http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2005_803.pdf
• [70] Rudin, Leonid I., Stanley Osher, and Emad Fatemi. "Nonlinear
total variation based noise removal algorithms." Physica D: Nonlinear
Phenomena 60.1 (1992): 259-268.
• http://www.sciencedirect.com/science/article/pii/016727899290242F
• [71] Santosa, Fadil, and William W. Symes. "Linear inversion of band-
limited reflection seismograms." SIAM Journal on Scientific and
Statistical Computing 7.4 (1986): 1307-1330.
• http://epubs.siam.org/doi/abs/10.1137/0907087

参考文献
• [74] Schwarz, U. J. "Mathematical-statistical description of the
iterative beam removing technique (method CLEAN)." Astronomy and
Astrophysics 65 (1978): 345-356
• http://adsabs.harvard.edu/full/1978A%26A....65..345S
• [78] Tibshirani, Robert. "Regression shrinkage and selection via the
lasso." Journal of the Royal Statistical Society. Series B
(Methodological) (1996): 267-288.
• http://www.jstor.org/stable/pdf/2346178.pdf
• [79] Tipping, Michael E. "Sparse Bayesian learning and the relevance
vector machine." Journal of machine learning research 1.Jun (2001):
211-244.
• http://www.jmlr.org/papers/v1/tipping01a.html

参考文献
• [89] Zhu, Ji, et al. "1-norm support vector machines." Advances in
neural information processing systems 16.1 (2004): 49-56.
• https://books.google.co.jp/books?hl=ja&lr=lang_ja%7Clang_en&id=0F-
9C7K8fQ8C&oi=fnd&pg=PA49&dq=1-
norm+support+vector+machines+zhu+rosset+hastie+&ots=THLum0X950&
sig=Jr9HBdtGJuQPb94rbnAQb2VTe3w&redir_esc=y#v=onepage&q=1-
norm%20support%20vector%20machines%20zhu%20rosset%20hastie&f=fals
e

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

Recommended

Recommended

More Related Content

More from Hakky St

More from Hakky St (14)

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節