SlideShare a Scribd company logo
1 of 30
Download to read offline
スパース性に基づく機械学習
3.3〜3.4節
機械学習プロフェッショナルシリーズ
@St_Hakky
自己紹介と告知
• Twitter : @St_Hakky
• ブログ:http://st-hakky.hatenablog.com/
• 関西で機械学習勉強会を実施中!!
• 団体のモットー:
• 圧倒的スピード感で大量の書物と論文をぶった切る
• 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる
• 過去のイベント例
• PRML輪講会、PRML上巻/下巻一気読み
• データ解析のための統計モデリング入門の輪講会
• わかりやすいパターン認識(続)の輪講会
• 参加したい方は、Facebookのグループにまずは参加を。
• URL :https://www.facebook.com/groups/1767916400127792/
スパース性に基づく機械学習の
3.3〜3.4節をやります
コンテンツ
• 3.3 : 人口データを用いた説明
• 3.4 : 文献に関する補遺
人口データを用いた説明
• 実際にデータを用いて𝑙1ノルム正則化の効果を示す。
• 効果を示すために、以下を行う
1. パラメータの生成
2. 入力データの生成
3. 出力値の生成
4. 損失関数の設定
データの生成方法
• 𝑑 : 200次元
• 𝒘∗:真の回帰係数ベクトル
• 最初のk=10個の要素が非ゼロで、残りの要素がゼロになるように
ランダムに選ぶ
• 𝑛をサンプル数として、𝑋 ∈ ℝ 𝑛 ×dを次スライドのように生成
する
𝑋 ∈ ℝ 𝑛 ×d
の生成方法
• 𝑋の各列について以下のように処理をする。
• 初めのk列:真の回帰係数ベクトルと直交するベクトルと弱い相関
を持つ正規分布から生成
• 残りのdーk列:相関のない正規分布から生成
出力𝑦の生成方法
• 最後に、出力𝑦を以下の式で生成
• ξ : n次元のベクトルで各要素が独立同一に標準正規分布
𝑁(0,1)に従って生成
損失関数
• 今回の生成モデルでは、𝑖番目のサンプル𝑦𝑖は𝒙𝒊
𝑻
𝒘∗
を平均
とする正規分布に従う。これにより、損失関数は、以下が
考えられる。
比較の対象とする手法
• 比較の対象とする手法は、以下の通りである。
• 𝐿1 (𝑙1ノルム正則化付き最小二乗法)
• 𝐿2 (𝑙2ノルム正則化付き最小二乗法:リッジ回帰)
• 𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• 2𝑠𝑡𝑒𝑝𝑠
• 𝑂𝑝𝑡𝑖𝑜𝑚𝑎𝑙 (二乗回帰モデル)
• 上記の手法についてそれぞれ説明する
𝐿1(𝑙1ノルム正則化付き最小二乗法)
• 𝑙1ノルム正則化付き最小二乗法と等しい
• 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−3~103の区間
を対数線形に20等分した値を候補として用い、この中で得
られた最小の誤差を示す
𝐿2 (𝑙2ノルム正則化付き最小二乗法:リッジ回帰)
• この手法では、以下の最適化問題の解として得られる
• 正則化パラメータはλ = λ0/ 𝑛とし、λ0は10−6~106の区間
を対数線形に20等分した値を候補として用い、この中で得
られた最小の誤差を示す
𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• この手法では、初めにL2の解を得た後、重みベクトル 𝒘の
絶対値の大きい順にk個の係数を残して、残りをゼロに打
ち切る
2𝑠𝑡𝑒𝑝𝑠
• この手法は、各変数𝑗 = 1, … , 𝑑ごとに1変数相関
1/𝑛 𝑖=1
𝑛
𝑦𝑖 𝑥𝑖𝑗を計算し、相関の絶対値の大きい順にk個の
変数を選んだ後、このk変数に対してL2の解を得る
Optiomal (二乗回帰モデル)
• この手法は、初めのk変数だけが回帰に関係すると言うこ
とを事前知識として与えられている二乗回帰モデル。L2と
同様に、𝑙2ノルム正則化を用いる
各手法のテスト誤差の結果
縦軸:訓練データと同分布
からサンプルした1000個
のテスト点に対する平均
二乗誤差
横軸:サンプル数
各手法の結果
• 最も性能が良い:Optimal
• 事前知識として、どの要素が非ゼロであるべきなのか
がわかっているため、当たり前といえば当たり前
• 2番目に性能がいいもの: L1
• L1はいくつの非ゼロ要素があるかも、d=200変数のうち
のどの要素が非ゼロであるかもわかっていないことに
注意
• テスト誤差が最大値の1/2を下回るのはn=50の付近
• これは、理論的に予想される𝑘𝑙𝑜𝑔(𝑑) ≃ 53に近い
各手法の結果
• 3番目に性能が良いもの:2𝑠𝑡𝑒𝑝𝑠と𝐿𝑎𝑟𝑔𝑒𝑠𝑡 − 𝑘
• どちらも非ゼロ要素の数k=10を知っていることを仮定
• 最も性能が悪いもの:L2
• テスト誤差が最大値の1/2を下回るのは、n=200と250
の間
重みベクトルの結果の比較
サンプル数n=150における
真の重みベクトルと描く手
法を用いて得られた重み
ベクトルの比較
重みベクトルの結果の比較
• L2:全ての200変数が非ゼロ要素
• L1:非ゼロ要素70程度
• 予測性能を犠牲にして、大きな正則化パラメータλを選ぶことで、より非
ゼロを減らすことができる
• L1とOptimal:
• 最初の10変数と真のパラメータを比較すると、L1は係数間の大乗関係も
含めてほぼ理想的に推定できている
• 得られた係数はL1の方がやや絶対値が小さい。これは𝑙1ノルムによる推
定バイアスであり、ノルムが非ゼロ要素の数だけでなく、係数の絶対値に
比例することに起因
• Largest-kと2steps:
• 正しい非ゼロ係数を捉えているが、無関係な変数にも反応してい
るため、誤差が大きくなっている。
文献に関する補遺
• 画像処理で著名なRudin[70]によれば𝑙1ノルム最小化の歴
史はガリレオやラプラスに遡る
• 𝑙1ノルム最小化を用いて信号と雑音の分離が可能であるこ
とを示した(Logan [27])
• Logan [27]の論文の核心は「信号とそのフーリエ変換は同時にス
パースになることはない」という点
• DonohoとStarkによって不確定性原理として証明済[27]
文献に関する補遺
• スパース信号の推定のための𝑙1ノルム最小化は地球物理
学、電波天文学など、フーリエ変換と分光法を用いた計測
を行う分野で同時多発的に提案されてきた[54,60,71,74]
• 1990年代には、統計学者のDonoho[17]やTibshirani[78]に
よって整理・体系化
• また、同時期に計算神経科学の分野で有名なOlshausenと
Fieldによるスパースコーディングの研究[61]がある
文献に関する補遺
• 2000年代に入っても以下のような研究が行われて
きました。
• 機械学習の分野(ベイズ理論):Girolami[35],
Tipping[79], Palmer[62]
• 機械学習の分野(サポートベクトルマシン):
Mangasarian[55], Zhu[89]
• 圧縮センシング理論:Candes[10]
• 核磁気共鳴画像法(MRI):Candes[53]
• このように今またスパース性が注目されている
参考文献
• [10] Candès, Emmanuel J., Justin Romberg, and Terence Tao. "Robust
uncertainty principles: Exact signal reconstruction from highly incomplete
frequency information." IEEE Transactions on information theory 52.2 (2006):
489-509.
• http://ieeexplore.ieee.org/document/1580791/?arnumber=1580791&tag=1
• [17] Chen, S. S., D. L. Donoho, and M. A. Saunders. "Atomic decomposition by
basis pursuit: SIA M Journal on Scientific Computing, 20, 33–61." (1998):
S1064827596304010.
• https://web.stanford.edu/group/SOL/papers/BasisPursuit-SIGEST.pdf
• [27] Donoho, David L., and Philip B. Stark. "Uncertainty principles and signal
recovery." SIAM Journal on Applied Mathematics 49.3 (1989): 906-931.
• http://circuit.ucsd.edu/~massimo/ECE287C/Handouts_files/DohonoStark.pdf
参考文献
• [35] Girolami, Mark. "A variational method for learning sparse and
overcomplete representations." Neural computation 13.11 (2001):
2517-2532.
• http://www.mitpressjournals.org/doi/abs/10.1162/089976601753196003#
.WHjLXraLS_A
• [52] Logan, Benjamin Franklin. Properties of high-pass signals. 1965.
• [53] Lustig, Michael, David Donoho, and John M. Pauly. "Sparse MRI:
The application of compressed sensing for rapid MR
imaging." Magnetic resonance in medicine 58.6 (2007): 1182-1195.
• http://onlinelibrary.wiley.com/doi/10.1002/mrm.21391/full
参考文献
• [54] Mammone, R., and G. Eichmann. "Restoration of discrete Fourier
spectra using linear programming." JOSA 72.8 (1982): 987-992.
• https://www.osapublishing.org/josa/abstract.cfm?uri=josa-72-8-987
• [55] Mangasarian, Olvi L. "Generalized support vector
machines." Advances in Neural Information Processing
Systems (1999): 135-146.
• http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.7044&rep=r
ep1&type=pdf
• [60] Oldenburg, D. W., T. Scheuer, and S. Levy. "Recovery of the
acoustic impedance from reflection seismograms." Geophysics 48.10
(1983): 1318-1337.
• http://library.seg.org/doi/abs/10.1190/1.1441413
参考文献
• [62] Palmer, Jason, et al. "Variational EM algorithms for non-Gaussian
latent variable models." Advances in neural information processing
systems. 2005.
• http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2005_803.pdf
• [70] Rudin, Leonid I., Stanley Osher, and Emad Fatemi. "Nonlinear
total variation based noise removal algorithms." Physica D: Nonlinear
Phenomena 60.1 (1992): 259-268.
• http://www.sciencedirect.com/science/article/pii/016727899290242F
• [71] Santosa, Fadil, and William W. Symes. "Linear inversion of band-
limited reflection seismograms." SIAM Journal on Scientific and
Statistical Computing 7.4 (1986): 1307-1330.
• http://epubs.siam.org/doi/abs/10.1137/0907087
参考文献
• [74] Schwarz, U. J. "Mathematical-statistical description of the
iterative beam removing technique (method CLEAN)." Astronomy and
Astrophysics 65 (1978): 345-356
• http://adsabs.harvard.edu/full/1978A%26A....65..345S
• [78] Tibshirani, Robert. "Regression shrinkage and selection via the
lasso." Journal of the Royal Statistical Society. Series B
(Methodological) (1996): 267-288.
• http://www.jstor.org/stable/pdf/2346178.pdf
• [79] Tipping, Michael E. "Sparse Bayesian learning and the relevance
vector machine." Journal of machine learning research 1.Jun (2001):
211-244.
• http://www.jmlr.org/papers/v1/tipping01a.html
参考文献
• [89] Zhu, Ji, et al. "1-norm support vector machines." Advances in
neural information processing systems 16.1 (2004): 49-56.
• https://books.google.co.jp/books?hl=ja&lr=lang_ja%7Clang_en&id=0F-
9C7K8fQ8C&oi=fnd&pg=PA49&dq=1-
norm+support+vector+machines+zhu+rosset+hastie+&ots=THLum0X950&
sig=Jr9HBdtGJuQPb94rbnAQb2VTe3w&redir_esc=y#v=onepage&q=1-
norm%20support%20vector%20machines%20zhu%20rosset%20hastie&f=fals
e
おしまい

More Related Content

More from Hakky St

Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicHakky St
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsHakky St
 
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8Hakky St
 
An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Hakky St
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章Hakky St
 
劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節Hakky St
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節Hakky St
 
強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章Hakky St
 
Reducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networksReducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networksHakky St
 
Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...Hakky St
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章 【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章 Hakky St
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章Hakky St
 
Tensorflow
TensorflowTensorflow
TensorflowHakky St
 
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.Hakky St
 

More from Hakky St (14)

Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
 
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
Hands-On Machine Learning with Scikit-Learn and TensorFlow - Chapter8
 
An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章
 
劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節
 
劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節劣モジュラ最適化と機械学習 2.5節
劣モジュラ最適化と機械学習 2.5節
 
強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章強くなるロボティック・ ゲームプレイヤーの作り方3章
強くなるロボティック・ ゲームプレイヤーの作り方3章
 
Reducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networksReducing the dimensionality of data with neural networks
Reducing the dimensionality of data with neural networks
 
Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...Boosting probabilistic graphical model inference by incorporating prior knowl...
Boosting probabilistic graphical model inference by incorporating prior knowl...
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章 【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル2章
 
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
【機械学習プロフェッショナルシリーズ】グラフィカルモデル1章
 
Tensorflow
TensorflowTensorflow
Tensorflow
 
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
Creating basic workflows as Jupyter Notebooks to use Cytoscape programmatically.
 

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節