SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
Regularization for Deep
Learning 7.1-7.4
Deep Learning輪講会(2017-06-21 Wednesday)
河野 晋策 @lapis_zero09
Regularization and Under-
Constrained Problems
Chap 7.1-7.3
2
Underfitting Overfitting
3
Underfitting Overfitting
訓練誤差大 小
汎化誤差 汎化誤差小大 大
Overfitting
高バリアンス
Underfitting
高バイアス
4
Regularization
• “複雑度”の高いモデル
• 訓練誤差は低い
• 汎化誤差は高い
• 汎化誤差を減らす方法
• より多くのデータの収集(Chap7.4)
• パラメータ数が少ない,単純なモデルを使う
• データの次元数を減らす
• Regularization(正則化)
• モデルの“複雑さ”を制御
Deep Learning book. p.229より抜粋
“the true generation process essentially involves simulating the entire universe”
“we are always trying to fit a square peg into a round hole”
OverfittingOverfitting(過学習)
5
Regularization
• 罰則付き最適化(Chap7.2)
• 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω 𝜽
• 𝐽 𝜽; 𝑿, 𝒚 とΩ 𝜽 両方を最適化したい
例
• 𝐽 𝜽; 𝑿, 𝒚 :年金制度の充実
• Ω 𝜽 :国民の税負担の増加
• トレードオフパラメータ 𝛼 で優先度を決める
元の目的関数 正則化項
回帰
𝐽 𝜽; 𝑿, 𝒚 :訓練誤差を最小化
Ω 𝜽 :”複雑さ”を最小化
6
Regularization
ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω(𝜽)
元の目的関数 正則化項
正則化された目的関数
Memo: ωのpノルム
𝝎 𝑇 = (𝜔1, 𝜔2, … , 𝜔 𝐷)
||𝝎|| 𝑝 = (෍
𝑖=1
𝐷
|𝜔𝑖
| 𝑝
)
1
𝑝
L2ノルム
Ω θ = | 𝝎 |2
L1ノルム
Ω θ = | 𝝎 |1
Maxノルム
Ω θ = | 𝝎 |∞
7
𝐿2Regularization(Chap7.1.1)
• 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚
• L2正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 +
𝛼
2
𝝎 𝑇 𝝎
• L2正則化項
• 𝝎の各要素が大きい値をとると大きくなる→”複雑さ”を抑制
• 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい)
• 微分可能→解析解が求まる(嬉しい)
• 二乗誤差項+L2正則化項 = リッジ回帰
L2ノルム
Ω θ = | 𝝎 |2
L2正則化項
正則化パラメータ
8
𝐿2Regularization(Chap7.1.2)
• 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚
• L1正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 σ𝑖 |𝜔𝑖|
• L1正則化項
• 原点からの遠さに対して線形で罰則
• 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい)
• 原点付近で微分不可能→解析解は求まらない(悲しい)
• 二乗誤差項+L2正則化項 = ラッソ回帰
L2正則化項
正則化パラメータ
L1ノルム
Ω θ = | 𝝎 |1
9
L2 vs L1
• L2の方が嬉しいポイント高いけどなぜL1使うのか
• 特徴量(予測に有用か不明)が大量にある場面:
Q.どうやって特徴選択する?
A.交差検定
特徴量D個とすると,2 𝐷
通りの組み合わせ ➡ 計算量が...
L1正則化はその形状から軸上に解が出やすい
➡自然な特徴選択が可能(嬉しい)
L2正則化L1正則化
➡𝛽1は不要
Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362.
10
ペナルティの最小化
コストの最小化
コスト+ペナルティの最小化
L2 vs L1
• 横軸:最小二乗推定量に対する相
対ノルム
• 縦軸:各特徴量に対する係数ベク
トル
Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362.
特徴選択の観察
• 予測:犯罪率
• 特徴量:アメリカ街別 警察予算,
高校卒業率,大学卒業率など
11
Lassoで特徴選択の仕組み
Lasso Regression: Some Recent Developments. http://www.stat.rutgers.edu/iob/bioconf07/slides/Madigan.pdf
弱 強正則化
Ridge
Lasso
正則化パラメータ 𝛼 = 0
としたときの最適解
原点に直接近づく
ある軸に対して0になってから
原点に近づく 12
Dataset Augmentation
Chap 7.4
13
Dataset Augmentation
• モデルをより一般化するにはより多くのデータで学習するのが
いい
• データの量は限られる ➡ 疑似データを作成
• object recognition領域で有効
• 画像の回転や拡大,etc...
• Vincent et al. Extracting and Composing Robust Features with Denoising Autoencoders. ICML, 2008.
• speech recognition領域で有効
• Jaitly and Hinton. Vocal Tract Length Perturbation (VTLP) improves speech recognition. ICML, 2013.
14
Dataset Augmentation(蛇足な知見)
• Imbalanced Data
• データのクラスに偏りがあって学習が困難なデータ
• 提案手法
• Under-sampling 多いクラスを減らす
• Over-sampling 少ないクラスを増やす(疑似データの生成)
• N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority
over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002.
• He, Haibo, Yang Bai, Edwardo A. Garcia, and Shutao Li. “ADASYN: Adaptive synthetic
sampling approach for imbalanced learning,” In IEEE International Joint Conference on
Neural Networks (IEEE World Congress on Computational Intelligence), pp. 1322-1328,
2008.
• その他 SMOTEの変形など
15
Dataset Augmentation(蛇足な知見)
• Model Compression
• 課題
• データが少ない問題に対して,DeeeeeeepなNNを適用すると過学習する
• 浅いNNだと精度が足りない
• アンサンブルだと精度は出るけど大きいし,遅い
• 提案手法
1. 元データに対してアンサンブルを訓練
2. 元データから大量の正解ラベル無し疑似データを作成
3. 訓練したアンサンブルで疑似データに正解ラベル付け
4. 大量の疑似データでDeeeeeeepNNを訓練 ➡ アンサンブルの近似と同義
• Buciluǎ, Cristian; Caruana, Rich et al. Model compression. ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining. 2006, p. 535-541.
16

Mais conteúdo relacionado

Semelhante a Deep learningbook chap7

ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編Daiyu Hatakeyama
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoSatoshi Kato
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 

Semelhante a Deep learningbook chap7 (20)

ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
GANの基本
GANの基本GANの基本
GANの基本
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 

Deep learningbook chap7

  • 1. Regularization for Deep Learning 7.1-7.4 Deep Learning輪講会(2017-06-21 Wednesday) 河野 晋策 @lapis_zero09
  • 2. Regularization and Under- Constrained Problems Chap 7.1-7.3 2
  • 4. Underfitting Overfitting 訓練誤差大 小 汎化誤差 汎化誤差小大 大 Overfitting 高バリアンス Underfitting 高バイアス 4
  • 5. Regularization • “複雑度”の高いモデル • 訓練誤差は低い • 汎化誤差は高い • 汎化誤差を減らす方法 • より多くのデータの収集(Chap7.4) • パラメータ数が少ない,単純なモデルを使う • データの次元数を減らす • Regularization(正則化) • モデルの“複雑さ”を制御 Deep Learning book. p.229より抜粋 “the true generation process essentially involves simulating the entire universe” “we are always trying to fit a square peg into a round hole” OverfittingOverfitting(過学習) 5
  • 6. Regularization • 罰則付き最適化(Chap7.2) • 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω 𝜽 • 𝐽 𝜽; 𝑿, 𝒚 とΩ 𝜽 両方を最適化したい 例 • 𝐽 𝜽; 𝑿, 𝒚 :年金制度の充実 • Ω 𝜽 :国民の税負担の増加 • トレードオフパラメータ 𝛼 で優先度を決める 元の目的関数 正則化項 回帰 𝐽 𝜽; 𝑿, 𝒚 :訓練誤差を最小化 Ω 𝜽 :”複雑さ”を最小化 6
  • 7. Regularization ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω(𝜽) 元の目的関数 正則化項 正則化された目的関数 Memo: ωのpノルム 𝝎 𝑇 = (𝜔1, 𝜔2, … , 𝜔 𝐷) ||𝝎|| 𝑝 = (෍ 𝑖=1 𝐷 |𝜔𝑖 | 𝑝 ) 1 𝑝 L2ノルム Ω θ = | 𝝎 |2 L1ノルム Ω θ = | 𝝎 |1 Maxノルム Ω θ = | 𝝎 |∞ 7
  • 8. 𝐿2Regularization(Chap7.1.1) • 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚 • L2正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 2 𝝎 𝑇 𝝎 • L2正則化項 • 𝝎の各要素が大きい値をとると大きくなる→”複雑さ”を抑制 • 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい) • 微分可能→解析解が求まる(嬉しい) • 二乗誤差項+L2正則化項 = リッジ回帰 L2ノルム Ω θ = | 𝝎 |2 L2正則化項 正則化パラメータ 8
  • 9. 𝐿2Regularization(Chap7.1.2) • 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚 • L1正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 σ𝑖 |𝜔𝑖| • L1正則化項 • 原点からの遠さに対して線形で罰則 • 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい) • 原点付近で微分不可能→解析解は求まらない(悲しい) • 二乗誤差項+L2正則化項 = ラッソ回帰 L2正則化項 正則化パラメータ L1ノルム Ω θ = | 𝝎 |1 9
  • 10. L2 vs L1 • L2の方が嬉しいポイント高いけどなぜL1使うのか • 特徴量(予測に有用か不明)が大量にある場面: Q.どうやって特徴選択する? A.交差検定 特徴量D個とすると,2 𝐷 通りの組み合わせ ➡ 計算量が... L1正則化はその形状から軸上に解が出やすい ➡自然な特徴選択が可能(嬉しい) L2正則化L1正則化 ➡𝛽1は不要 Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362. 10 ペナルティの最小化 コストの最小化 コスト+ペナルティの最小化
  • 11. L2 vs L1 • 横軸:最小二乗推定量に対する相 対ノルム • 縦軸:各特徴量に対する係数ベク トル Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362. 特徴選択の観察 • 予測:犯罪率 • 特徴量:アメリカ街別 警察予算, 高校卒業率,大学卒業率など 11
  • 12. Lassoで特徴選択の仕組み Lasso Regression: Some Recent Developments. http://www.stat.rutgers.edu/iob/bioconf07/slides/Madigan.pdf 弱 強正則化 Ridge Lasso 正則化パラメータ 𝛼 = 0 としたときの最適解 原点に直接近づく ある軸に対して0になってから 原点に近づく 12
  • 14. Dataset Augmentation • モデルをより一般化するにはより多くのデータで学習するのが いい • データの量は限られる ➡ 疑似データを作成 • object recognition領域で有効 • 画像の回転や拡大,etc... • Vincent et al. Extracting and Composing Robust Features with Denoising Autoencoders. ICML, 2008. • speech recognition領域で有効 • Jaitly and Hinton. Vocal Tract Length Perturbation (VTLP) improves speech recognition. ICML, 2013. 14
  • 15. Dataset Augmentation(蛇足な知見) • Imbalanced Data • データのクラスに偏りがあって学習が困難なデータ • 提案手法 • Under-sampling 多いクラスを減らす • Over-sampling 少ないクラスを増やす(疑似データの生成) • N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002. • He, Haibo, Yang Bai, Edwardo A. Garcia, and Shutao Li. “ADASYN: Adaptive synthetic sampling approach for imbalanced learning,” In IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), pp. 1322-1328, 2008. • その他 SMOTEの変形など 15
  • 16. Dataset Augmentation(蛇足な知見) • Model Compression • 課題 • データが少ない問題に対して,DeeeeeeepなNNを適用すると過学習する • 浅いNNだと精度が足りない • アンサンブルだと精度は出るけど大きいし,遅い • 提案手法 1. 元データに対してアンサンブルを訓練 2. 元データから大量の正解ラベル無し疑似データを作成 3. 訓練したアンサンブルで疑似データに正解ラベル付け 4. 大量の疑似データでDeeeeeeepNNを訓練 ➡ アンサンブルの近似と同義 • Buciluǎ, Cristian; Caruana, Rich et al. Model compression. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006, p. 535-541. 16