PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation)

Pattern Recognition and Machine Learning
5.2.1 – 5.3.3
新田晃大 / 関西学院大学理工学部 / http://www.akihironitta.com / 2018 年 3 月 7 日

2/41
本日の内容
p5.2 ネットワーク訓練
n5.2.1 パラメータ最適化
n5.2.2 局所二次近似
n5.2.3 勾配情報の利用
n5.2.4 勾配降下最適化
p5.3 誤差逆伝播
n5.3.1 誤差関数微分の評価
n5.3.2 単純な例
n5.3.3 逆伝播の効率

5.2.1 パラメータ最適化
pp. 237-238

4/41
パラメータ最適化（誤差関数最小化）
誤差関数 ( )E w
重み空間での変化 dw
誤差関数の変化
T
( )E Ed d= Ñw w
目標
誤差関数を最小にする w を見つける
現実
誤差関数は w に関して高い非線形
-> の点は数多い
図 5.5
( ) 0EÑ =w

5/41
最小点と極小点
を満たす点
Ø 極小点
Ø 極大点
Ø 鞍点
( )EÑ =w 0
重み空間には多数存在
最小点かどうかわからない
最小値に相当する極小点：大域的最小点
それ以外の極小点：局所的最小点
解析的な解ほぼ無理 → 反復手順で近似解を求める
誤差関数は非線形性が高い
1) ( ) (( )t t t+
= + Dww w

6/41
連続な非線形関数の最適化
反復回目の更新量
1) ( ) (( )t t t+
= + Dww w
( )t
Dwt
更新式
多くのアルゴリズムで，勾配情報を利用
どの方向にどれだけ進むか

5.2.2 局所二次近似
pp. 238-240

8/41
局所二次近似
の周りで誤差関数を二次近似
1) ( ) (( )t t t+
= + Dww w
ヘッセ行列（対称行列）
T T1
ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w w!
ˆ( ) ( )EÑ + -w b H w w!
勾配の局所近似
ˆw
( )
ˆ
ij
i j
E
E
w w
=
¶
º
º Ñ
¶ ¶
w w
b
H
図 2.7
（これならわかる最適化数学）

9/41
極小点で局所二次近似
極小点の周りで誤差関数二次近似wÂ
T T1
( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w wÂ Â Â Â
!
i i il=Hu u
ヘッセ行列の固有方程式
T
i j ijd=u u
ヘッセ行列は対称行列であるから，固有ベクトルは完全正規直交系をなす
固有ベクトルの線形和に展開
i i
i
a- = åw w uÂ
{ }iu

10/41
極小点で局所二次近似
極小点の周りで誤差関数二次近似wÂ
T
T
T
T
2
1
( ) ( ) ( ) ( )
2
1
( )
2
1
( )
2
1
( )
2
1
( )
2
i i j j
i j
i i j j
i j
i i j j j
i j
i i
i
E E
E
E
E
E
a a
a a
a a l
la
+ - -
æ öæ ö
= + ç ÷ç ÷
è ø è ø
æ ö
= + ç ÷
è ø
æ ö
= + ç ÷
è ø
= +
å å
å å
å å
å
w w w w H w w
w u H u
w u Hu
w u u
w
Â Â Â
Â
Â
Â
Â
!
座標変換
p 原点を極小値に平行移動
p 各軸を固有ベクトルに合わせ回転
・・・（5.36）
( )T
= -α U w wÂ
T 2 2
1 1 n nla l aL = + +α α !

11/41
正定値
行列 H は正定値
p すべてのに対して
p すべての固有値が正
( )T 2
1
T T
i
i
i
n
c
l
l
l
æ ö
ç ÷
= = =ç ÷
ç ÷
è ø
åv Hv Uc HUc c c!
¹v 0 T
0>v Hv
二次形式（係数行列 H）
正規直交系をなす固有ベクトル
{ }1 ,, nu u!
任意のベクトル v
i i
i
c= = åv Uc u
( )1 n=U u u!
直交行列

12/41
極小点か？
重み空間が1次元
重み空間がD次元
2
2
0
w
E
w
¶
>
¶ Â
0H !
停留点 ,w wÂ Â
なら極小点
なら極小点

5.2.3 勾配情報の利用
p. 240

14/41
二次近似の独立要素数
ネットワーク中の適応パラメータの総数
（パラメータ w の次元）
( 3)
2
W W +
W
T T1
ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) ( )
2
E E + - + - -w w w w b w w H w w!
独立な要素数
2
2
W W
W
-
+
ある点での誤差関数の二次近似
W
2
( )O W
Ex. 5.13
a
b
c
æ ö
ç ÷
ç ÷
ç ÷
è ø
! "
! #
" #
W
W

15/41
計算量の話
二次近似の極小値を求めたい．
独立なパラメータ数 2
( )O Wb と H 求めればよい．
勾配情報利用しない．
• O(W2) 個の点で関数評価
• 関数評価（順伝播）：O(W)
• 極小点見つける： O(W3)
勾配情報を利用する．
• 勾配を評価するごとに W 個の情報を得る
• O(W) 回の勾配の評価で極小点を見つけれることが期待
• 各勾配の評価（backprop）は O(W) ステップ
• 極小点見つける： O(W2)

5.2.4 勾配降下最適化
pp. 241-242

17/41
重み更新の手法
1) ( )( ( )
( )Et t t
h+
= - Ñ ww w
重みの更新（最急降下法）
学習率（learning rate）
0h >
各種手法
u勾配降下法（最急降下法）
• 単純
• 性能悪い
u共役勾配法（CG法）
• 要ヘッセ行列
u（準）ニュートン法
• ２次収束
• 要逆ヘッセ行列 <- 準では不要
u確率的（逐次的）勾配降下法（SGD）
• 勾配降下法のオンライン版
1 1 1
10 100 10000
® ®
共役勾配法
勾配降下法
ニュートン法

18/41
バッチサイズ
データセットのサイズ：N
バッチサイズ：𝑠𝑖𝑧𝑒
バッチ毎に重み更新
“いくつかのデータ点を１まとめにした中間的なシナリオ” => ミニバッチ学習
バッチ学習
Ø 𝑠𝑖𝑧𝑒 = 𝑁
Ø GD ミニバッチ学習
Ø 𝑠𝑖𝑧𝑒 = n < N
Ø SGD
オンライン学習
Ø 𝑠𝑖𝑧𝑒 = 1
Ø SGD

19/41
オンライン手法とバッチ手法
オンライン手法の利点
1. データの冗長度を効率的に扱える．
2. 極小値を回避できる可能性がある．

20/41
2
1 1
ˆ( ) ( ) 2 ( )
2 ( )
N N
n n
n n
E E E
E
= =
= =
=
å åw w w
w
例：データ点を複製し，サイズを倍に．
バッチ手法
同じ結果（計算量2倍になっただけ）
オンライン手法
同じ結果にはならない
…誤差関数
バッチ
オンライン
ミニバッチ
Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization (deeplearning.ai)
Week 2, Understanding mini-batch gradient descent
[https://www.coursera.org]

21/41
すべてのデータ集合に対する停留点は，
個々のデータに対しては一般に停留点ではないから．
バッチ
オンライン
ミニバッチ

5.3 誤差逆伝播
pp. 242-243

23/41
誤差逆伝播とは
昔からの目標
誤差をより小さくするような重みを求めること
→ 方法：誤差逆伝播（error backpropagation または単に backprop）
STAGE 1
重みに関する微分を評価
ここでの目標
フィードフォワードNNの誤差関数の勾配を効率よく求めること
STAGE 2
微分を用いて重み更新
1) ( )( ( )
( )Et t t
h+
= - Ñ ww w( )
( )E t
Ñ w

5.3.1 誤差関数微分の評価
pp. 243-246

25/41
誤差関数
誤差関数：各データに対応する誤差の和
1 2
1
( ) ( ) ( ) ( ) ( )
N
N n
n
E E E E E
=
= + + + = åw w w w w!
21
( )
2
n nk nk
k
E y t= -å
入力データ xn に対する誤差関数
オンライン手法 → そのまま使う
バッチ手法 → すべてのデータ点に対する勾配の和を取る
( , )nk k ny y= x w
の評価を考える．nEÑ
入力データ xn に対する予測値の第k要素
1) ( ) ( ) ( ) ( )
1 2
(
( ( ) ( ) ( ))NE E Et t t t t
h+
= - Ñ + Ñ + + Ñw w ww w!
1) ( ) )( (
( )nEt t t
h+
= - Ñ ww w

26/41
誤差関数の勾配（シンプルなモデル）
1x
Nx
ix
Ky
jy
1y
jiw
1iw
Kiw
k ki i
i
y w x= å
2
2 21 1 1
( ) ( ( , ) )
2 2 2
n nk nk k n nk ki i nk
k k k i
E y t y t w x t
æ öé ù
= - = - = -ç ÷ê ú
ë ûè ø
å å å åx w
誤差関数
勾配
( )n
nj nj ni
ji
E
y t x
w
¶
= -
¶ 誤差信号と入力の積
Kt
jt
1t
誤差信号
入力
出力は入力の線形和

27/41
正準連結関数と誤差関数 (4.3.6)
k k
k
E
y t
a
¶
= -
¶
k k
k
E
y t
a
¶
= -
¶
k k
k
E
y t
a
¶
= -
¶
Hanafusa さんのスライドより

28/41
順伝播（forward propagation）
j ji i
i
a w z= å
( )j jz h a=
各ユニットでの計算
いくつかは入力であり得る
いくつかは出力であり得る
順伝播

29/41
誤差逆伝播 1/3
n
j
j
E
a
d
¶
º
¶
jn n
j i
ji j ji
aE E
z
w a w
d
¶¶ ¶
= =
¶ ¶ ¶
j
i
ji
a
z
w
¶
=
¶
重みに関する微分（偏微分の連鎖法則）
誤差
j ji i
i
a w z= å重み wji に関する微分 = 誤差 x 入力側のユニットの値
出力活性化関数が
正準連結関数なら
メモ
n
k
k ky t
E
a
¶
= = -
¶
( )j jz h a=

30/41
誤差逆伝播 2/3
n n k
j
kj k j
E E a
a a a
d
¶ ¶ ¶
º =
¶ ¶ ¶
å
誤差
aj を変えると akを通して
En がどう変化するか
1
1
k
j k j
n n n
j
E E E
a
aa
a a a a
¶ ¶ ¶ ¶
= +
¶ ¶ ¶
+
¶
¶ ¶
!
連鎖法則
( )j j
z h a=
出力ユニットの入力からの影響の総和
1
1
n
j
a
a
E
a
¶ ¶
¶ ¶
k
k
n
j
a
a
E
a
¶ ¶
¶ ¶
aj を変えると a1を通して
En がどう変化するか

31/41
誤差逆伝播 3/3
逆伝播公式
n
j
j
E
a
d
¶
º
¶
( ) k
k
kj j jh a wd d¢= å
( )
( )
( )
n
j
j
n k
k k j
k ki i
k ij
k ki i
k ij
k kj j
k j
k kj j
k
E
a
E a
a a
w z
a
w h a
a
w h a
a
w h a
d
d
d
d
d
¶
º
¶
¶ ¶
=
¶ ¶
æ ö¶
= ç ÷ç ÷¶è ø
æ ö¶
= ç ÷ç ÷¶è ø
æ ö¶
= ç ÷ç ÷¶è ø
¢=
å
å å
å å
å
å
j ji i
i
a w z= å
( )j j
z h a=
…（5.56）
…（5.56）
…（5.49）
…（5.48）
…（5.51）
上流のユニットからの誤差

32/41
全体の誤差の微分
n
nji ji
EE
w w
¶¶
=
¶ ¶
å
すべてのパターンについての微分の和を取ることで得られる．

33/41
各ユニットが異なる活性化関数を持つ
逆伝播公式
( )j j kj k
k
h a wd d¢= å
どのレイヤーの，どのユニットに，どんな活性化関数を用いるかに注意すればよい．

34/41
誤差逆伝播アルゴリズム
1. 適当にパラメータの初期値を設定する．
全てのユニットの出力を求める．（順伝播）
2. 全ての出力ユニットの誤差を求める．
3. 全ての隠れユニットの誤差を求める．（逆伝播公式）
4. 必要な微分を評価する．
jn n
j i
ji j ji
aE E
z
w a w
d
¶¶ ¶
= =
¶ ¶ ¶
( )j j kj k
k
h a wd d¢= å
正準連結関数なら
n
k k k
k
E
y t
a
d
¶
= = -
¶

5.3.2 単純な例
pp. 246-247

36/41
簡単な例
隠れユニットの活性化関数
( ) tanh( )
a a
a a
h a a
e e
e e
-
-
º
-
=
+
出力ユニットの活性化関数
k ky a=
2
( ) 1 ( )h a h a¢ = -
2
1
1
( )
2
K
n k k
k
E y t
=
= -å
二乗和誤差関数

37/41
順伝播と逆伝播
(1)
0
(2)
0
tanh( )
D
j ji i
i
j j
M
k kj j
j
a w x
z a
y w z
=
=
=
=
=
å
å
逆伝播
(1)
n
j i
ji
E
x
w
d
¶
=
¶
(2)
n
k j
kj
E
z
w
d
¶
=
¶
順伝播
k k ky td = -
2
1
(1 )
K
j j kj k
k
z wd d
=
= - å
第1層との重みに関する微分
第2層との重みに関する微分

5.3.3 逆伝播の効率
pp. 247-248

39/41
逆伝播の効率
ネットワークの重みとバイアスの総数 W
ある入力パターンに対し誤差関数を評価 ( )O W
活性化関数の評価は小さなオーバーヘッド
Ø たかだかユニット数のオーダ
Ø 一般に，ユニット数 << 重み数 W ：1回の積演算，1回の和演算
：活性化関数の評価
順伝播に ( )O W
順伝播

40/41
逆伝播の代わり
前進差分
中心差分
( ) ( )
( )
n ji n jin
ji
E w E wE
O
w
+ -¶
= +
¶
Ú
Ú
Ú
2
( ) ( )
( )
2
n ji n jin
ji
E w E wE
O
w
+ - -¶
= +
¶
Ú Ú
Ú
Ú
→ 数値微分は，誤差逆伝播が正しく実装されているかのチェックに使う．
( )O W順伝播
回繰り返しW
数値微分
計算量
2
( )O W
誤差逆伝播
計算量 ( )O W
vs.
前進差分中⼼差分
精度△ 精度◎
倍の計算

PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation)

Semelhante a PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation) (20)

Mais de Akihiro Nitta

Mais de Akihiro Nitta (6)

Último

Último (9)

PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropagation)