SlideShare uma empresa Scribd logo
1 de 58
田中正行
東京工業大学
Restricted Boltzmann Machinesの
基礎と実装
~RBMを応用した事前学習とDNN学習~
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
1
実行はできるけど中身はわからない.
理論的バックグランドがわかった!
ディープラーニングの例
2
– MNIST (handwritten digits benchmark)
MNIST
 文字認識のベンチマークでトップ
ディープラーニングの例
3
CIFAR10
– CIFAR (image classification benchmark)
 画像認識のベンチマークでトップ
ディープラーニングの例
4
Convolution
Pooling
Softmax
OtherGoogLeNet, ILSVRC2014
Image Large Scale Visual Recognition Challenge
(ILSVRC)
 画像認識のベンチマークでトップ
ディープラーニングの例
5
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/uns
upervised_icml2012.pdf
YouTubeの映像を学習データとして与えると,
人の顔に反応するニューロン
ネコの顔に反応するニューロン
などを自動的に獲得
1000万枚の学習データ
1000台のPCで3日間学習
5
 ネコ細胞の自動生成
そもそも何がディープ?
6
入力層
出力層
(通常の)NN
入力層
出力層
ディープNN
NN:ニューラルネットワーク
ディープNNのメリット・デメリット
7
入力層
出力層
ディープネットワーク 数年前までは...
1. 過学習が起きやすい
2. 下層まで学習情報が伝わらない
・RBMに基づく事前学習
・膨大なデータ
Image net
約1500万枚のラベル付画像
http://www.image-net.org/
Labeled Faces in the Wild
1万枚以上の顔画像
http://vis-www.cs.umass.edu/lfw/
表現能力の高い,
高性能なネットワーク
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
8
単層ニューラルネットワーク(NN)の入出力
9
入力層
𝑣1 𝑣2 𝑣3
ℎ
出力層
𝑤1 𝑤2 𝑤3
ℎ = 𝜎
𝑖
𝑤𝑖 𝑣𝑖 + 𝑏
𝜎 𝑥 =
1
1 + 𝑒−𝑥
シグモイド関数
0.0
0.2
0.4
0.6
0.8
1.0
-6.0
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
 単数ノード出力
 複数ノード出力(単層NN)
𝒉出力層
入力層 𝒗
ℎ𝑗 = 𝜎
𝑖
𝑤𝑖𝑗 𝑣𝑖 + 𝑏𝑗
𝒉 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
単層NNのベクトル表現
RBMの
推論モデルと等価
重み和と活性化関数
10
入力層
𝑣1 𝑣2 𝑣3
ℎ 出力層
𝑤1 𝑤2 𝑤3
𝑛
𝑓
ℎ = 𝑓 𝑛
𝑛 =
𝑖
𝑤𝑖 𝑣𝑖 + 𝑏
入力層
𝑣1 𝑣2 𝑣3
ℎ
出力層
𝑤1 𝑤2 𝑤3
ℎ = 𝑓
𝑖
𝑤𝑖 𝑣𝑖 + 𝑏
𝑓 𝑥 = 𝜎 𝑥 =
1
1 + 𝑒−𝑥シグモイド関数
0.0
0.2
0.4
0.6
0.8
1.0
-6.0
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
活性化関数の例
0.0
1.0
2.0
3.0
4.0
5.0
6.0
-6.0
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
リクティファイドリニア関数
𝑓 𝑥 = ReLU 𝑥 =
0 (𝑥 < 0)
𝑥 (𝑥 ≥ 0)
単層NNからディープNN
11
単層NNを積み上げて,ディープNNは構成される
第1層NN
第2層NN
第k層NN
出力データ
入力データ
単層NNを積み上げて,
各層NNの推論を繰り返すことにより
ディープNNの推論は行われる.
ディープNNのパラメータ推定
12
単層NNを積み上げて,ディープNNは構成される
第1層NN
第2層NN
第k層NN
教師データ
入力データ
教師データとの誤差を評価関数として
勾配降下法によりパラメータを求める.
x
y
x0
x1
x2
誤差逆伝搬法
13
単層NNを積み上げて,ディープNNは構成される
第1層NN
第2層NN
第k層NN
教師データ
入力データ
誤差逆伝搬法:
教師データとの誤差を,
入力層の方へ逆に伝搬させながら,
パラメータに関する勾配を求める.
教師データとの誤差を評価関数として
勾配降下法によりパラメータを求める.
事前学習の必要性
14
第1層NN
第2層NN
第k層NN
誤差逆伝搬(バックプロパゲーション)法は
教師データとの誤差を,最終層から逆に伝
搬しながら,学習を行う方法である.
しかし,ディープNNでは,途中で誤差が拡
散してしまい,深い層までは誤差が伝搬さ
れない.
教師データ
深い層(第1層,第2層,...)は,
教師データを使わずに,予め学習しておき
たい!
RBMに基づく事前学習!
入力データ
RBMに基づく事前学習
15
第1層NN
第2層NN
第k層NN
入力データ
単層NN
RBM
データ
単層NNは,形式的にRBMと
解釈することもできる
与えられたデータに対するRBMのパラメータを
最尤推定に基づく推定する
事前学習から全体学習へ
16 学習データ
出力データ
第1層RBMに
基づく事前学習
学習データ
出力データ
第2層RBMに
基づく事前学習
入力データ
教師データ 誤差
逆伝搬
copy
copy
copy
ディープNNの全体学習
RBMに基づく事前学習
特徴量として利用する場合
17 学習データ
出力データ
第1層RBMに
基づく事前学習
学習データ
出力データ
第2層RBMに
基づく事前学習
入力データ
特徴量
copy
copy
copy
RBMに基づく事前学習
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
18
ニューラルネットワークの誤差逆伝搬法
19 入力データ
教師データ
誤差
逆伝搬
出力データ
𝒉 = 𝜎 𝑾 𝑇 𝒗 + 𝒃単層NNのベクトル表現
学習の目的:
出力データと教師データが一致するように
各層の重みWとバイアスbを設定する.
𝐼 =
1
2
𝑘
ℎ 𝑘
(𝐿)
− 𝑡 𝑘
2
評価関数:
勾配法:
評価関数に関する勾配 に基づき設定する
𝜕𝐼
𝜕𝑾(ℓ)
誤差逆伝搬法は,勾配を効率的に計算する方法
誤差逆伝搬法:シグモイド関数の微分
20
𝜎 𝑥 =
1
1 + 𝑒−𝑥
 シグモイド関数  シグモイド関数の微分
𝜕𝜎
𝜕𝑥
= 1 − 𝜎 𝑥 𝜎(𝑥)
 シグモイド関数の微分の導出
𝜕𝜎
𝜕𝑥
=
𝜕
𝜕𝑥
1
1 + 𝑒−𝑥
= −
1
1 + 𝑒−𝑥 2
× −𝑒−𝑥 =
𝑒−𝑥
1 + 𝑒−𝑥 2
=
𝑒−𝑥
1 + 𝑒−𝑥
×
1
1 + 𝑒−𝑥
= 1 −
1
1 + 𝑒−𝑥
1
1 + 𝑒−𝑥
= (1 − 𝜎 𝑥 )𝜎 𝑥
誤差逆伝搬法:準備
21
 複数ノード出力(単層NN)
𝒉出力層
入力層 𝒗
ℎ𝑗 = 𝜎
𝑖
𝑤𝑖𝑗 𝑣𝑖 + 𝑏𝑗
𝒉 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
単層NNのベクトル表現
𝑾′ =
𝑾
𝒃 𝑇 𝒗′ =
𝒗
1
𝒉 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
= 𝜎 𝑾′ 𝑇 𝒗′
表記の簡単のため,
以後,重みだけを考える
𝒉 = 𝜎 𝑾 𝑇 𝒗
2層ネットワーク
22
ℎ 𝑘
(2)
= 𝜎(𝑛 𝑘
2
)
𝑛 𝑘
2
=
𝑗
𝑤𝑗𝑘
(2)
ℎ𝑗
(1)
ℎ𝑗
(1)
= 𝜎(𝑛𝑗
1
)
𝑛𝑗
1
=
𝑖
𝑤𝑖𝑗
(1)
𝑣𝑖
𝑣1 𝑣2 𝑣𝑖
𝑛1
(1)
𝜎 𝜎 𝜎
𝑤𝑖𝑗
(1)
𝑛2
(1)
𝑛𝑗
(1)
ℎ1
(1)
ℎ2
(1)
ℎ𝑗
(1)
𝑛1
(2)
𝜎 𝜎 𝜎
𝑛2
(2)
𝑛 𝑘
(2)
ℎ1
(2)
ℎ2
(2)
ℎ 𝑘
(2)
第
1
層
第
2
層
𝑤𝑗𝑘
(2)
𝑡1 𝑡2 𝑡 𝑘
教
師
入力層
𝑣1 𝑣2 𝑣3
ℎ
出力層
𝑤1 𝑤2 𝑤3 ℎ = 𝜎
𝑖
𝑤𝑖 𝑣𝑖
入力層
𝑣1 𝑣2 𝑣3
ℎ 出力層
𝑤1 𝑤2 𝑤3
𝑛
𝜎
ℎ = 𝜎 𝑛
𝑛 =
𝑖
𝑤𝑖 𝑣𝑖
活性化関数と重みを分離して考える
2層ネットワークの誤差逆伝搬法
23
ℎ 𝑘
(2)
= 𝜎(𝑛 𝑘
2
)
𝑛 𝑘
2
=
𝑗
𝑤𝑗𝑘
(2)
ℎ𝑗
(1)
ℎ𝑗
(1)
= 𝜎(𝑛𝑗
1
)
𝑛𝑗
1
=
𝑖
𝑤𝑖𝑗
(1)
𝑣𝑖
𝑣1 𝑣2 𝑣𝑖
𝑛1
(1)
𝜎 𝜎 𝜎
𝑤𝑖𝑗
(1)
𝑛2
(1)
𝑛𝑗
(1)
ℎ1
(1)
ℎ2
(1)
ℎ𝑗
(1)
𝑛1
(2)
𝜎 𝜎 𝜎
𝑛2
(2)
𝑛 𝑘
(2)
ℎ1
(2)
ℎ2
(2)
ℎ 𝑘
(2)
第
1
層
第
2
層
𝑤𝑗𝑘
(2)
𝑡1 𝑡2 𝑡 𝑘
教
師 𝐼 =
1
2
𝑘
ℎ 𝑘
(2)
− 𝑡 𝑘
2
評価関数:
𝜕𝐼
𝜕𝑤𝑗𝑘
(2)
=
𝜕𝐼
𝜕𝑛 𝑘
(2)
𝜕𝑛 𝑘
(2)
𝜕𝑤𝑗𝑘
(2)
= 𝛿 𝑘
(2)
ℎ𝑗
(1)
𝛿 𝑘
(2)
=
𝜕𝐼
𝜕𝑛 𝑘
(2)
=
𝜕𝐼
𝜕ℎ 𝑘
(2)
𝜕ℎ 𝑘
(2)
𝜕𝑛 𝑘
(2)
= (ℎ 𝑘
(2)
− 𝑡 𝑘) ℎ 𝑘
2
(1 − ℎ 𝑘
2
)
𝜕𝐼
𝜕𝑤𝑖𝑗
(1)
=
𝜕𝐼
𝜕𝑛𝑗
(1)
𝜕𝑛𝑗
(1)
𝜕𝑤𝑖𝑗
(1)
= 𝛿𝑗
(1)
𝑣𝑖
𝛿𝑗
(1)
=
𝜕𝐼
𝜕𝑛𝑗
(1)
=
𝑘
𝜕𝐼
𝜕𝑛 𝑘
(2)
𝜕𝑛 𝑘
(2)
𝜕ℎ𝑗
(1)
𝜕ℎ𝑗
(1)
𝜕𝑛𝑗
(1)
= 𝑘 𝛿 𝑘
(2)
𝑤𝑗𝑘
(2)
ℎ𝑗
1
(1 − ℎ𝑗
1
)
ここが誤差逆伝搬
誤差逆伝搬法
24
𝒉(ℓ−1)
𝑾(ℓ)
𝒏(ℓ) 𝒏(ℓ)
= 𝑾 ℓ T
𝒉(ℓ−1)
𝒇(ℓ)
𝒉(ℓ) = 𝒇(ℓ) 𝒏(ℓ)𝒉(ℓ)
𝑾(ℓ+1)
𝜹(ℓ) = 𝑾(ℓ+1) 𝜹(ℓ+1) ⊗
𝜕𝑓(ℓ)
𝜕𝒏(ℓ)
𝜕𝐼
𝜕𝑾(ℓ) = 𝜹(ℓ)
𝒉 ℓ−1 T
⊗:項別積
𝜹(ℓ+1) = 𝑾(ℓ+2) 𝜹(ℓ+2) ⊗
𝜕𝑓(ℓ+1)
𝜕𝒏(ℓ+1)
𝜕𝐼
𝜕𝑾(ℓ+1) = 𝜹(ℓ+1) 𝒉 ℓ1 T
𝜹(ℓ−1) = 𝑾(ℓ) 𝜹(ℓ) ⊗
𝜕𝑓(ℓ−1)
𝜕𝒏(ℓ−1)
𝜕𝐼
𝜕𝑾(ℓ−1) = 𝜹(ℓ−1) 𝒉 ℓ−2 T
シグモイド関数と
誤差逆伝搬法は
直接関係はない
勾配計算のデバッグTIP
25
𝐼(𝜽) =
1
2
𝑘
ℎ 𝑘
𝐿
(𝒗; 𝜽) − 𝑡 𝑘
2
𝜕𝐼
𝜕𝜃𝑖
評価関数
誤差逆伝搬法により
計算された勾配
𝜕𝐼
𝜕𝜃𝑖
= lim
𝜀→0
𝐼 𝜽 + 𝜀𝟏𝑖 − 𝐼 𝜽
𝜀
𝟏𝑖:i番目の要素が1,他は0
∆𝑖 𝐼 =
𝐼 𝜽 + 𝜀𝟏𝑖 − 𝐼 𝜽
𝜀
計算効率高い
実装難しい
計算効率低い
実装容易
勾配の定義式
差分による近似勾配
十分𝜀が小さければ,∆𝑖 𝐼 ≑
𝜕𝐼
𝜕𝜃𝑖
確率的勾配降下法(ミニバッチ学習)
26
{ 𝒗, 𝒕 1, 𝒗, 𝒕 2, ⋯ , 𝒗, 𝒕 𝑛 ⋯ , 𝒗, 𝒕 𝑁 }
N個の学習データを用いて,ディープNNのパラメータ𝜽を学習する
𝒗, 𝒕 𝑛に対応する評価関数:𝐼 𝑛(𝜽)
N個の学習データに対応する評価関数:𝐼 𝜽 = 𝑛 𝐼 𝑛(𝜽)
𝒗, 𝒕 7
𝒗, 𝒕 10
𝒗, 𝒕 1
𝒗, 𝒕 2
𝒗, 𝒕 3
𝒗, 𝒕 4
𝒗, 𝒕 11𝒗, 𝒕 5
𝒗, 𝒕 6
𝜽 ← 𝜽 − 𝜂
𝜕𝐼
𝜕𝜽𝒗, 𝒕 7
𝒗, 𝒕 9𝒗, 𝒕 2
𝒗, 𝒕 11
サンプリング
𝒗, 𝒕 6
𝒗, 𝒕 10𝒗, 𝒕 3
𝒗, 𝒕 12
𝒗, 𝒕 9
𝜽 ← 𝜽 − 𝜂
𝜕𝐼
𝜕𝜽
サンプリング𝒗, 𝒕 12
𝒗, 𝒕 8
過学習をさけるため,
ミニバッチ毎にパラメータを更新
全学習データ
実際のパラメータ更新則
27
G. Hinton,
A Practical Guide to Training
Restricted Boltzmann Machines 2010.
ミニバッチのサイズ:10~100
学習率𝜂:経験的に決める
重み減衰係数𝜆:0.01 ~ 0.00001
モーメンタム係数𝜈:0.9 (最初0.5)
𝜃(𝑡+1) = 𝜃(𝑡) + ∆𝜃(𝑡)
∆𝜃(𝑡)
= −𝜂
𝜕𝐼
𝜕𝜃
− 𝜆𝜃(𝑡)
+ 𝜈∆𝜃(𝑡−1)
パラメータ更新則
勾配 重み減衰 モーメンタム
重み減衰:
(特に活性化関数がシグモイドの場合,)
不必要に重み係数が発散することを防ぐ
モーメンタム:
不必要な更新量の振動を防ぐ.
共役勾配と似たような効果が期待される.
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
28
Restricted Boltzmann Machines
29
 ボルツマンマシン(Boltzmann Machines)
無向グラフ(ノードとエッジ)によって表現される状態の確率モデル.
ここでは,ノードの状態として,{0,1}のバイナリ状態を考える.
 (制約無)ボルツマンマシンと制約付ボルツマンマシン(RBM)
v:visible layer
h:hidden layer
v:visible layer
h:hidden layer
• (制約無)ボルツマンマシン • 制約付ボルツマンマシン(RBM)
全てのノードが接続 同一レイヤー内の接続無し
これにより,解析が容易になる!
RBMの確率モデルとエネルギーモデル
30
v:visible layer {0,1}
h:hidden layer {0,1}
RBMの確率モデル 𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
RBMのパラメータθ
重みW
バイアス b,c
RBMのエネルギーモデル 𝐸 𝒗, 𝒉; 𝜽 = −
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 −
𝑗
𝑏𝑗ℎ𝑗 −
𝑖
𝑐𝑖 𝑣𝑖
= −𝒗 𝑇 𝑾𝒉 − 𝒃 𝑇 𝒉 − 𝒄 𝑇 𝒗
分配関数
(Partition function)
𝑍 𝜽 =
𝒗,𝒉∈{0,1}
exp(−𝐸(𝒗, 𝒉; 𝜽))
=
𝑖 exp(𝑐𝑖 𝑣𝑖) 𝑗 exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
𝑖 exp(𝑐𝑖 𝑣𝑖) 𝑗 ℎ 𝑗∈{0,1} exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
RBMの条件付確率モデル(推論モデル)
31
v:visible layer {0,1}
h:hidden layer {0,1}
𝑃 𝒉 𝒗; 𝜽 =
𝑃 𝒗, 𝒉; 𝜽
𝒉∈{0,1} 𝑃 𝒗, 𝒉; 𝜽
=
exp( 𝑖,𝑗 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑗 𝑏𝑗ℎ𝑗 + 𝑖 𝑐𝑖 𝑣𝑖)
𝒉∈{0,1} exp( 𝑖,𝑗 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑗 𝑏𝑗ℎ𝑗 + 𝑖 𝑐𝑖 𝑣𝑖)
条件付確率はノード毎に独立である
𝑃 ℎ𝑗 𝒗; 𝜽 =
exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
ℎ 𝑗∈{0,1} exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
=
𝑗
exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
ℎ 𝑗∈{0,1} exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
=
𝑗
𝑃(ℎ𝑗|𝒗; 𝜽)
𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
𝐸 𝒗, 𝒉; 𝜽 = −
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 −
𝑗
𝑏𝑗ℎ𝑗 −
𝑖
𝑐𝑖 𝑣𝑖
= −𝒗 𝑇
𝑾𝒉 − 𝒃 𝑇
𝒉 − 𝒄 𝑇
𝒗
RBMの条件付確率モデル(推論モデル)
32
v:visible layer {0,1}
h:hidden layer {0,1}
𝑃 ℎ𝑗 𝒗; 𝜽 =
exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
ℎ 𝑗∈{0,1} exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 + 𝑏𝑗ℎ𝑗)
𝑃 ℎ𝑗 = 1 𝒗; 𝜽 =
exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗 × 1 + 𝑏𝑗 × 1)
exp 𝑖 𝑣𝑖 𝑤𝑖𝑗 × 0 + 𝑏𝑗 × 0 + exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗 × 1 + 𝑏𝑗 × 1)
𝜎 𝑥 =
1
1 + 𝑒−𝑥
=
exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗 + 𝑏𝑗)
exp 0 + exp( 𝑖 𝑣𝑖 𝑤𝑖𝑗 + 𝑏𝑗)
=
1
1 + exp(− 𝑖 𝑣𝑖 𝑤𝑖𝑗 + 𝑏𝑗)
= 𝜎
𝑖
𝑣𝑖 𝑤𝑖𝑗 + 𝑏𝑗
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
𝑃 𝒗 = 𝟏 𝒉; 𝜽 = 𝜎 𝑾𝒉 + 𝒄 𝒉 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
単層NNのベクトル表現
ガウシアン分布のためのRBM
33
v:visible layer {0,1}
h:hidden layer {0,1}
ベルヌーイ・ベルヌーイRBM ガウシアン・ベルヌーイRBM
v:visible layer
ガウス分布𝑁(𝑣; 𝜇, 𝑠2
)
h:hidden layer {0,1}
𝑃 𝒗, 𝒉 =
1
𝑍(𝜽)
exp −𝐸 𝒗, 𝒉
ガウシアン・ベルヌーイRBM
𝐸 𝒗, 𝒉 =
1
2𝑠2
𝑖
𝑣𝑖 − 𝑐𝑖
2 −
1
𝑠
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑖 −
𝑗
𝑏𝑗ℎ𝑗
確率モデル:
推論モデル:
(条件付確率)
𝑃 𝒉 = 𝟏 𝒗 = 𝜎
1
𝑠
𝑾 𝑇 𝒗 + 𝒃
𝑃 𝒗 𝒉 = 𝑵 𝒗; 𝜎𝑾𝒉 + 𝒄, 𝑠2
𝑰
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
34
RBMのCD学習
35
𝒗(0)
𝒉(0)
𝒗(1)
𝒉(1)
𝒉(0) = 𝜎 𝑾 𝑇 𝒗(𝟎) + 𝒃
𝒗(1) = 𝜎 𝑾𝒉(𝟎) + 𝒄
𝒉(1) = 𝜎 𝑾 𝑇 𝒗(𝟏) + 𝒃
𝑾 ← 𝑾 − 𝜀 Δ𝑾
Δ𝑾 =
𝟏
𝑁
𝑛
𝒗 𝑛(0)
𝑇
𝒉 𝑛(0) − 𝒗 𝑛(1)
𝑇
𝒉 𝑛(1)
各ミニバッチに対して以下の計算を繰り返す
与えられたデータに対するRBMのパラメータを
最尤推定に基づく推定する
モーメンタム
重み減衰
も利用する
RBMに基づく事前学習概要
36
v:visible layer {0,1}
h:hidden layer {0,1}
RBMのパラメータθ:重みW,バイアス b,c
𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
𝐸 𝒗, 𝒉; 𝜽 = −
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 −
𝑗
𝑏𝑗ℎ𝑗 −
𝑖
𝑐𝑖 𝑣𝑖
= −𝒗 𝑇 𝑾𝒉 − 𝒃 𝑇 𝒉 − 𝒄 𝑇 𝒗
• 学習データ{vn}に対する尤度最大化(最尤法)によりパラメータ推定
• Hidden dataが得られないので,(近似)EMアルゴリズムを活用
• 分配関数の評価にギブスサンプリングを活用
• 一回のサンプリングで近似
CD学習(Contrastive Divergence Learning)概要
最尤法に基づくRBMの事前学習
37
v:visible layer {0,1}
h:hidden layer {0,1} 𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
𝐸 𝒗, 𝒉; 𝜽 = −
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 −
𝑗
𝑏𝑗ℎ𝑗 −
𝑖
𝑐𝑖 𝑣𝑖
= −𝒗 𝑇 𝑾𝒉 − 𝒃 𝑇 𝒉 − 𝒄 𝑇 𝒗
RBMは確率モデル
確率モデルのパラメータは
データが与えられたときの
最尤法で求める.
Visible dataは得られるが,
Hidden dataは得られない.
得られないデータは積分.
学習データ{vn}に対する対数尤度
𝐿 𝜽 =
𝑛
𝐿 𝑛 𝜽 =
𝑛
log 𝑃 𝒗 𝑛; 𝜽
=
𝑛
log 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽) 𝑃(𝒗 𝑛, 𝒉; 𝜽)
EMアルゴリズムを利用して,パラメータθを推定
𝐿 𝑛 𝜽 = log 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽) 𝑃(𝒗 𝑛, 𝒉; 𝜽)
EMアルゴリズム
38 参考文献:これなら分かる最適化数学,金谷健一
𝐿 𝑛 𝜽 = log 𝑃 𝒗 𝑛; 𝜽 = log 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽) 𝑃(𝒗 𝑛, 𝒉; 𝜽)
学習データvnに対する対数尤度
EMアルゴリズムにより対数尤度は単調に増大する
EMアルゴリズム
1. パラメータ𝜽を初期化𝜽0 する.𝜏 = 0とする.
2. 次の関数を計算する(Eステップ)
3. 𝑄 𝜏 𝜽 を最大にする𝜽 𝜏とする(Mステップ)
4. 𝜏←𝜏 + 1としてステップ2に戻り、これを収束するまで反復する。
𝑄 𝜏 𝜽 = 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) log 𝑃(𝒗 𝑛, 𝒉; 𝜽)
※CD学習では、ステップ3の最大化は完全には行われない.
評価関数とその微分
39
𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
𝑍 𝜽 =
𝒗,𝒉∈{0,1}
exp(−𝐸(𝒗, 𝒉; 𝜽))
𝑄 𝜏 𝜽 = 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) log 𝑃(𝒗 𝑛, 𝒉; 𝜽)
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) log
exp −𝐸 𝒗 𝑛, 𝒉; 𝜽
𝑍(𝜽)
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) −𝐸 𝒗 𝑛, 𝒉; 𝜽 − log 𝑍(𝜽)
𝑄 𝜏 𝜽 = 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) log 𝑃(𝒗 𝑛, 𝒉; 𝜽)
評価関数
v:visible layer {0,1}
h:hidden layer {0,1}
𝜕𝑄 𝜏 𝜽
𝜕𝜽
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) −
𝜕
𝜕𝜽
𝐸 𝒗 𝑛, 𝒉; 𝜽 −
𝜕
𝜕𝜽
log 𝑍(𝜽)
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) −
𝜕
𝜕𝜽
𝐸 𝒗 𝑛, 𝒉; 𝜽 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽) −
𝜕
𝜕𝜽
𝐸 𝒗, 𝒉; 𝜽
データ項 モデル項
分配関数の微分(モデル項の導出)
40
𝜕 log 𝑍(𝜽)
𝜕𝜽
=
1
𝑍(𝜽)
𝜕𝑍
𝜕𝜽
(𝜽) =
1
𝑍(𝜽)
𝜕
𝜕𝜽
𝑓 𝒙; 𝜽 𝑑𝒙
=
1
𝑍(𝜽)
𝜕𝑓 𝒙; 𝜽
𝜕𝜽
𝑑𝒙
=
1
𝑍(𝜽)
𝑓 𝒙; 𝜽
𝜕 log 𝑓 𝒙; 𝜽
𝜕𝜽
𝑑𝒙
𝑃 𝒙; 𝜽 =
1
𝑍 𝜽
𝑓(𝒙; 𝜽) 𝑍 𝜽 = 𝑓 𝒙; 𝜽 𝑑𝒙
確率分布関数 分配関数
任意関数:𝑓(𝒙; 𝜽)
= 𝑃 𝒙; 𝜽
𝜕 log 𝑓 𝒙; 𝜽
𝜕𝜽
𝑑𝒙
= 𝐸 𝒙∼𝑃 𝒙;𝜽
𝜕 log 𝑓 𝒙; 𝜽
𝜕𝜽
この方向で
確かめられる
対数関数の微分
微分は積分の中へ
期待値の定義
評価関数とその微分
41
𝜕𝑄 𝜏 𝜽
𝜕𝜽
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) −
𝜕
𝜕𝜽
𝐸 𝒗 𝑛, 𝒉; 𝜽 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽) −
𝜕
𝜕𝜽
𝐸 𝒗, 𝒉; 𝜽
𝑃 𝒗, 𝒉; 𝜽 =
1
𝑍 𝜽
exp −𝐸 𝒗, 𝒉; 𝜽
𝑄 𝜏 𝜽 = 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) log 𝑃(𝒗 𝑛, 𝒉; 𝜽)
評価関数
v:visible layer {0,1}
h:hidden layer {0,1}
𝐸 𝒗, 𝒉; 𝜽 = −
𝑖,𝑗
𝑣𝑖 𝑤𝑖𝑗ℎ𝑗 −
𝑗
𝑏𝑗ℎ𝑗 −
𝑖
𝑐𝑖 𝑣𝑖
= −𝒗 𝑇
𝑾𝒉 − 𝒃 𝑇
𝒉 − 𝒄 𝑇
𝒗
𝜕
𝜕𝑾
𝐸 𝒗, 𝒉; 𝜽 = −𝒗 𝑻
𝒉
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝑾
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝜽
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) −
𝜕
𝜕𝜽
𝐸 𝒗 𝑛, 𝒉; 𝜽 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) −
𝜕
𝜕𝜽
𝐸 𝒗, 𝒉; 𝜽
データ項(計算容易) モデル項(計算困難)
ギブスサンプリングで近似
評価関数の微分の計算(データ項)
42
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝑾
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉
データ項(計算容易) モデル項(計算困難)
ギブスサンプリングで近似
𝒗(0)
𝒉(0)
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
RBMにおける推論
データ項
𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 = 𝒗 𝑛
𝑇 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒉
= 𝒗 𝑛
𝑇 𝟎 ∙ 𝑃 𝒉 = 𝟎 𝒗; 𝜽 + 𝟏 ∙ 𝑃 𝒉 = 𝟏 𝒗; 𝜽
= 𝒗 𝑛
𝑇
𝜎 𝑾 𝑇 𝒗 𝑛 + 𝒃
モンテカルロ法による近似期待値計算(モデル項)
43
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝑾
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉
データ項(計算容易) モデル項(計算困難)
ギブスサンプリングで近似
𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉 ≑
1
𝑁
𝑖
𝒗(𝑖)
𝑇
𝒉(𝑖) 𝒗(𝑖)
𝑇
, 𝒉(𝑖) ∼ 𝑃(𝒗, 𝒉; 𝜽 𝜏)
確率分布からの独立なサンプリング
モンテカルロ法による近似期待値計算
どうやって,サンプリング? ギブスサンプリング
ギブスサンプリング
44
𝒗(0)
𝒉(0)
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
RBMにおける推論
𝑃 𝒗 = 𝟏 𝒉; 𝜽 = 𝜎 𝑾𝒉 + 𝒄
𝒗(1)
𝒉(1)
𝒗(∞)
𝒉(∞)
ギブスサンプリング
1. 𝒗に初期値を設定
2. 𝑃(𝒉|𝒗)で𝒉をサンプリング
3. 𝑃(𝒗|𝒉)で𝒗 をサンプリング
4. 2と3を繰り返す
𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉 ≑
1
𝑁
𝑖
𝒗(𝑖)
𝑇
𝒉(𝑖)
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝑾
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉
データ項(計算容易) モデル項(計算困難)
ギブスサンプリングで近似
RBMのCD学習における微分計算(モデル項)
45
𝒗(0)
𝒉(0)
𝒗(1)
𝒉(1)
なんと,一回でやめちゃう!
𝒉(0) = 𝜎 𝑾 𝑇
𝒗(𝟎) + 𝒃
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
RBMにおける推論
𝑃 𝒗 = 𝟏 𝒉; 𝜽 = 𝜎 𝑾𝒉 + 𝒄
𝒗(1) = 𝜎 𝑾𝒉(𝟎) + 𝒄
𝒉(1) = 𝜎 𝑾 𝑇
𝒗(𝟏) + 𝒃
𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 =𝒗(0)
𝑇
𝒉(0)
𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉 =𝒗(1)
𝑇
𝒉(1)
𝜕𝑄 𝜏 𝜽 𝜏
𝜕𝑾
= 𝐸 𝒉∼𝑃(𝒉|𝒗 𝑛;𝜽 𝜏) 𝒗 𝑛
𝑇 𝒉 − 𝐸 𝒗,𝒉∼𝑃(𝒗,𝒉;𝜽 𝜏) 𝒗 𝑻 𝒉
データ項(計算容易) モデル項(計算困難)
ギブスサンプリングで近似
確率?それとも状態?
46
𝒗(0)
𝒉(0)
𝒗(1)
𝒉(1)
𝒉(0) = 𝜎 𝑾 𝑇 𝒗(𝟎) + 𝒃
𝒗(1) = 𝜎 𝑾𝒉(𝟎) + 𝒄
𝒉(1) = 𝜎 𝑾 𝑇 𝒗(𝟏) + 𝒃
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇 𝒗 + 𝒃
RBMにおける推論
𝑃 𝒗 = 𝟏 𝒉; 𝜽 = 𝜎 𝑾𝒉 + 𝒄
G. Hinton,
A Practical Guide to Training
Restricted Boltzmann Machines 2010.
RBMにおける推論はあくまで,確率である.
ギブスサンプリングでは,確率に基づき,状態をサンプリングすることになっている.
では,CD学習では,バイナリ状態で計算すべきか?
Hintonいわく: 確率として,計算せよ!
RBMのCD学習
47
𝒗(0)
𝒉(0)
𝒗(1)
𝒉(1)
𝒉(0) = 𝜎 𝑾 𝑇 𝒗(𝟎) + 𝒃
𝒗(1) = 𝜎 𝑾𝒉(𝟎) + 𝒄
𝒉(1) = 𝜎 𝑾 𝑇 𝒗(𝟏) + 𝒃
𝑾 ← 𝑾 − 𝜀 Δ𝑾
Δ𝑾 =
𝟏
𝑁
𝑛
𝒗 𝑛(0)
𝑇
𝒉 𝑛(0) − 𝒗 𝑛(1)
𝑇
𝒉 𝑛(1)
各ミニバッチに対して以下の計算を繰り返す
与えられたデータに対するRBMのパラメータを
最尤推定に基づく推定する
モーメンタム
重み減衰
も利用する
スタックRBMの事前学習
48 学習データ
出力データ
第1層RBMに
基づく事前学習
学習データ
出力データ
第2層RBMに
基づく事前学習
入力データ
copy
copy
copy
RBMに基づく事前学習
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
49
Drop-out
50
擬似的なアンサンブル学習であり,
過学習を抑制する手法である.
効果的であることが知られている.
Drop-out
ミニバッチ毎に,ノードをランダムに欠落させる.
(ノード出力をゼロにする).
50%程度の欠落率が良いとされている.
G. Hinton, N.Srivastava, A.Krizhevsky, I.Sutskever, and
R.Salakhutdinov, “Improving neural networks by preventing
co-adaptation of feature detectors.”, arXiv preprint
arXiv:1207.0580, 2012.
入力層
出力層
アンサンブル学習とDrop-out
51
入力層
出力層
アンサンブル学習 Drop-out
複数の弱識別器の統合>識別器
𝒉 𝒗 =
1
𝐾
𝒉1 𝒗 + 𝒉2 𝒗 + 𝒉3 𝒗 + ⋯ + 𝒉 𝐾 𝒗
アンサンブル学習と
似たような効果が
期待される
分布を考慮したFast drop-out
52 S.I. Wang and C.D. Manning, Fast dropout training, ICML 2013.
入力層
𝑣1 𝑣2 𝑣3
ℎ 出力層
𝑤1 𝑤2 𝑤3
𝑛
𝜎
ℎ = 𝜎 𝑛
𝑛 =
𝑖
𝑤𝑖 𝑣𝑖 + 𝑏
𝑣1 𝑣2 𝑣3
ℎ
𝑤1 𝑤2 𝑤3
𝑛
𝜎
𝜉1 𝜉2 𝜉3
入力層
出力層
ℎ = 𝐸 𝜎 𝜒
𝜒 =
𝑖
𝜉𝑖 𝑤𝑖 𝑣𝑖 + 𝑏
𝜉𝑖 ∈ 0,1 ,
𝑃 𝜉𝑖 = 0 = 0.5
𝑃 𝜉𝑖 = 1 = 0.5
𝜒, 𝜉𝑖:確率変数
通常のNN推論 Drop-outのNN推論
𝜒
𝑃(𝜒)
分布を考慮したFast drop-out
53 S.I. Wang and C.D. Manning, Fast dropout training, ICML 2013.
𝑣1 𝑣2 𝑣3
ℎ
𝑤1 𝑤2 𝑤3
𝑛
𝜎
𝜉1 𝜉2 𝜉3
入力層
出力層
ℎ = 𝐸 𝜎 𝜒
𝜒 =
𝑖
𝜉𝑖 𝑤𝑖 𝑣𝑖 + 𝑏
𝜉𝑖 ∈ 0,1 ,
𝑃 𝜉𝑖 = 0 = 0.5
𝑃 𝜉𝑖 = 1 = 0.5
𝜒, 𝜉𝑖:確率変数
Drop-outのNN推論
𝜒
𝑃(𝜒)
𝜒
𝑃(𝜒) 正規分布で近似
𝑁(𝜒; 𝜇, 𝑠2
)
平均𝜇,分散𝑠2
計算
ℎ = 𝐸 𝜎 𝜒
≑
−∞
∞
𝑁(𝜒; 𝜇, 𝑠2
) 𝜎 𝜒 𝑑𝜒
≑ 𝜎
𝜇
1 + 𝜋𝑠2/8
高速な近似計算
サンプリングが必要なく,
高速計算が可能
誤差逆伝搬法
CD学習
にも対応
RBMモデルを考慮したNN推論
54
M. Tanaka and M. Okutomi, A Novel Inference of a Restricted
Boltzmann Machine, ICPR2014.
入力層
𝑣1 𝑣2 𝑣3
ℎ 出力層
𝑤1 𝑤2 𝑤3
𝑛
𝜎
ℎ = 𝜎 𝑛
𝑛 =
𝑖
𝑤𝑖 𝑣𝑖 + 𝑏
通常のNN推論
ℎ1 ℎ2 ℎ3
𝐻 出力層
𝑤1 𝑤2 𝑤3
𝑛
𝜎 𝐻 = 𝐸 𝜎 𝜒
𝜒 =
𝑖
𝑤𝑖ℎ𝑖 + 𝑏
RBMモデルを考慮したNN推論
𝑃 𝒉 = 𝟏 𝒗; 𝜽 = 𝜎 𝑾 𝑇
𝒗 + 𝒃
𝜒, ℎ𝑖:確率変数
𝜒
𝑃(𝜒)
𝜒
𝑃(𝜒) 正規分布で近似
𝑁(𝜒; 𝜇, 𝑠2)
平均𝜇,分散𝑠2
計算
ℎ = 𝐸 𝜎 𝜒
≑
−∞
∞
𝑁(𝜒; 𝜇, 𝑠2
)𝜎 𝜒 𝑑𝜒
≑ 𝜎
𝜇
1 + 𝜋𝑠2/8
RBMモデルを考慮したNN推論
55
M. Tanaka and M. Okutomi, A Novel Inference of a Restricted
Boltzmann Machine, ICPR2014.
ディープニューラルネットワークの性能改善!
RBMモデルを考慮したNN推論
56
概要
1. ディープラーニング
2. RBMからディープニューラルネットワーク
3. ディープニューラルネットワーク
– 誤差逆伝搬法(教師有学習)
4. RBM( Restricted Boltzmann Machine )
– RBMの基礎,確率モデル,推論モデル
– CD法による事前学習(教師無学習)
5. 分布を考慮したNN推論
57
実行はできるけど中身はわからない.
理論的バックグランドがわかった!
http://bit.ly/dnnicpr2014

Mais conteúdo relacionado

Mais procurados

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
Ohsawa Goodfellow
 

Mais procurados (20)

正準相関分析
正準相関分析正準相関分析
正準相関分析
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
PRML8章
PRML8章PRML8章
PRML8章
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
 

Semelhante a RBMを応用した事前学習とDNN学習

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
Miyoshi Yuya
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 

Semelhante a RBMを応用した事前学習とDNN学習 (20)

PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
Statistical machine learning
Statistical machine learningStatistical machine learning
Statistical machine learning
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
Implement for Deep Learning of RBM Network in C.
Implement for Deep Learning of  RBM Network in C.Implement for Deep Learning of  RBM Network in C.
Implement for Deep Learning of RBM Network in C.
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
レポート1
レポート1レポート1
レポート1
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
Back propagation
Back propagationBack propagation
Back propagation
 

Mais de Masayuki Tanaka

遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
Masayuki Tanaka
 

Mais de Masayuki Tanaka (20)

Slideshare breaking inter layer co-adaptation
Slideshare breaking inter layer co-adaptationSlideshare breaking inter layer co-adaptation
Slideshare breaking inter layer co-adaptation
 
PRMU201902 Presentation document
PRMU201902 Presentation documentPRMU201902 Presentation document
PRMU201902 Presentation document
 
Gradient-Based Low-Light Image Enhancement
Gradient-Based Low-Light Image EnhancementGradient-Based Low-Light Image Enhancement
Gradient-Based Low-Light Image Enhancement
 
Year-End Seminar 2018
Year-End Seminar 2018Year-End Seminar 2018
Year-End Seminar 2018
 
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
 
Learnable Image Encryption
Learnable Image EncryptionLearnable Image Encryption
Learnable Image Encryption
 
クリエイティブ・コモンズ
クリエイティブ・コモンズクリエイティブ・コモンズ
クリエイティブ・コモンズ
 
デザイン4原則
デザイン4原則デザイン4原則
デザイン4原則
 
メラビアンの法則
メラビアンの法則メラビアンの法則
メラビアンの法則
 
類似性の法則
類似性の法則類似性の法則
類似性の法則
 
権威に訴える論証
権威に訴える論証権威に訴える論証
権威に訴える論証
 
Chain rule of deep neural network layer for back propagation
Chain rule of deep neural network layer for back propagationChain rule of deep neural network layer for back propagation
Chain rule of deep neural network layer for back propagation
 
Give Me Four
Give Me FourGive Me Four
Give Me Four
 
Tech art 20170315
Tech art 20170315Tech art 20170315
Tech art 20170315
 
My Slide Theme
My Slide ThemeMy Slide Theme
My Slide Theme
 
Font Memo
Font MemoFont Memo
Font Memo
 
One-point for presentation
One-point for presentationOne-point for presentation
One-point for presentation
 
ADMM algorithm in ProxImaL
ADMM algorithm in ProxImaL ADMM algorithm in ProxImaL
ADMM algorithm in ProxImaL
 
Intensity Constraint Gradient-Based Image Reconstruction
Intensity Constraint Gradient-Based Image ReconstructionIntensity Constraint Gradient-Based Image Reconstruction
Intensity Constraint Gradient-Based Image Reconstruction
 
Least Square with L0, L1, and L2 Constraint
Least Square with L0, L1, and L2 ConstraintLeast Square with L0, L1, and L2 Constraint
Least Square with L0, L1, and L2 Constraint
 

RBMを応用した事前学習とDNN学習