Mais conteúdo relacionado
Semelhante a AI2018 8 ニューラルネットワークの基礎 (20)
Mais de Hirotaka Hachiya (6)
AI2018 8 ニューラルネットワークの基礎
- 8. 確率的分類問題の定式化
8
特徴量𝒙𝒙を観測したもとでのカテゴリ𝑦𝑦の事後確率を考える
ベイズの定理より
事後確率を近似するロジスティックモデルを導入
𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
𝑃𝑃 𝒙𝒙 𝑦𝑦 = 𝑐𝑐 𝑃𝑃(𝑦𝑦 = 𝑐𝑐)
𝑃𝑃(𝒙𝒙)
事後確率
事前確率尤度
周辺確率
𝒘𝒘𝑐𝑐 = 𝑤𝑤𝑐𝑐𝑐, 𝑤𝑤𝑐𝑐𝑐, … , 𝑤𝑤𝑐𝑐𝑐𝑐
Τ
、𝑏𝑏𝑐𝑐:カテゴリ𝑐𝑐のモデルパラメータ
�𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
exp(𝒘𝒘𝑐𝑐
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐)
∑𝑐𝑐′ exp(𝒘𝒘𝑐𝑐′
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐′)
事後確率の近似
𝐷𝐷:特徴量𝒙𝒙の次元
Τ:転置
- 14. ニューラルネットワークの学習
17
学習データ:
入力(特徴量)𝒙𝒙: 𝐷𝐷次元の実数ベクトル
出力(カテゴリ)𝒕𝒕:カテゴリ数𝐿𝐿次元のone-hotベクトル
one-hotベクトル:入力𝒙𝒙が属するカテゴリの要素1、それ以外0
例:入力𝒙𝒙がカテゴリ1に属している場合:𝒕𝒕 = 1,0,0 𝛵𝛵
例:入力𝒙𝒙がカテゴリ3に属している場合:𝒕𝒕 = 0,0,1 𝛵𝛵
制約なしの最適化問題:交差エントロピーL 𝑊𝑊, 𝒃𝒃 の最小化
𝐷𝐷𝑡𝑡𝑡𝑡 = 𝒙𝒙1, 𝒕𝒕1 , 𝒙𝒙2, 𝒕𝒕2 , … , 𝒙𝒙𝑁𝑁, 𝒕𝒕𝑁𝑁
L 𝑊𝑊, 𝒃𝒃 = �
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2,…, 𝒘𝒘𝐿𝐿 𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2,…, 𝑏𝑏𝐿𝐿
min
𝑊𝑊,𝒃𝒃
𝐿𝐿 𝑊𝑊, 𝒃𝒃
𝒕𝒕𝑖𝑖
= 𝑡𝑡1
𝑖𝑖
, 𝑡𝑡2
𝑖𝑖
, … , 𝑡𝑡𝐿𝐿
𝑖𝑖
- 15. 交差エントロピーとは
18
確率変数Yの情報エントロピー𝐻𝐻[Y] の定義:
確率変数Yの不確定度合い(あいまいさ)を表す
エントロピーの例:
交差エントロピー:
𝐻𝐻 Y = E
𝑃𝑃(Y)
− log 𝑃𝑃(Y) = �
𝑐𝑐=1
𝐿𝐿
−𝑃𝑃(Y = 𝑦𝑦𝑐𝑐) log 𝑃𝑃(Y = 𝑦𝑦𝑐𝑐)
𝑃𝑃 Y = �
0.33 if 𝑌𝑌 = 1
0.33 if 𝑌𝑌 = 2
0.33 if 𝑌𝑌 = 3
𝐻𝐻 Y = 3 ∗ −0.33 ∗ log 0.33
= 3 ∗ −0.33 ∗ −0.48=0.48
Yは不確定的に1,2&3の値を取る
のでエントロピーが高い
L Y = E
𝑃𝑃(Y)
− log �𝑃𝑃(Y) = �
𝑐𝑐=1
𝐿𝐿
−𝑃𝑃(Y = 𝑦𝑦𝑐𝑐) log �𝑃𝑃(Y = 𝑦𝑦𝑐𝑐)
異なる分布関数:交差
= 𝑡𝑡𝑐𝑐
- 17. 交差エントロピーの最小化
最急降下法を用いて交差エントロピーL 𝑊𝑊, 𝒃𝒃 を最小化
最急降下法の手順(カテゴリ数が3の場合):
L 𝑊𝑊, 𝒃𝒃 の偏微分
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘1
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘𝟐𝟐
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘𝟑𝟑
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟏𝟏
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟐𝟐
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟑𝟑
を求める
モデルパラメータの初期値𝒘𝒘1
0
、𝒘𝒘2
0
、𝒘𝒘𝟑𝟑
0
、 𝑏𝑏1
0
、𝑏𝑏2
0
、𝑏𝑏𝟑𝟑
0
、をランダムに
設定する
偏微分を用いてモデルパラメータの更新を繰り返す
𝛼𝛼:学習率
22
𝒘𝒘1
𝑡𝑡+1
= 𝒘𝒘1
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡,𝒃𝒃𝑡𝑡)
𝜕𝜕𝒘𝒘1
𝒘𝒘2
𝑡𝑡+1
= 𝒘𝒘2
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡,𝒃𝒃𝑡𝑡)
𝜕𝜕𝒘𝒘2
𝒘𝒘3
𝑡𝑡+1
= 𝒘𝒘3
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡,𝒃𝒃𝑡𝑡)
𝜕𝜕𝒘𝒘3
𝑏𝑏1
𝑡𝑡+1
= 𝑏𝑏1
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡
, 𝒃𝒃𝑡𝑡
)
𝜕𝜕𝑏𝑏1
𝑏𝑏2
𝑡𝑡+1
= 𝑏𝑏2
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡, 𝒃𝒃𝑡𝑡)
𝜕𝜕𝑏𝑏2
𝑏𝑏3
𝑡𝑡+1
= 𝑏𝑏3
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡, 𝒃𝒃𝑡𝑡)
𝜕𝜕𝑏𝑏3
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2, 𝒘𝒘3
𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2, 𝑏𝑏3
Τ
- 18. 演習3
交差エントロピーの偏微分を求めなさい。
1. 𝑠𝑠1 = 𝒘𝒘1
Τ
𝒙𝒙 + 𝑏𝑏1とおき、 L 𝑊𝑊, 𝒃𝒃 に �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 を代入して、
詳細な式を書きなさい。
2. L 𝑊𝑊, 𝒃𝒃 を𝑠𝑠1について偏微分し
𝜕𝜕𝐿𝐿
𝜕𝜕𝑠𝑠1
を求めなさい。
3. チェインルールを用いて、 L 𝑊𝑊, 𝒃𝒃 の𝒘𝒘1に関する偏微分を求めなさい。
4. 同様に𝑏𝑏1に関する偏微分を求めなさい。
23
L 𝑊𝑊, 𝒃𝒃 = − �
𝑖𝑖=1
𝑁𝑁
�
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖 �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
exp(𝒘𝒘𝑐𝑐
Τ 𝒙𝒙 + 𝑏𝑏𝑐𝑐)
∑𝑐𝑐′ exp(𝒘𝒘𝑐𝑐′
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐)
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘1
=
𝜕𝜕𝐿𝐿
𝜕𝜕𝑠𝑠1
𝜕𝜕𝑠𝑠1
𝜕𝜕𝒘𝒘1
- 19. ニューラルネットワークの学習
25
学習データ:
入力(特徴量)𝒙𝒙: 𝐷𝐷次元の実数ベクトル
出力(カテゴリ)𝒕𝒕:カテゴリ数𝐿𝐿次元のone-hotベクトル
one-hotベクトル:入力𝒙𝒙が属するカテゴリの要素1、それ以外0
例:入力𝒙𝒙がカテゴリ1に属している場合:𝒕𝒕 = 1,0,0 𝛵𝛵
例:入力𝒙𝒙がカテゴリ3に属している場合:𝒕𝒕 = 0,0,1 𝛵𝛵
制約なしの最適化問題:交差エントロピーL 𝑊𝑊, 𝒃𝒃 の最小化
𝐷𝐷𝑡𝑡𝑡𝑡 = 𝒙𝒙1, 𝒕𝒕1 , 𝒙𝒙2, 𝒕𝒕2 , … , 𝒙𝒙𝑁𝑁, 𝒕𝒕𝑁𝑁
L 𝑊𝑊, 𝒃𝒃 = �
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2,…, 𝒘𝒘𝐿𝐿 𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2,…, 𝑏𝑏𝐿𝐿
min
𝑊𝑊,𝒃𝒃
𝐿𝐿 𝑊𝑊, 𝒃𝒃
𝒕𝒕𝑖𝑖
= 𝑡𝑡1
𝑖𝑖
, 𝑡𝑡2
𝑖𝑖
, … , 𝑡𝑡𝐿𝐿
𝑖𝑖
- 20. 最急降下法の解釈
最急降下法の更新式:
𝒙𝒙𝒊𝒊
が属しているカテゴリに対応するパラメータに対して:
𝒙𝒙𝒊𝒊が属していないカテゴリに対応するパラメータに対して:
引き上げ
引き下げ
より事後確率が高くなるように
より事後確率が低くなるように
26
正しい事後確率と予測
した事後確率との差
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊
𝛼𝛼 �
𝑖𝑖=1
𝑁𝑁
1 − �𝑃𝑃 𝑦𝑦 = 1 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝛼𝛼 �
𝑖𝑖=1
𝑁𝑁
− �𝑃𝑃 𝑦𝑦 = 1 𝒙𝒙𝒊𝒊
- 22. ニューラルネットワークの復習
29
カテゴリの事後確率をロジスティックモデルで近似
交差エントロピーLの最小化によりモデルパラメータを最適化
最急降下法を用いて、モデルパラメータを決定
𝒘𝒘𝑐𝑐 = 𝑤𝑤𝑐𝑐𝑐, 𝑤𝑤𝑐𝑐𝑐, … , 𝑤𝑤𝑐𝑐𝑐𝑐
Τ
、𝑏𝑏𝑐𝑐:カテゴリ𝑐𝑐のモデルパラメータ
�𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
exp(𝒘𝒘𝑐𝑐
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐)
∑𝑐𝑐′ exp(𝒘𝒘𝑐𝑐′
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐′)
カテゴリの事後確率
Τ:転置
L 𝑊𝑊, 𝒃𝒃 = �
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖min
𝑊𝑊,𝒃𝒃
𝐿𝐿 𝑊𝑊, 𝒃𝒃
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊
𝑁𝑁:データ数 𝐿𝐿:カテゴリの数
- 24. 課題3
32
1. 学習データと最急降下法の更新式を用いて、各カテゴリの
モデルパラメータ𝒘𝒘𝒄𝒄
𝑡𝑡
=
0
0
、𝑏𝑏𝑐𝑐
𝑡𝑡
= 0を更新しなさい。
2. 更新したモデルパラメータを用いて、 事後確率 �𝑃𝑃 𝑦𝑦 = 1
3
0
、
�𝑃𝑃 𝑦𝑦 = 3
3
3
および交差エントロピーLを求めなさい。
3. 更新による交差エントロピーの増減について考察しなさい。
𝐷𝐷𝑡𝑡𝑡𝑡 =
3
0
,
1
0
0
,
3
3
,
0
0
1
𝑖𝑖 = 1 𝑖𝑖 = 2
�𝑃𝑃 𝑦𝑦
3
0
= 0.33 �𝑃𝑃 𝑦𝑦
3
3
= 0.33
全てのyに対して
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊
最急降下法の更新式:
ただし、𝑐𝑐=1,2,3、学習率𝛼𝛼=1とする
6/22までの
- 29. 最急降下法によるパラメータ更新
41
パラメータの更新式:
学習率𝛼𝛼 = 0.1
交差エントロピーの推移
300回程度の更新で収束
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊
更新回数
交
差
エ
ン
ト
ロ
ピ
ー
- 35. 単語・文章の特徴抽出技術
47
文章の特徴量の例:TF(Term Frequency)特徴量
①文章を形態素解析で分割
②分割した単語ごとの出現回数を数えて、特徴量を作成
例)
文章 特徴抽出 ニューラル
ネット
肯定的 or
否定的
「和歌山は、みかんの名産地です。みかんは好きですか?」
形態素解析
和歌山 は みかん 名産地 です 。、 の
みかん は 好き です か ?
出現回数
和歌山 は みかん 名産地 です 。、 の 好き か ?
1 2 1 2 1 1 12 1 1 1
ベクトル表現
𝒙𝒙𝑖𝑖 = 1,2,1,2,1,1,2,1,1,1,1 Τ