AI2018 8 ニューラルネットワークの基礎

人工知能第8回
ニューラルネットワークの基礎
2018年6月8日八谷大岳
1

講義内容
2
機械学習のアルゴリズム

構成
1. 機械学習と分類問題
2. ニューラルネットワークの基礎
1. 確率的分類問題の定式化
2. 2階層のニューラルネットワーク
3. ニューラルネットワークの学習
3. ニューラルネットワーク（2階層）の応用
1. Pythonによる実装と実行例
2. 文章分類の例
3. 画像分類の例
3

構成
4

分類問題と機械学習
 分類問題：教師あり学習の問題
 人間が用意した入力（画像）と出力（カテゴリ）データから、
入力データが属しているカテゴリを分類する関係モデルを学習
特徴
抽出
5
画像データ
𝐼𝐼1
𝐼𝐼2
𝒙𝒙1 =
1.3
0.5
2.6
⋮
𝒙𝒙2
=
1.3
0.5
2.6
⋮
特徴ベクトル
入
力
カテゴリの事後確率
𝑃𝑃 𝑌𝑌 = 猫|𝒙𝒙1
= 0.1
𝑃𝑃 𝑌𝑌 = 猫|𝒙𝒙2
= 0.8
ニューラルネット
（関係モデル）
出力層
𝑤𝑤11
𝑤𝑤21
𝑤𝑤12
𝑤𝑤22
𝑏𝑏2
𝑏𝑏3
𝑠𝑠1
𝑠𝑠3
𝑠𝑠2
入力層
𝑏𝑏1
𝑥𝑥1
𝑥𝑥2
1
𝑤𝑤32
𝑤𝑤31
𝑃𝑃 𝑌𝑌 = 犬|𝒙𝒙1
= 0.8
𝑃𝑃 𝑌𝑌 = 犬|𝒙𝒙2
= 0.1
手法
𝑃𝑃 𝑌𝑌 = 羊|𝒙𝒙1
= 0.1
𝑃𝑃 𝑌𝑌 = 羊|𝒙𝒙2
= 0.1

 特徴量：データから抽出した分類に必要な数値化された情報
 特徴抽出方法：専門知識に基づき人間が設計
 最近は、分類精度を最大化するように、特徴抽出方法も
機械学習するのが一般的
画像特徴量の例
画像データ特徴抽出
分類
（機械学習）
SIFT（Scale Invariant Feature Transform）の例
画像からキーポイントを選択キーポイントごとに勾配を計算し、
勾配パターンのヒストグラムを求める
数値ベクトル（数万次元）
を分類に入力
6
画像データ特徴抽出分類
機械学習

構成
7

確率的分類問題の定式化
8
 特徴量𝒙𝒙を観測したもとでのカテゴリ𝑦𝑦の事後確率を考える
 ベイズの定理より
 事後確率を近似するロジスティックモデルを導入
𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
𝑃𝑃 𝒙𝒙 𝑦𝑦 = 𝑐𝑐 𝑃𝑃(𝑦𝑦 = 𝑐𝑐)
𝑃𝑃(𝒙𝒙)
事後確率
事前確率尤度
周辺確率
𝒘𝒘𝑐𝑐 = 𝑤𝑤𝑐𝑐𝑐, 𝑤𝑤𝑐𝑐𝑐, … , 𝑤𝑤𝑐𝑐𝑐𝑐
Τ
、𝑏𝑏𝑐𝑐：カテゴリ𝑐𝑐のモデルパラメータ
�𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
exp(𝒘𝒘𝑐𝑐
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐)
∑𝑐𝑐′ exp(𝒘𝒘𝑐𝑐′
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐′)
事後確率の近似
𝐷𝐷：特徴量𝒙𝒙の次元
Τ：転置

演習１
 以下の手順で、カテゴリ事後確率を近似するロジスティックモデル
を導出しなさい。
1. 周辺確率𝑃𝑃(𝒙𝒙)を加法定理を用いて同時確率の和の形に変形
2. 1の同時確率を乗法定理を用いて変形
3. カテゴリ事後確率の分子と分母の尤度×周辺確率を
exp(log(尤度×周辺確率))の形に変形
4. log(尤度×周辺確率)を、線形モデル𝒘𝒘𝚻𝚻 𝒙𝒙 + 𝑏𝑏で近似
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に
記載
【カテゴリ事後確率】
【ロジスティックモデル】
9
𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
𝑃𝑃 𝒙𝒙 𝑦𝑦 = 𝑐𝑐 𝑃𝑃(𝑦𝑦 = 𝑐𝑐)
𝑃𝑃(𝒙𝒙)
Τ
Τ

構成
11

ロジスティックモデルの構成
12
 入力と出力の2層で構成されるニューラルネットワーク
カテゴリ事後確率
カテゴリ1：
�𝑃𝑃 𝑦𝑦 = 1 𝒙𝒙 =
exp(𝑠𝑠1)
∑𝑐𝑐′ exp(𝑠𝑠𝑐𝑐𝑐)
出力層
𝑠𝑠1
𝑠𝑠3
𝑠𝑠2
入力層
𝑥𝑥1
𝑥𝑥2
1 𝑏𝑏3
𝑠𝑠1 = 𝒘𝒘1
Τ
𝒙𝒙 + 𝑏𝑏1 = 𝑤𝑤11 𝑥𝑥1+ 𝑤𝑤12 𝑥𝑥2 + ⋯ + 𝑏𝑏1
カテゴリ2：
exp(𝑠𝑠2)
カテゴリ3：
exp(𝑠𝑠3)

課題1
13
 以下のニューラルネットワークに特徴ベクトル𝒙𝒙1と𝒙𝒙2を入力
した場合の、各カテゴリの事後確率を求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
出力層
𝑠𝑠1
𝑠𝑠3
𝑠𝑠2
入力層
𝑥𝑥1
𝑥𝑥2
1
カテゴリ1：
exp(𝑠𝑠1)
exp(𝑠𝑠2)
exp(𝑠𝑠3)
カテゴリ2：
カテゴリ3：
𝒙𝒙1 = 3,0 Τ
𝒙𝒙2 = 3,3 Τ

構成
16

ニューラルネットワークの学習
17
 学習データ：
 入力（特徴量）𝒙𝒙： 𝐷𝐷次元の実数ベクトル
 出力（カテゴリ）𝒕𝒕：カテゴリ数𝐿𝐿次元のone-hotベクトル
 one-hotベクトル：入力𝒙𝒙が属するカテゴリの要素1、それ以外0
 例：入力𝒙𝒙がカテゴリ1に属している場合：𝒕𝒕 = 1,0,0 𝛵𝛵
 制約なしの最適化問題：交差エントロピーL 𝑊𝑊, 𝒃𝒃 の最小化
𝐷𝐷𝑡𝑡𝑡𝑡 = 𝒙𝒙1, 𝒕𝒕1 , 𝒙𝒙2, 𝒕𝒕2 , … , 𝒙𝒙𝑁𝑁, 𝒕𝒕𝑁𝑁
L 𝑊𝑊, 𝒃𝒃 = �
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2,…, 𝒘𝒘𝐿𝐿 𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2,…, 𝑏𝑏𝐿𝐿
min
𝑊𝑊,𝒃𝒃
𝐿𝐿 𝑊𝑊, 𝒃𝒃
𝒕𝒕𝑖𝑖
= 𝑡𝑡1
𝑖𝑖
, 𝑡𝑡2
𝑖𝑖
, … , 𝑡𝑡𝐿𝐿
𝑖𝑖

交差エントロピーとは
18
 確率変数Yの情報エントロピー𝐻𝐻[Y] の定義：
 確率変数Yの不確定度合い（あいまいさ）を表す
 エントロピーの例：
 交差エントロピー：
𝐻𝐻 Y = E
𝑃𝑃(Y)
− log 𝑃𝑃(Y) = �
𝑐𝑐=1
𝐿𝐿
−𝑃𝑃(Y = 𝑦𝑦𝑐𝑐) log 𝑃𝑃(Y = 𝑦𝑦𝑐𝑐)
𝑃𝑃 Y = �
0.33 if 𝑌𝑌 = 1
0.33 if 𝑌𝑌 = 2
0.33 if 𝑌𝑌 = 3
𝐻𝐻 Y = 3 ∗ −0.33 ∗ log 0.33
= 3 ∗ −0.33 ∗ −0.48=0.48
Yは不確定的に1,2&3の値を取る
のでエントロピーが高い
L Y = E
𝑃𝑃(Y)
− log �𝑃𝑃(Y) = �
𝑐𝑐=1
𝐿𝐿
−𝑃𝑃(Y = 𝑦𝑦𝑐𝑐) log �𝑃𝑃(Y = 𝑦𝑦𝑐𝑐)
異なる分布関数：交差
= 𝑡𝑡𝑐𝑐

演習2
19
1. 以下の学習データと２つのロジスティックモデル�𝑃𝑃1、 �𝑃𝑃2が
与えられた場合、それぞれの交差エントロピーLを求めなさい。
2. どちらのモデルが良いか考察しなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上
に記載
𝐷𝐷𝑡𝑡𝑡𝑡 =
3
0
,
1
0
0
,
3
3
,
0
0
1
L = �
𝑖𝑖=1
2
− �
𝑐𝑐=1
3
𝑡𝑡𝑐𝑐
𝑖𝑖
�𝑃𝑃1 𝑦𝑦 = 2
3
0
= 1.0
𝑖𝑖 = 1 𝑖𝑖 = 2
�𝑃𝑃1 𝑦𝑦 = 1
3
3
= 1.0
�𝑃𝑃2 𝑦𝑦 = 1
3
0
= 1.0
�𝑃𝑃2 𝑦𝑦 = 3
3
3
= 1.0

交差エントロピーの最小化
 最急降下法を用いて交差エントロピーL 𝑊𝑊, 𝒃𝒃 を最小化
 最急降下法の手順（カテゴリ数が3の場合）：
 L 𝑊𝑊, 𝒃𝒃 の偏微分
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘1
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘𝟐𝟐
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘𝟑𝟑
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟏𝟏
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟐𝟐
、
𝜕𝜕𝐿𝐿
𝜕𝜕𝑏𝑏𝟑𝟑
を求める
 モデルパラメータの初期値𝒘𝒘1
0
、𝒘𝒘2
0
、𝒘𝒘𝟑𝟑
0
、 𝑏𝑏1
0
、𝑏𝑏2
0
、𝑏𝑏𝟑𝟑
0
、をランダムに
設定する
 偏微分を用いてモデルパラメータの更新を繰り返す
𝛼𝛼：学習率
22
𝒘𝒘1
𝑡𝑡+1
= 𝒘𝒘1
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡,𝒃𝒃𝑡𝑡)
𝜕𝜕𝒘𝒘1
𝒘𝒘2
𝑡𝑡+1
= 𝒘𝒘2
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝒘𝒘2
𝒘𝒘3
𝑡𝑡+1
= 𝒘𝒘3
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝒘𝒘3
𝑏𝑏1
𝑡𝑡+1
= 𝑏𝑏1
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡
, 𝒃𝒃𝑡𝑡
)
𝜕𝜕𝑏𝑏1
𝑏𝑏2
𝑡𝑡+1
= 𝑏𝑏2
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡, 𝒃𝒃𝑡𝑡)
𝜕𝜕𝑏𝑏2
𝑏𝑏3
𝑡𝑡+1
= 𝑏𝑏3
𝑡𝑡
− 𝛼𝛼
𝜕𝜕𝐿𝐿(𝑊𝑊𝑡𝑡, 𝒃𝒃𝑡𝑡)
𝜕𝜕𝑏𝑏3
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2, 𝒘𝒘3
𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2, 𝑏𝑏3
Τ

演習3
 交差エントロピーの偏微分を求めなさい。
1. 𝑠𝑠1 = 𝒘𝒘1
Τ
𝒙𝒙 + 𝑏𝑏1とおき、 L 𝑊𝑊, 𝒃𝒃 に �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 を代入して、
詳細な式を書きなさい。
2. L 𝑊𝑊, 𝒃𝒃 を𝑠𝑠1について偏微分し
𝜕𝜕𝐿𝐿
𝜕𝜕𝑠𝑠1
を求めなさい。
3. チェインルールを用いて、 L 𝑊𝑊, 𝒃𝒃 の𝒘𝒘1に関する偏微分を求めなさい。
4. 同様に𝑏𝑏1に関する偏微分を求めなさい。
23
L 𝑊𝑊, 𝒃𝒃 = − �
𝑖𝑖=1
𝑁𝑁
�
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖 �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 =
Τ 𝒙𝒙 + 𝑏𝑏𝑐𝑐)
Τ
𝜕𝜕𝐿𝐿
𝜕𝜕𝒘𝒘1
=
𝜕𝜕𝐿𝐿
𝜕𝜕𝑠𝑠1
𝜕𝜕𝑠𝑠1
𝜕𝜕𝒘𝒘1

ニューラルネットワークの学習
25
 入力（特徴量）𝒙𝒙： 𝐷𝐷次元の実数ベクトル
 出力（カテゴリ）𝒕𝒕：カテゴリ数𝐿𝐿次元のone-hotベクトル
 one-hotベクトル：入力𝒙𝒙が属するカテゴリの要素1、それ以外0
 制約なしの最適化問題：交差エントロピーL 𝑊𝑊, 𝒃𝒃 の最小化
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑊𝑊 = 𝒘𝒘1, 𝒘𝒘2,…, 𝒘𝒘𝐿𝐿 𝒃𝒃 = 𝑏𝑏1, 𝑏𝑏2,…, 𝑏𝑏𝐿𝐿
min
𝑊𝑊,𝒃𝒃
𝒕𝒕𝑖𝑖
= 𝑡𝑡1
𝑖𝑖
, 𝑡𝑡2
𝑖𝑖
, … , 𝑡𝑡𝐿𝐿
𝑖𝑖

最急降下法の解釈
 最急降下法の更新式：
 𝒙𝒙𝒊𝒊
が属しているカテゴリに対応するパラメータに対して：
 𝒙𝒙𝒊𝒊が属していないカテゴリに対応するパラメータに対して：
引き上げ
引き下げ
より事後確率が高くなるように
より事後確率が低くなるように
26
正しい事後確率と予測
した事後確率との差
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
+ 𝛼𝛼 ∑𝑖𝑖=1
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
− �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝒊𝒊
𝛼𝛼 �
𝑖𝑖=1
𝑁𝑁
1 − �𝑃𝑃 𝑦𝑦 = 1 𝒙𝒙𝒊𝒊 𝒙𝒙𝒊𝒊
𝛼𝛼 �
𝑖𝑖=1
𝑁𝑁
− �𝑃𝑃 𝑦𝑦 = 1 𝒙𝒙𝒊𝒊

演習4
27
 学習データと最急降下法の更新式を用いて、モデルパラメータ
𝒘𝒘𝟏𝟏
𝑡𝑡
=
0
0
、𝑏𝑏1
𝑡𝑡
= 0を更新した𝒘𝒘𝟏𝟏
𝑡𝑡+1
、𝑏𝑏1
𝑡𝑡+1
を求めなさい。
3
0
,
1
0
0
,
3
3
,
0
0
1
𝑖𝑖 = 1 𝑖𝑖 = 2
�𝑃𝑃 𝑦𝑦
3
0
= 0.33 �𝑃𝑃 𝑦𝑦
3
3
= 0.33
全てのyに対して
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
最急降下法の更新式：
ただし、学習率𝛼𝛼=1とする

ニューラルネットワークの復習
29
 カテゴリの事後確率をロジスティックモデルで近似
 交差エントロピーLの最小化によりモデルパラメータを最適化
 最急降下法を用いて、モデルパラメータを決定
𝒘𝒘𝑐𝑐 = 𝑤𝑤𝑐𝑐𝑐, 𝑤𝑤𝑐𝑐𝑐, … , 𝑤𝑤𝑐𝑐𝑐𝑐
Τ
、𝑏𝑏𝑐𝑐：カテゴリ𝑐𝑐のモデルパラメータ
Τ
Τ
カテゴリの事後確率
Τ：転置
𝑖𝑖=1
𝑁𝑁
− �
𝑐𝑐=1
𝐿𝐿
𝑡𝑡𝑐𝑐
𝑖𝑖
log �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙𝑖𝑖min
𝑊𝑊,𝒃𝒃
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑁𝑁：データ数 𝐿𝐿：カテゴリの数

課題2
30
1. 以下の学習データと以下のロジスティックモデル �𝑃𝑃が
与えられた場合、交差エントロピーLを求めなさい。
3
0
,
1
0
0
,
3
3
,
0
0
1
L = �
𝑖𝑖=1
2
− �
𝑐𝑐=1
3
𝑡𝑡𝑐𝑐
𝑖𝑖
3
0
= 0.33
𝑖𝑖 = 1 𝑖𝑖 = 2
3
3
= 0.33
log(0.33)=-0.48
6/22までの

課題3
32
1. 学習データと最急降下法の更新式を用いて、各カテゴリの
モデルパラメータ𝒘𝒘𝒄𝒄
𝑡𝑡
=
0
0
、𝑏𝑏𝑐𝑐
𝑡𝑡
= 0を更新しなさい。
2. 更新したモデルパラメータを用いて、事後確率 �𝑃𝑃 𝑦𝑦 = 1
3
0
、
�𝑃𝑃 𝑦𝑦 = 3
3
3
および交差エントロピーLを求めなさい。
3. 更新による交差エントロピーの増減について考察しなさい。
3
0
,
1
0
0
,
3
3
,
0
0
1
𝑖𝑖 = 1 𝑖𝑖 = 2
3
0
= 0.33 �𝑃𝑃 𝑦𝑦
3
3
= 0.33
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
最急降下法の更新式：
ただし、𝑐𝑐=1,2,3、学習率𝛼𝛼=1とする
6/22までの

構成
37

Pythonでの実装例
 偏微分を計算しパラメータを更新するだけなので実装が容易
学習したWとbを用いて、
ソフトマックスで事後確率を計算
38
Wとbに関する偏微分を計算し、更新
詳細は以下を参照：
http://hirotaka-hachiya.hatenablog.com/entry/2017/11/22/153848

人工データの例
39
 2次元データ𝒙𝒙𝑖𝑖
を3つのカテゴリ●■▲に分類する
ニューラルネットワークを獲得したい
 学習データの例（各カテゴリ100個づつ用意）：
:i番目の学習データ点𝒙𝒙𝑖𝑖, 𝒕𝒕𝑖𝑖
カテゴリ1：𝒕𝒕 =
1
0
0
0
1
0
0
0
1

初期の事後確率
40
 ランダムにモデルパラメータ𝒘𝒘𝑐𝑐
0
、 𝑏𝑏𝑐𝑐
0
を初期化
 各カテゴリの事後確率の例：
 事後確率 �𝑃𝑃 𝑦𝑦 = 𝑐𝑐 𝒙𝒙 が最大カテゴリを選択すると正解率33%
 各カテゴリの領域で各事後確率が最大になるニューラルネットを学習したい

最急降下法によるパラメータ更新
41
 パラメータの更新式：
 学習率𝛼𝛼 = 0.1
 交差エントロピーの推移
 300回程度の更新で収束
𝒘𝒘𝑐𝑐
𝑡𝑡+1
= 𝒘𝒘𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
𝑏𝑏𝑐𝑐
𝑡𝑡+1
=𝑏𝑏𝑐𝑐
𝑡𝑡
𝑁𝑁
𝑡𝑡𝑐𝑐
𝑖𝑖
更新回数
交
差
エ
ン
ト
ロ
ピ
ー

学習後の事後確率
各カテゴリのデータが分布する領域
の事後確率が高くなっている。
42
しかし、分類境界は線形モデル 𝒘𝒘𝑐𝑐
Τ
𝒙𝒙 + 𝑏𝑏𝑐𝑐
のため、直線の境界線しか表現できない

中間層の導入
43
 活性化関数を用いて、出力層に伝達する情報を選別する
スイッチの役割
出力層
𝑠𝑠1
2
𝑠𝑠3
2
𝑠𝑠2
2
中間層
ℎ1
ℎ2
1
カテゴリ1：
exp(𝑠𝑠1
2
)
∑𝑐𝑐′ exp(𝑠𝑠𝑐𝑐𝑐
2
)
exp(𝑠𝑠2
2
)
2
)
exp(𝑠𝑠3
2
)
2
)
カテゴリ2：
カテゴリ3：
入力層
𝑥𝑥1
𝑥𝑥2
1
𝑠𝑠1
1
𝑠𝑠2
1
活性化関数の例：
シグモイド関数

3階層のニューラルネットの結果例
44
 3階層のニューラルワークで推定した各カテゴリの事後確率
3階層のニューラルネットワークでは、中間層
があることにより非線形な分類境界を表現可
階層数を増やすことにより、より複雑な境界線
を表現することができる

構成
45

文章からの感情分類
46
 感情分類：文章を肯定的か否定的かの2つのカテゴリに分類
するタスク
 Yahoo! Japanのリアルタイム検索ではツイッターの文章を
感情分類する機能が提供されている
2017年12月5日時点で、話題となった有名人
「上沼恵美子」と「とろサーモン」をリアルタイ
ム検索した例

単語・文章の特徴抽出技術
47
 文章の特徴量の例：TF(Term Frequency)特徴量
①文章を形態素解析で分割
②分割した単語ごとの出現回数を数えて、特徴量を作成
 例）
文章特徴抽出ニューラル
ネット
肯定的 or
否定的
「和歌山は、みかんの名産地です。みかんは好きですか？」
形態素解析
和歌山はみかん名産地です。、の
みかんは好きですか？
出現回数
和歌山はみかん名産地です。、の好きか？
1 2 1 2 1 1 12 1 1 1
ベクトル表現
𝒙𝒙𝑖𝑖 = 1,2,1,2,1,1,2,1,1,1,1 Τ

Amazonの商品レビューの感情分類
49
 Amazonの商品レビューの星の数が4以上を肯定的、3以下を否定的
にカテゴリ分けしたデータを1000件用意し、文章特徴量を抽出
【肯定的な例】
【否定的な例】
𝒙𝒙𝑖𝑖, 𝒕𝒕𝑖𝑖 =
1
0
𝒙𝒙𝑗𝑗
, 𝒕𝒕𝑗𝑗
=
0
1
文章特徴量
𝒙𝒙𝑖𝑖の抽出
文章特徴量
𝒙𝒙𝑗𝑗
の抽出

Amazonの商品レビューの感情分類
50
 ３階層のニューラルネットを用いた感情分類の結果の例：
正しいカテゴリ
ニューラルネットに
より分類したカテゴリ
カテゴリ：
0:否定的
1:肯定的
正解率：85%

構成
51

深層学習による画像の特徴抽出
 Convolutional Neural Network: 画像から特徴量を抽出
52
解像度：227ｘ227
識別部
解像度を圧縮し、多様な特徴量を抽出事後確率推定
52
特徴抽出部
学習画像は各カテゴリ1000枚
画像データ特徴抽出分類機械学習

手書き数字画像の分類
53
 MNISTデータ：手書き数字の画像を0、1、…9に分類
 ３階層のニューラルネットワークで、正解率は約95%
 分類結果の例：
【成功例】【失敗例】正しいカテゴリ予測したカテゴリ

レポートの提出方法
54
 演習レポート：
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート：
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

AI2018 8 ニューラルネットワークの基礎

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a AI2018 8 ニューラルネットワークの基礎

Semelhante a AI2018 8 ニューラルネットワークの基礎 (20)

Mais de Hirotaka Hachiya

Mais de Hirotaka Hachiya (6)

AI2018 8 ニューラルネットワークの基礎