Deep reinforcement learning for imbalanced classification

Deep Reinforcement Learning
for Imbalanced Classification

Table of Contents
1. 背景
2. 関連手法
3. 手法
a. Imbalanced Classification Markov Decision Process
b. Reward function for imbalanced data classification
c. DQN based imbalanced classification algorithm
4. 実験条件
5. 実験結果
2

データはインバランスなケースが多い
▸ クラス分類においてクラスのデータ分布は不均一であることが多い
▸ 深層強化学習をインバランスなデータに適用するケースは少ない
▹ 深層強化学習を用いてインバランスなデータに対する識別精度の
高いモデル作成を試みる
▹ 報酬の設計を変更することでインバランスなデータの学習を
可能にする
● * ここからはデータ数が少ないクラスのデータをマイノリティクラス、
データ数が多いクラスをマジョリティクラスと表記
● * Deep Q networkはDQNと表記
4

インバランスなデータに対する手法
▸ データレベルの手法
▹ マイノリティクラス：オーバーサンプル
▹ 手法：SMOTE
▹ 線形補完により新しいサンプルを生成する手法
▹ 欠点：オーバーフィット
▹ マジョリティクラス：アンダーサンプル
▹ 手法: NearMiss
▹ Nearest neighbor法で距離が近いサンプルのみ残す手法
▹ 欠点：情報落ち
6
:

インバランスなデータに対する手法
▸ アルゴリズムレベルの手法
▹ Cost sensitive learning
▹ マイノリティクラスの識別成果をlossで高く評価する
▹ Ensemble Learning
▹ 個別の識別器で学習して投票もしくは組み合わせにより良い
精度のものを選択
▹ Decision threshold adjustment
▹ 学習はインバランスなデータ。評価の際に閾値を設定して評
価
7

手法
▸ Imbalanced Classification Markov Decision Process
▹ 強化学習の枠組みで適用できる形にするため、学習データを連続
的に得られるMarkov Decision Processの形で提供してインバラン
スな識別器を学習
▸ Reward function for imbalanced data classification
▹ インバランスなデータを学習するための報酬設計
▸ DQN based imbalanced classification algorithm
▹ DQNに基づいたインバランスなデータに対する識別器の学習のア
ルゴリズム
9

Imbalanced Classification
Markov Decision Process
10

Imbalanced Classification Markov Decision Process
▸ State
▹ 得られる学習データのサンプル
▹ ステップごとに学習データサ
ンプルが与えられる
▸ Action
▹ 識別器が予測した識別結果
▸ Reward
▹ Stateに対するActionによって得られ
る報酬。マイノリティクラスの報酬
が高くなるように設計
▸ Transition probability
▹ 次にどのような学習データが得られ
るかの確率（学習データは順番通り
に得られるのであまり寄与しない）
11

Imbalanced Classification Markov Decision Process
▸ Discount factor
▹ 未来の報酬に対するディスカウント
要素
▸ Episode
▹ どの時点で学習を終了させるかを決
めています
▹ 全データもしくはマイノリテ
ィクラスを誤分類で終了
▸ Policy
▹ 識別器
▹ 学習パラメータθを用いて表
すととなる
12

Reward function for imbalanced
data classification
13

インバランスなデータに対する報酬
予測したラベルとデータのラベルが同一の場合は正の報酬を与え、異なる
場合は負の報酬を与える。
: マイノリティクラスのデータ
: マジョリティクラスのデータ
: データの正解ラベル
: 識別器が予測した結果
: 1であればマイノリティとマジョリティを同一として扱うので1以下
実験では調整して評価しているがの時が精度が良かった。
14

DQN based imbalanced
classification algorithm
15

Deep Q-learning for Imbalanced Classification
準備
学習サンプルsに対して識別器の予測結果aの予測確率は下記のように表
せる。
予測結果と学習データのラベルが同一の際の累積報酬は下記のように表せ
る。
16

準備
学習データと識別器の予測結果から得られる累積報酬の期待値をQ関数とし
て設定
ベルマン方程式から累積報酬を分解。現在までの報酬と未来の報酬に分解
17

準備
累積報酬を最大にするような識別器は理想的なQ*関数を解くことによ
って得られる。Q*関数を最大にするような識別結果と識別器の予測結果が
一致した場合は1、それ以外は0
理想的なQ*関数は上記より書き換え
18

準備
Q関数はDQNの登場によって高次元で扱えるようになっているのでDQNの学
習に必要なLossを設計
はQ関数のターゲットとなる値で下記のように定義。terminalは終了するか
どうか。終了する場合は未来の結果は考慮しない
19

準備
パラメータθでロス関数を微分した結果は下記。
20

Influence of reward function:
インバランスなデータにおける報酬関数
Q関数のターゲットとなるがマジョリティクラスとマイノリティクラスで
異なる。はindicator関数で予測結果とデータのラベルが同一の場合に1にな
る。
21

Q関数の微分はマイノリティクラスとマジョリティクラスで下記のようにな
る。
22

式11を式13に、式12を式14に代入し、それぞれを足して１つのロス関数にまと
める
23

Algorithm
● 初期の設定
○ 学習データと何エピソード行うか設
定
○ バッチサイズ分確保するExperience
replay memoryを初期化
○ 学習パラメータをランダムに初期化
○ シミュレーション環境変数を初期化
24

Algorithm
● 学習処理
○ データをシャッフル
○ 学習データを取得
○ 学習データから予測結果を取得
○ STEP関数に予測結果とラベルを与え
る。報酬と終了すべきかどうか返却
■ STEP関数の説明は後述
○ Experience replay memoryに学習サン
プル、予測結果、報酬、次の学習サ
ンプル、終了フラグをセット
○ Experience replay memoryから学習サ
ンプル、予測結果、報酬、次の学習
サンプル、終了フラグをランダムに
取得
25

Algorithm
● 学習処理
○ ターゲットのを設定
■ Terminal = True
● 報酬を設定
■ Terminal = False
● 報酬と未来の報酬を設
定
○ Q関数のターゲットとQ関数からロ
ス関数を設定し学習
○ Terminal = Trueで学習終了
26

Algorithm
● STEP関数
○ terminalはFalseに設定
○ 学習データがマイノリティなデータ
とマジョリティなデータで報酬が変
更される
○ マイノリティなデータで識別結果が
ミスすればterminalをTrueにしてその
エピソードの学習を終了する
27

比較手法
● DNN
○ 特に工夫をしていない深層学習モデル
● ROS
○ マイノリティクラスにオーバーサンプルを使用
● RUS
○ マジョリティクラスにアンダーサンプルを使用
● MFE
○ Mean false error をロス関数に使用
● CSM
○ マイノリティクラスの誤分類を過大評価
29

比較手法
● DTA
○ 学習時は何もせず、テストの際にクラスごとに優先付けを行う
30

評価方法
● ポジティブとネガティブの2値の評価
● G-mean 解説動画 https://www.youtube.com/watch?v=_UdGUULKN-E
● F-measure
https://en.wikipedia.org/wiki/Sensitivity_and_specificity#Sensitivity
31

データセット
● IMDB
○ 映画のテキストデータセット。ポジティブ、ネガティブのラベル
が付いている。ポジティブレビューをポジティブクラス
● MNIST
○ 2をポジティブクラス。他はネガティブクラス
● Fashion-Mnist
○ 10カテゴリのファッションデータ
● Cifar10
32

データセット
33
● Fashion MNIST
○ (1)
■ Positive: T-Shirt, Pullover
■ Negative: Trouser, Dress
○ (2)
■ Positive: Coat, Sandal, Shirt
■ Negative: Sneaker, Bag, Ankle boot
● Cifar10
○ (1)
■ Positive: automobile
■ Negative: cat, deer, dog, frog
○ (2)
■ Positive: horse
■ Negative: ship, truck

ネットワークアーキテクチャテキストデータ
34

ネットワークアーキテクチャ画像データ
35

パラメータ
● ε-greedy法ε: 1.0-> 0.01
● Replay memory: 50000
● Optimizer: Adam
● 学習率: 0.00025
● バッチサイズ: 64
● 報酬率: 0.1
36

通常の深層学習と本手法の比較
38

インバランス率を変えた時のG-Mean
39

インバランス率を変えた時のF-measure
40

マイノリティクラスの報酬率を変えた時のG-
Mean 同一データセット
41

マイノリティクラスの報酬率を変えた時のG-
Mean 異なるデータセット
42

References
44
▸ Deep Reinforcement Learning for
Imbalanced Classification

Deep reinforcement learning for imbalanced classification

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Deep reinforcement learning for imbalanced classification

Notas do Editor