2. Table of Contents
1. 背景
2. 関連手法
3. 手法
a. Imbalanced Classification Markov Decision Process
b. Reward function for imbalanced data classification
c. DQN based imbalanced classification algorithm
4. 実験条件
5. 実験結果
2
16. Deep Q-learning for Imbalanced Classification
Markov Decision Process
準備
学習サンプルsに対して識別器 の予測結果aの予測確率は下記のように表
せる。
予測結果と学習データのラベルが同一の際の累積報酬は下記のように表せ
る。
16
17. Deep Q-learning for Imbalanced Classification
Markov Decision Process
準備
学習データと識別器の予測結果から得られる累積報酬の期待値をQ関数とし
て設定
ベルマン方程式から累積報酬を分解。現在までの報酬と未来の報酬に分解
17
18. Deep Q-learning for Imbalanced Classification
Markov Decision Process
準備
累積報酬を最大にするような識別器 は理想的なQ*関数を解くことによ
って得られる。Q*関数を最大にするような識別結果と識別器の予測結果が
一致した場合は1、それ以外は0
理想的なQ*関数は上記より書き換え
18
19. Deep Q-learning for Imbalanced Classification
Markov Decision Process
準備
Q関数はDQNの登場によって高次元で扱えるようになっているのでDQNの学
習に必要なLossを設計
はQ関数のターゲットとなる値で下記のように定義。terminalは終了するか
どうか。終了する場合は未来の結果は考慮しない
19
20. Deep Q-learning for Imbalanced Classification
Markov Decision Process
準備
パラメータθでロス関数を微分した結果は下記。
20