O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
第3章  ベイズの識識別規則  後半
第3回『はじめてのパターン認識識』読書会 #はじパタ
16th July, 2013 @millionsmile
3.2 受信者動作特性曲線
要はROC曲線とAUCの話です。
ROC曲線のはじまり
受信動作特性曲線(ROC曲線; receiver operator characteristics
curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出
するための⽅方法として開発された。
出典: Wik...
ROC曲線の⾔言葉葉の定義
2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と
なる。
属していると判断  →  p(陽性;positive)
属していないと判断  →  n(陰性;negative)
正しく分類されてい...
ROC曲線で性能評価値を計算
ROC曲線の求め⽅方
偽陽性  →  偽のものを真と判断した割合
真陽性  →  真のものを正しく真と判断した割合
正確度度  →  真と偽を正しく識識別した割合
適合率率率  →  検索索された⽂文書中の適合⽂文書の割合
          ...
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
Answer
検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ
げるために誤りを減ら...
ROC曲線の求め⽅方
ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ
にしたもの(右図)
[よいところ]
偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の
クラス内で計算するため、クラスのデータ数に⼤大
きな差があってもROC曲線に...
ROC曲線の求め⽅方
陽性と陰性のクラス分布(右図)
p(x|p*)が陽性のクラスの尤度度
p(x|n*)が陰性のクラスの尤度度
識識別境界がBとき、R1の領領域が陽性、R2が陰性
陽性クラスのうち、ε1が陰性と判断(偽陰性)
ε2が陽性と判断...
ROC曲線による性能評価(AUC)
ROC曲線は、クラス間の重なりが少ないほど左
上にシフトする。
ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC;
area under ROC curve)といい、識識別器の性能
をあらわす評価尺度度と...
ROC曲線による性能評価(AUC)
ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる
点である。
ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。
しきい値をいくつか設定していくことで、RO...
ROC曲線による性能評価(AUC)
奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。
抜粋
例例えば11で切切って,11以上を陽性(positive),11未満を陰性
(negative)とした場合,10個のTのうち5個がpositiv...
AUCってマーケティングにも使
えますねー、itoさん!
ここから本に書いているネタです。(あらすじ)
例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす
る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入...
Rではこう書く
2項ロジスティック回帰の求め⽅方。
glm(y ~ x, data, family=“binomial”)
AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに
よって計算ロジックが異異なります...
Próximos SlideShares
Carregando em…5
×

はじめてのパターン認識勉強会 20130716

9.915 visualizações

Publicada em

『はじめてのパターン認識』読書会の発表資料。
第3章ベイズの識別規則の後半になります。

Publicada em: Educação
  • Seja o primeiro a comentar

はじめてのパターン認識勉強会 20130716

  1. 1. 第3章  ベイズの識識別規則  後半 第3回『はじめてのパターン認識識』読書会 #はじパタ 16th July, 2013 @millionsmile
  2. 2. 3.2 受信者動作特性曲線 要はROC曲線とAUCの話です。
  3. 3. ROC曲線のはじまり 受信動作特性曲線(ROC曲線; receiver operator characteristics curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出 するための⽅方法として開発された。 出典: Wikipedia http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF %A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7 そのため「受信者動作特性」というレーダーっぽい感じの名前がついて いるようだが、この計算⽅方法は、分類アルゴリズムの性能評価法として、 医療療分野でよく使われている。ミスがあってはならぬ世界ですからね。
  4. 4. ROC曲線の⾔言葉葉の定義 2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と なる。 属していると判断  →  p(陽性;positive) 属していないと判断  →  n(陰性;negative) 正しく分類されている  →  真(True) 間違って分類されている  →  偽(False)
  5. 5. ROC曲線で性能評価値を計算
  6. 6. ROC曲線の求め⽅方 偽陽性  →  偽のものを真と判断した割合 真陽性  →  真のものを正しく真と判断した割合 正確度度  →  真と偽を正しく識識別した割合 適合率率率  →  検索索された⽂文書中の適合⽂文書の割合             例例)検索索エンジンで100件表⽰示されたとき、100件のうち、             検索索者が必要とするページ数の割合 再現率率率  →  適合している全⽂文書からどれだけ検索索できているか(網羅羅性)             例例)検索索エンジンで100件表⽰示されたとき、検索索者が必要とする             全ページのうち何件が100件に含まれているかという割合             ただし、検索索者が必要とする全ページ数はわからないので、             真陽性率率率をつかって推定を⾏行行う。真陽性率率率だと正しいものの             数が正確にわかっているため。
  7. 7. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。
  8. 8. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。 Answer 検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ げるために誤りを減らそうとすると、必要なページまで検索索対象からはずすこ とになるので、80件検索索されて75件正しいというようなことになり、結果と して再現率率率が下がる。
  9. 9. ROC曲線の求め⽅方 ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ にしたもの(右図) [よいところ] 偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の クラス内で計算するため、クラスのデータ数に⼤大 きな差があってもROC曲線には影響うけない。 [活⽤用例例] 医療療では、病気のクラスは健康なクラスに⽐比べて データ数が極端に少ないが、それでも安定した性 能評価が期待できる。
  10. 10. ROC曲線の求め⽅方 陽性と陰性のクラス分布(右図) p(x|p*)が陽性のクラスの尤度度 p(x|n*)が陰性のクラスの尤度度 識識別境界がBとき、R1の領領域が陽性、R2が陰性 陽性クラスのうち、ε1が陰性と判断(偽陰性) ε2が陽性と判断(偽陽性)されたもの。 ε1を第1種の誤り(miss)、 ε2が第2種の誤り(false alarm) 陽性クラスのうち、陽性と判断される割合は、 1-ε1となる
  11. 11. ROC曲線による性能評価(AUC) ROC曲線は、クラス間の重なりが少ないほど左 上にシフトする。 ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC; area under ROC curve)といい、識識別器の性能 をあらわす評価尺度度として使われる。 ※テキストでは”AUR”となっていますが、問い合わせたとこ ろ、”AUC”が正しいとのことです。そのうち正誤表に反映されるらしい です。 AUCは1.0〜~0.5の間をとり、1.0に近いほど性能 がよいと判断できる。1.0(左上の位置)だと完全 な識識別器であり、0.5(右上から左下への線)だと ランダムな識識別器となる。 AUC
  12. 12. ROC曲線による性能評価(AUC) ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる 点である。 ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。 しきい値をいくつか設定していくことで、ROC曲線が描かれる。
  13. 13. ROC曲線による性能評価(AUC) 奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。 抜粋 例例えば11で切切って,11以上を陽性(positive),11未満を陰性 (negative)とした場合,10個のTのうち5個がpositiveに⼊入り ますので,true positive(真陽性)の割合は0.5です。また,5 個のFのうち1個がpositiveに⼊入りますので,false positive(偽 陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。 出典:奥村先⽣生のサイト「ROC曲線」 http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
  14. 14. AUCってマーケティングにも使 えますねー、itoさん! ここから本に書いているネタです。(あらすじ) 例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入者グループを0と し、2項ロジスティック回帰分析にかけてみる。 2項ロジスティックだと、オッズ⽐比が求められるので、これによってどちらの グループに属しやすいのかがわかる。例例えば、オッズ⽐比が1.5だと、1のグルー プに1.5倍の確率率率で属しやすくなるといったようなこと。 ただ、属しやすさがわかったものの、精度度がどのくらいかがいまいちわからな い。そこでAUCをつかってみると、より注⽬目して調査する説明変数を絞り込 むことができる。
  15. 15. Rではこう書く 2項ロジスティック回帰の求め⽅方。 glm(y ~ x, data, family=“binomial”) AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに よって計算ロジックが異異なります。状況にあわせて使った⽅方がよさそう。 例例 logistics <- glm(y ~ x, data, family=“binomial”) summaryLogistics <- summary(logistics ) colAUC(predict(summaryLogistics , type="response"), y, alg="ROC")))

×