SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
[Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
       Large-Margin Kernel Machines

                2011/07/16
     中谷秀洋 @ サイボウズ・ラボ株式会社
            @shuyo / id:n_shuyo
References
• [Blei & Jordan 06] Variational inference
  for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
  Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
  Collapsed variational Dirichlet process
  mixture models
• [Zhu & Xing JMLR09] Maximum entropy
  discrimination Markov networks
Infinite SVM (iSVM)
• (多クラス)SVM を DPM で混合化
• VB+リスク関数(相対エントロピー
  を含む)の最小化で推論
• ソフトマージンはslack変数で




• って書いてあるけど、[Zhu & Xing 09] + DPM
  という方が正しい気がする
Maximum Entropy
     Discrimination (MED)   [Jaakkola+ 99]

• 識別関数 + large margin に確率モデル
  を入れて、エントロピー最大原理で解く
 – パラメータに事前分布
 – 識別関数を logit で定義し、境界条件によっ
   て admissible set を記述
 – 事前分布P0から射影
   (相対エントロピー最小)
MED (1)
• 識別関数


• Minimum Relative Entropy(MRE)
  – 次の制約の下で、KL(P||P0) を最小化


  – marginに分布を入れて、ソフトマージン実現
                                        低い確率で
    • ������0 (������������ ) =   ������������ −������ 1−������������   誤判定を許す
                                                     ������������
                                            0    1
MED (2)
• 定理:MRE の解は次の形になる


 – ただし λ はラグランジュ乗数であり、
   J(λ)=-log Z(λ) の unique maximum
MED (3)
• MED は SVM を special case として含む
 – 識別関数
                             1
   • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく
                             2

 – θ~N(0,1), b は無情報事前分布
 – このとき J(λ) は次のようになる
iSVM のモデル (1)
• V, Z は Dirichlet Process
                             V~GEM(α)
                             ηは後述


                             点dが属する
                             コンポーネント
iSVM のモデル (2)
• X は指数型分布族、γはその共役事前分布
iSVM のモデル (3)
• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義


    • Y には分布が入っていない
  – ηは(例えば)ガウス分布からサンプリング
予測ルール
• ベイズ予測
推論 / VBパート (1)
                                                     [Blei & Jordan 06]

• 独立性を仮定して事後分布を推定
 – ������ ������, ������, ������, ������ =
      ������
      ������=1  ������ ������������ ������ ������ ������������
                       ������=1
                                 ������
                                 ������=1 ������   ������������   ������−1
                                                  ������=1 ������   ������������
 – DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
 – Yに分布が入っていないから
推論 / VBパート (2)
• 例:q(v)の推論
                     1          ������                                  ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ =                   ������ ������������ とすると、

 – ln ������(������) = ������������    ������,������,������   ������������ ������ ������, ������, ������, ������, ������
   = ln ������0 ������ +         ������ ������������������ [ln ������(������������ |������)]    + ������������������������������.
                                                           ������
   ln ������(������������ ) =   ln ������0 ������ + ������ ������ ln ������������ +            ������=������+1 ������
                                                                      ������   ln 1 − ������������ +������������������������������
 – ������0 ������������ = Beta 1, ������ とおくと、
                                                ������
     • ������ ������������ = Beta(1 + ������ ������ , ������ +                    ������
                                                ������=������+1 ������ )

• q(γ) も同様に計算できる。
(参考)Collapsed variational DPM
                          [Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
  – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
  ることで、切り詰めによる誤差を抑えている?
推論 / リスク最小化パート (1)
                                       たぶんq(z)の
• q(z)とq(η)を推定する                        間違い




                  = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から
                  ������, ������の寄与分を除いたもの




          = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
推論 / リスク最小化パート (2)


                = 0 (if y is correct)
                                         [Zhu & Xing 09]
                = 2 (otherwise)
      F(y,xd)
                       margin
                           ∆
                       ≥ ������������ (������) for all y


                yd
推論 / リスク最小化パート (3)
• これを解くと、


 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると


                     1          ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
Experiments (1)
• 人工データ




 – MNL = Multinominal Logit
 – dpMNL = DP mixture of MNL (Shahbaba+
   JMLR09)
Experiments (2)
• images of 13 type animals (SIFT特徴量)




  – MMH = multiview method (Chen+ 2010)
  – kmeans+SVM = kmeans でクラスタリング+各ク
    ラスタを linear SVM

Mais conteúdo relacionado

Mais procurados

パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンHiroshi Nakagawa
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会Kenyu Uehara
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisTatsuki SHIMIZU
 
topology of musical data
topology of musical datatopology of musical data
topology of musical dataTatsuki SHIMIZU
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンNobuyukiTakayasu
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 
第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)Shin Asakawa
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んsleepy_yoshi
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 

Mais procurados (19)

ロマ数16 simizut
ロマ数16 simizutロマ数16 simizut
ロマ数16 simizut
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
Prml 4.3.5
Prml 4.3.5Prml 4.3.5
Prml 4.3.5
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
Python opt
Python optPython opt
Python opt
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
topology of musical data
topology of musical datatopology of musical data
topology of musical data
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 

Destaque

IKT Het nieuwewerven
IKT Het nieuwewervenIKT Het nieuwewerven
IKT Het nieuwewervenEric Kramer
 
Facebook Timeline für Seiten
Facebook Timeline für SeitenFacebook Timeline für Seiten
Facebook Timeline für SeitenGoldbach Group AG
 
It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2IT Pathshala
 
Social Media and Search Engine Marketing For Business FEDA 20140401
 Social Media and Search Engine Marketing For Business FEDA 20140401 Social Media and Search Engine Marketing For Business FEDA 20140401
Social Media and Search Engine Marketing For Business FEDA 20140401Eddie Bluff
 
Presentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e EeuwPresentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e EeuwSee Genius
 

Destaque (7)

IKT Het nieuwewerven
IKT Het nieuwewervenIKT Het nieuwewerven
IKT Het nieuwewerven
 
Facebook Timeline für Seiten
Facebook Timeline für SeitenFacebook Timeline für Seiten
Facebook Timeline für Seiten
 
Poison[1]
Poison[1]Poison[1]
Poison[1]
 
Project Preparation Worksheet
Project Preparation WorksheetProject Preparation Worksheet
Project Preparation Worksheet
 
It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2
 
Social Media and Search Engine Marketing For Business FEDA 20140401
 Social Media and Search Engine Marketing For Business FEDA 20140401 Social Media and Search Engine Marketing For Business FEDA 20140401
Social Media and Search Engine Marketing For Business FEDA 20140401
 
Presentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e EeuwPresentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e Eeuw
 

Semelhante a Infinite SVM - ICML 2011 読み会

Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装するShuhei Iitsuka
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010JAVA DM
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜Tomoki Yoshida
 
MMDs 12.3 SVM
MMDs 12.3 SVMMMDs 12.3 SVM
MMDs 12.3 SVMmfumi
 
Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合Yoshiteru Kamiyama
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) Takahiro (Poly) Horikawa
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16Yo Ehara
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knnsesejun
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programmingKeisuke OTAKI
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンMotoya Wakiyama
 

Semelhante a Infinite SVM - ICML 2011 読み会 (20)

Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
MMDs 12.3 SVM
MMDs 12.3 SVMMMDs 12.3 SVM
MMDs 12.3 SVM
 
Cv 14th
Cv 14thCv 14th
Cv 14th
 
Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Sparse models
Sparse modelsSparse models
Sparse models
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 

Mais de Shuyo Nakatani

画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15Shuyo Nakatani
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networksShuyo Nakatani
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)Shuyo Nakatani
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Shuyo Nakatani
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?Shuyo Nakatani
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRShuyo Nakatani
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRShuyo Nakatani
 
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...Shuyo Nakatani
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyoShuyo Nakatani
 
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPShuyo Nakatani
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...Shuyo Nakatani
 
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014Shuyo Nakatani
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測Shuyo Nakatani
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5Shuyo Nakatani
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013Shuyo Nakatani
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013Shuyo Nakatani
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 

Mais de Shuyo Nakatani (20)

画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
 
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
 
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
 
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 

Infinite SVM - ICML 2011 読み会

  • 1. [Zhu, Chen and Xing ICML2011] Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  • 2. References • [Blei & Jordan 06] Variational inference for Dirichlet process mixtures • [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination • [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models • [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  • 3. Infinite SVM (iSVM) • (多クラス)SVM を DPM で混合化 • VB+リスク関数(相対エントロピー を含む)の最小化で推論 • ソフトマージンはslack変数で • って書いてあるけど、[Zhu & Xing 09] + DPM という方が正しい気がする
  • 4. Maximum Entropy Discrimination (MED) [Jaakkola+ 99] • 識別関数 + large margin に確率モデル を入れて、エントロピー最大原理で解く – パラメータに事前分布 – 識別関数を logit で定義し、境界条件によっ て admissible set を記述 – 事前分布P0から射影 (相対エントロピー最小)
  • 5. MED (1) • 識別関数 • Minimum Relative Entropy(MRE) – 次の制約の下で、KL(P||P0) を最小化 – marginに分布を入れて、ソフトマージン実現 低い確率で • ������0 (������������ ) = ������������ −������ 1−������������ 誤判定を許す ������������ 0 1
  • 6. MED (2) • 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  • 7. MED (3) • MED は SVM を special case として含む – 識別関数 1 • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく 2 – θ~N(0,1), b は無情報事前分布 – このとき J(λ) は次のようになる
  • 8. iSVM のモデル (1) • V, Z は Dirichlet Process V~GEM(α) ηは後述 点dが属する コンポーネント
  • 9. iSVM のモデル (2) • X は指数型分布族、γはその共役事前分布
  • 10. iSVM のモデル (3) • ������ ∈ 1, ⋯ , ������ を使って識別関数を定義 • Y には分布が入っていない – ηは(例えば)ガウス分布からサンプリング
  • 12. 推論 / VBパート (1) [Blei & Jordan 06] • 独立性を仮定して事後分布を推定 – ������ ������, ������, ������, ������ = ������ ������=1 ������ ������������ ������ ������ ������������ ������=1 ������ ������=1 ������ ������������ ������−1 ������=1 ������ ������������ – DPMのトピック数をT(=20)に制限 • vとγは通常のVBでそのまま推論できる • zとηはできない – Yに分布が入っていないから
  • 13. 推論 / VBパート (2) • 例:q(v)の推論 1 ������ ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、 – ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������ = ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������. ������ ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������ ������ ln 1 − ������������ +������������������������������ – ������0 ������������ = Beta 1, ������ とおくと、 ������ • ������ ������������ = Beta(1 + ������ ������ , ������ + ������ ������=������+1 ������ ) • q(γ) も同様に計算できる。
  • 14. (参考)Collapsed variational DPM [Kurihara, Welling & Teh IJCAI07] • DPMをVBで解くには、トピック数をTで切り詰める – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0 • Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  • 15. 推論 / リスク最小化パート (1) たぶんq(z)の • q(z)とq(η)を推定する 間違い = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から ������, ������の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  • 16. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu & Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ ������������ (������) for all y yd
  • 17. 推論 / リスク最小化パート (3) • これを解くと、 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると 1 ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
  • 18. Experiments (1) • 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  • 19. Experiments (2) • images of 13 type animals (SIFT特徴量) – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各ク ラスタを linear SVM