SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
Joint	
  Modeling	
  of	
  a	
  Matrix	
  with	
  
Associated	
  Text	
  via	
  Latent	
  Binary	
  
Features	
XianXing	
  Zhang	
  and	
  Lawrence	
  Carin	
  
NIPS	
  2012	
  
すずかけ論文読み会#5	
  2013/08/03	
  紹介者	
  :	
  matsuda	
13/08/03	
 1
問題	
•  議員の投票行動をモデル化したい	
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
1	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
0	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  	
  	
  0	
  	
  	
  1	
  
議員P人	
法案N個	
 各法案(テキスト)	
投票だけなら,協調フィルタリングでモデル化可能.	
  
テキストが利用可能な場合,どのように用いるか?	
13/08/03	
 2	
1:賛成
0:反対
モデル	
•  FTM(Focused	
  Topic	
  Model)	
  +	
  BMF(Binary	
  Matrix	
  
FactorizaRon)のJoint	
  Model	
  
–  FTM	
  
•  IBP(Indian	
  Buffet	
  Process)	
  +	
  (H)DP(Dirichlet	
  Process)	
  
–  IBP	
  :	
  無限に「素性」が出てくるようなPrior	
  
–  DP	
  	
  :	
  無限に「クラス」が出てくるようなPrior	
  
–  BMF	
  :	
  	
  X	
  =	
  LHRT	
  (	
  L,	
  Rの要素は	
  {0,1}	
  )となる分解	
  
•  この	
  L,	
  R	
  のPrior	
  にも	
  IBP	
  を用いる	
  
•  低ランクの仮定をおく	
  
–  テキストをFTMで,voRngの行列をBMFでモデル化	
  
•  事後分布は一気にサンプリングすることで推定	
  
•  “どのように繋げるか がポイント	
13/08/03	
 3
解読しようよグラフィカルモデル	
・・・・・・!?	
図はSupplementより引用.ハイパーパラメータは省略されています.	
13/08/03	
 4
このへんLDAっぽい	
これが投票のデータ({0,1}P×N)	
Nは法案の数かな
Pは議員の人数ぽい	
このへんが繋ぎ目になりそう	
とりあえず眺めてみる	
これが単語っぽい	
プレートのKなんとかは,隠れ変数のクラス数っぽい,	
  
IBPがどうとか言っていたので可変なんだろう.	
13/08/03	
 5
Indian	
  Buffet	
  Process(IBP)	
•  無限隠れ素性モデルのPrior	
  	
  
– [Griffiths	
  and	
  Ghahramani,	
  2005]	
  
•  Chinese	
  Restaurant	
  Processは無限隠れクラスのPrior
構成法	
  
– 要するに・・・	
  
•  Binary	
  Matrixに対するPrior	
  
•  Beta-­‐Bernoulli過程の行列に対する拡張(自信なし)	
  
13/08/03	
 6
Indian	
  Buffet	
  ProcessとCRP	
•  Chinese	
  Restaurant	
  Process	
  
	
  
•  Indian	
  Buffet	
  Process	
テーブルは「クラス」	
お皿は「素性」	
from	
  hep://mlg.eng.cam.ac.uk/zoubin/talks/turin09.pdf	
  	
  
(IBPとその応用についていろいろ書いてあるスライド,おすすめ)	
13/08/03	
 7
Focused	
  Topic	
  Model(1/2)	
•  Nonparametric	
  Topic	
  Modelのひとつ[Williamson
+	
  2010](HDPの拡張)	
  
–  HDPは,コーパス全体のTopic出現率と,個々のド
キュメント内でのTopicの割合に高い相関がでてしま
う	
  
•  ドキュメント一つ一つの「専門性」が高い場合は不適切,と
いうことのよう(あくまで自分の理解)	
  
•  野球の話題に触れているドキュメントは「コーパス全体の中
の割合としては」少ないが,その数少ないドキュメントでは,
ほとんど野球にしか触れていない	
  
–  IBPを導入することで,スパースにする	
  
•  ドキュメント内の主要な部分に	
  “Focus”	
  する効果が生まれ
る	
13/08/03	
 8
Focused	
  Topic	
  Model(2/2)	
•  IBP	
  +	
  DP	
ドキュメント	
  j	
  でトピック	
  t	
  が用いられるか否か(	
  {0,1}	
  )を	
  SRck	
  Breakingでモデル	
document,	
  word	
  の生成はほぼ	
  LDA	
  と同じ	
  (	
  b	
  ●	
  λ	
  :	
  ベクトル要素ごとの積)	
  
λは全ドキュメントで共有	
  (	
  HDPの 基底に相当)	
このへん	
ふつうのHDPはλをそのまま
用いるが,FTMにおいては
0/1ベクトルbjを用いてフィル
タリングしているのがポイント	
  
※bjtがゼロのところは消える	
13/08/03	
 9
Binary	
  Matrix	
  FactorizaRon	
•  X	
  ∈	
  RP×N	
  な行列Xの分解	
  X	
  =	
  LHRT	
  
– L	
  ∈	
  {0,1}P×KL,	
  H	
  ∈	
  RKL×KR,	
  R	
  ∈	
  {0,1}N×KR	
  	
  
– KL,	
  KR	
  :	
  行列のランク(無限大のこともある)	
  
X	
H	
L	
R	
N(人数)	
P(
数
)	
KL	
P	
KR	
N	
=	
 L,	
  R はIBPでモデル(KL,	
  KRは可変)	
このへん	
13/08/03	
 10
Binary	
  Matrix	
  FactorizaRon	
  with	
  
	
  low	
  rank	
  assumpRon(1/2)	
•  観測されるvoRng行列Yは隠れた真の値にノイズが
乗ったもの(を,0/1に離散化した)と仮定	
  
–  イメージとしては,「どれくらい賛成か」という度合い	
  
	
  
•  分解された行列Hに低ランク性を仮定(Kc:小)	
  
Hを,ランク1の行列Kc個の足しあわせで表す(sk	
  :	
  重み)	
Kc,	
  skをどのように求めるか・・・・?	
このへん	
13/08/03	
 11
Binary	
  Matrix	
  FactorizaRon	
  with	
  
	
  low	
  rank	
  assumpRon(2/2)	
•  xは以下のような正規分布でモデル化	
  
–  probit	
  model	
  	
  
–  l,	
  r	
  は	
  {0,1}のベクトルであることに注意	
  
•  uk,	
  vkのうち,l,rで値が立っているとこだけFilterするイメージ	
  
•  sk,	
  Kcは	
  mulRplicaRve	
  gamma	
  process(MGP)でモデル	
  
–  ランクを深くすると,skは速やかに減少(Theorem1)	
  
–  AdapRve	
  Samplerというサンプリング法+閾値で求める	
13/08/03	
 12
BMFとFTMのJoint	
  Model	
•  FTMのbベクトルと,BMFのrベクトル	
  
–  b:FTMにおいて,ある文書中であるトピックが扱われるかどうかの0/1
ベクトル	
  
–  r	
  :	
  BMFにおいて,行列を分解した結果得られたある実数ベクトルvを,
filterするような0/1ベクトル	
  
•  v	
  :	
  Hから1ランク分とってきたようなイメージ	
  
•  単純に	
  b	
  =	
  r	
  とおく	
  
•  Inferenceは省略・・・	
  
–  ちょっとややこしすぎます	
  
•  v,u	
  :	
  Hを構成する実数値ベクトル	
  
•  sk	
  :	
  	
  ランク1行列の重み(スカラー)	
  
•  τ,	
  δ	
  :	
  MGPのパラメータ	
  
•  r	
  :	
  0/1ベクトル	
  
–  ハイパーパラメータ	
  
•  αl	
  ,	
  αr	
  :	
  IBPのbeta分布,	
  	
  αc	
  :	
  MGPのgamma分布	
  	
  
•  γ	
  :	
  FTMのgamma分布,	
  	
  	
  η	
  :	
  FTMのDirichlet分布,	
  	
  	
  κ	
  :	
  MGPのthreshold	
  
b	
  =	
  r	
13/08/03	
 13
実験に用いているデータ	
•  アメリカ合衆国下院議会のroll-­‐callデータ	
  
– 106th	
  –	
  111th	
  (1999年-­‐2010年)	
  
– 誰がどの法案に賛成したか分かる(記名投票)	
  
– 定数435,	
  法案数は書いてなかった・・・(1000くら
い?)	
  
•  (参考)アメリカはほぼ完全な二大政党制	
  
– 2013年現在,共和党	
  232,	
  民主党	
  200,	
  欠員3	
  
– 党議拘束みたいなのはほぼ無いらしい	
  
•  日本だと状況がかなり違いそう	
13/08/03	
 14
行列穴埋め実験	
縦軸:正解率,横軸:rank	
  	
Binary	
  Matrix	
  FactorizaRon	
  (with	
  low-­‐rank	
  assumpRon)の効果を確かめる	
  
(この実験においては,テキストは一切用いていない)	
PMF	
  :	
  ProbabilisRc	
  Matrix	
  FactorizaRon	
  [Salakhutdinov+,	
  NIPS’07]	
  
PMF	
  +	
  MGP	
  :	
  PMFのrankをMGPで推定	
  
BMF	
  :	
  Binary	
  Matrix	
  FactorizaRon	
  [Meeds+,	
  NIPS’06]	
  	
  (・・・フルランク?)	
  
Proposed	
  :	
  BMFのrankをMGPで推定	
13/08/03	
 15	
BMFは表現力が低いが,MGPを導入するとPMFとcompeRRveになる
新法案に対する予測	
モデルを学習したあと,テキストだけが与えられたときに,	
  
その法案が採択されるかを予測	
  
•  IPTM	
  :	
  Ideal	
  Point	
  Topic	
  Model[Gerrish	
  and	
  Blei,	
  ICML’11]	
  
•  FATM	
  :	
  因子分析+Topic	
  Model	
  +	
  Markov	
  Process[Wang+,	
  NIPS’10]	
  
横軸:トピック数(本来は自動で推論できるが,比較のため外から決定)	
  
縦軸:正解率(どう評価すべきか悩ましい)	
  
13/08/03	
 16	
IPTMについては	
  
hep://www.ism.ac.jp/~daichi/lectures/ISM-­‐2012-­‐TopicModels_day2_4_supervised.pdf	
  
の後半部分に,NTT石黒さんによる解説があります
トピックの分析	
賛成が90%以上の法案	
  
•  子供を守る	
  
•  環境問題	
  
•  テロリストへ屈しない	
賛成が60%以下の法案	
  
•  議会会期の問題?	
  
•  減税に関する問題	
  
•  すでにある法案の修正	
13/08/03	
 17	
誰もが賛成するようなトピック	
意見がわかれるようなトピック
まとめ/感想	
•  行列とテキストのJoint	
  Modelを提案	
  
–  feature側にIBP	
  Priorをおいてbinary	
  shared	
  featureを学習	
  
•  FTMのbと,BMFのrを結びつける	
  latent	
  な	
  feature	
  
–  分解の結果得られたlatent	
  real	
  matrixに低ランク性を仮定	
  
•  問題設定は面白い	
  
–  が,問題の特徴を生かしきれていない気も・・・	
  
•  政党など,同じvoteをしやすい会派(アメリカではあまり問題にならない?,Hの低ランク
性でいちおう考慮はしている)	
  
•  時間(社会の状況)によって,賛否が異なる	
  
•  どこまで問題specificにするかは難しいところ	
  
–  性能評価も難しい	
  
•  採択/非採択の2クラス予測で,90 94%はどれほどのものか	
  
•  ここまで複雑にする必要があるのか疑問	
  
–  基本的には,コンテンツ推薦システムと同様の問題設定	
  
–  content	
  –	
  collabolaRve	
  filteringのハイブリッドなら,他にもいろいろある	
  
–  やり過ぎ感がある一方,キャプチャーしきれていない要素もありそうで,何と
もいえない読後感	
13/08/03	
 18
13/08/03	
 19	
αr	
αl	
αc	
 γ	
 η	
y	
  :	
  xを0/1に離散化	
  
x	
  :	
  probit(s,u,l,v,r)	
IBP	
 IBP	
MGP	
 Dir	
gamma	
θ	
   	
  Dir(λ	
  ●	
  r)	
Mult	
Mult	
Focused	
  Topic	
  Model	
Binary	
  Matrix	
  FactorizaRon	
  with	
  low	
  rank	
  assumpRon	
Mult	
行列モデルとトピックモデ
ルでシェアされる変数	
行列分解モデル	
トピックモデル	
ドキュメント数	
ユーザー数

Mais conteúdo relacionado

Mais procurados

111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッションShohei Hido
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_distShohei Hido
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話kogecoo
 
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)Masato Mita
 
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたTokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたケンタ タナカ
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringAce12358
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習Yusuke Iwasawa
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014Sho Takase
 

Mais procurados (17)

111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist110828 tokyo scipy1_hido_dist
110828 tokyo scipy1_hido_dist
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
 
TokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみたTokyoRリプレイ - RからfastTextを使ってみた
TokyoRリプレイ - RからfastTextを使ってみた
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
 

Mais de Koji Matsuda

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKoji Matsuda
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Koji Matsuda
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源Koji Matsuda
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門Koji Matsuda
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価 Koji Matsuda
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleKoji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric LearningKoji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation MaximizationKoji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 

Mais de Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

Último

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Último (7)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

Joint Modeling of a Matrix with Associated Text via Latent Binary Features

  • 1. Joint  Modeling  of  a  Matrix  with   Associated  Text  via  Latent  Binary   Features XianXing  Zhang  and  Lawrence  Carin   NIPS  2012   すずかけ論文読み会#5  2013/08/03  紹介者  :  matsuda 13/08/03 1
  • 2. 問題 •  議員の投票行動をモデル化したい 0    1      1      1      1      0      1      0      1   0    1      1      1      1      0      1      0      1   0    1      1      1      1      1      1      0      1   0    1      1      1      1      0      1      0      1   0    1      0      1      1      0      1      0      1   0    1      1      0      1      1      1      0      1   0    1      1      1      1      0      1      0      1   1    1      0      1      1      0      1      0      1   0    1      1      1      1      0      1      0      1   議員P人 法案N個 各法案(テキスト) 投票だけなら,協調フィルタリングでモデル化可能.   テキストが利用可能な場合,どのように用いるか? 13/08/03 2 1:賛成 0:反対
  • 3. モデル •  FTM(Focused  Topic  Model)  +  BMF(Binary  Matrix   FactorizaRon)のJoint  Model   –  FTM   •  IBP(Indian  Buffet  Process)  +  (H)DP(Dirichlet  Process)   –  IBP  :  無限に「素性」が出てくるようなPrior   –  DP    :  無限に「クラス」が出てくるようなPrior   –  BMF  :    X  =  LHRT  (  L,  Rの要素は  {0,1}  )となる分解   •  この  L,  R  のPrior  にも  IBP  を用いる   •  低ランクの仮定をおく   –  テキストをFTMで,voRngの行列をBMFでモデル化   •  事後分布は一気にサンプリングすることで推定   •  “どのように繋げるか がポイント 13/08/03 3
  • 6. Indian  Buffet  Process(IBP) •  無限隠れ素性モデルのPrior     – [Griffiths  and  Ghahramani,  2005]   •  Chinese  Restaurant  Processは無限隠れクラスのPrior 構成法   – 要するに・・・   •  Binary  Matrixに対するPrior   •  Beta-­‐Bernoulli過程の行列に対する拡張(自信なし)   13/08/03 6
  • 7. Indian  Buffet  ProcessとCRP •  Chinese  Restaurant  Process     •  Indian  Buffet  Process テーブルは「クラス」 お皿は「素性」 from  hep://mlg.eng.cam.ac.uk/zoubin/talks/turin09.pdf     (IBPとその応用についていろいろ書いてあるスライド,おすすめ) 13/08/03 7
  • 8. Focused  Topic  Model(1/2) •  Nonparametric  Topic  Modelのひとつ[Williamson +  2010](HDPの拡張)   –  HDPは,コーパス全体のTopic出現率と,個々のド キュメント内でのTopicの割合に高い相関がでてしま う   •  ドキュメント一つ一つの「専門性」が高い場合は不適切,と いうことのよう(あくまで自分の理解)   •  野球の話題に触れているドキュメントは「コーパス全体の中 の割合としては」少ないが,その数少ないドキュメントでは, ほとんど野球にしか触れていない   –  IBPを導入することで,スパースにする   •  ドキュメント内の主要な部分に  “Focus”  する効果が生まれ る 13/08/03 8
  • 9. Focused  Topic  Model(2/2) •  IBP  +  DP ドキュメント  j  でトピック  t  が用いられるか否か(  {0,1}  )を  SRck  Breakingでモデル document,  word  の生成はほぼ  LDA  と同じ  (  b  ●  λ  :  ベクトル要素ごとの積)   λは全ドキュメントで共有  (  HDPの 基底に相当) このへん ふつうのHDPはλをそのまま 用いるが,FTMにおいては 0/1ベクトルbjを用いてフィル タリングしているのがポイント   ※bjtがゼロのところは消える 13/08/03 9
  • 10. Binary  Matrix  FactorizaRon •  X  ∈  RP×N  な行列Xの分解  X  =  LHRT   – L  ∈  {0,1}P×KL,  H  ∈  RKL×KR,  R  ∈  {0,1}N×KR     – KL,  KR  :  行列のランク(無限大のこともある)   X H L R N(人数) P( 数 ) KL P KR N = L,  R はIBPでモデル(KL,  KRは可変) このへん 13/08/03 10
  • 11. Binary  Matrix  FactorizaRon  with    low  rank  assumpRon(1/2) •  観測されるvoRng行列Yは隠れた真の値にノイズが 乗ったもの(を,0/1に離散化した)と仮定   –  イメージとしては,「どれくらい賛成か」という度合い     •  分解された行列Hに低ランク性を仮定(Kc:小)   Hを,ランク1の行列Kc個の足しあわせで表す(sk  :  重み) Kc,  skをどのように求めるか・・・・? このへん 13/08/03 11
  • 12. Binary  Matrix  FactorizaRon  with    low  rank  assumpRon(2/2) •  xは以下のような正規分布でモデル化   –  probit  model     –  l,  r  は  {0,1}のベクトルであることに注意   •  uk,  vkのうち,l,rで値が立っているとこだけFilterするイメージ   •  sk,  Kcは  mulRplicaRve  gamma  process(MGP)でモデル   –  ランクを深くすると,skは速やかに減少(Theorem1)   –  AdapRve  Samplerというサンプリング法+閾値で求める 13/08/03 12
  • 13. BMFとFTMのJoint  Model •  FTMのbベクトルと,BMFのrベクトル   –  b:FTMにおいて,ある文書中であるトピックが扱われるかどうかの0/1 ベクトル   –  r  :  BMFにおいて,行列を分解した結果得られたある実数ベクトルvを, filterするような0/1ベクトル   •  v  :  Hから1ランク分とってきたようなイメージ   •  単純に  b  =  r  とおく   •  Inferenceは省略・・・   –  ちょっとややこしすぎます   •  v,u  :  Hを構成する実数値ベクトル   •  sk  :    ランク1行列の重み(スカラー)   •  τ,  δ  :  MGPのパラメータ   •  r  :  0/1ベクトル   –  ハイパーパラメータ   •  αl  ,  αr  :  IBPのbeta分布,    αc  :  MGPのgamma分布     •  γ  :  FTMのgamma分布,      η  :  FTMのDirichlet分布,      κ  :  MGPのthreshold   b  =  r 13/08/03 13
  • 14. 実験に用いているデータ •  アメリカ合衆国下院議会のroll-­‐callデータ   – 106th  –  111th  (1999年-­‐2010年)   – 誰がどの法案に賛成したか分かる(記名投票)   – 定数435,  法案数は書いてなかった・・・(1000くら い?)   •  (参考)アメリカはほぼ完全な二大政党制   – 2013年現在,共和党  232,  民主党  200,  欠員3   – 党議拘束みたいなのはほぼ無いらしい   •  日本だと状況がかなり違いそう 13/08/03 14
  • 15. 行列穴埋め実験 縦軸:正解率,横軸:rank   Binary  Matrix  FactorizaRon  (with  low-­‐rank  assumpRon)の効果を確かめる   (この実験においては,テキストは一切用いていない) PMF  :  ProbabilisRc  Matrix  FactorizaRon  [Salakhutdinov+,  NIPS’07]   PMF  +  MGP  :  PMFのrankをMGPで推定   BMF  :  Binary  Matrix  FactorizaRon  [Meeds+,  NIPS’06]    (・・・フルランク?)   Proposed  :  BMFのrankをMGPで推定 13/08/03 15 BMFは表現力が低いが,MGPを導入するとPMFとcompeRRveになる
  • 16. 新法案に対する予測 モデルを学習したあと,テキストだけが与えられたときに,   その法案が採択されるかを予測   •  IPTM  :  Ideal  Point  Topic  Model[Gerrish  and  Blei,  ICML’11]   •  FATM  :  因子分析+Topic  Model  +  Markov  Process[Wang+,  NIPS’10]   横軸:トピック数(本来は自動で推論できるが,比較のため外から決定)   縦軸:正解率(どう評価すべきか悩ましい)   13/08/03 16 IPTMについては   hep://www.ism.ac.jp/~daichi/lectures/ISM-­‐2012-­‐TopicModels_day2_4_supervised.pdf   の後半部分に,NTT石黒さんによる解説があります
  • 17. トピックの分析 賛成が90%以上の法案   •  子供を守る   •  環境問題   •  テロリストへ屈しない 賛成が60%以下の法案   •  議会会期の問題?   •  減税に関する問題   •  すでにある法案の修正 13/08/03 17 誰もが賛成するようなトピック 意見がわかれるようなトピック
  • 18. まとめ/感想 •  行列とテキストのJoint  Modelを提案   –  feature側にIBP  Priorをおいてbinary  shared  featureを学習   •  FTMのbと,BMFのrを結びつける  latent  な  feature   –  分解の結果得られたlatent  real  matrixに低ランク性を仮定   •  問題設定は面白い   –  が,問題の特徴を生かしきれていない気も・・・   •  政党など,同じvoteをしやすい会派(アメリカではあまり問題にならない?,Hの低ランク 性でいちおう考慮はしている)   •  時間(社会の状況)によって,賛否が異なる   •  どこまで問題specificにするかは難しいところ   –  性能評価も難しい   •  採択/非採択の2クラス予測で,90 94%はどれほどのものか   •  ここまで複雑にする必要があるのか疑問   –  基本的には,コンテンツ推薦システムと同様の問題設定   –  content  –  collabolaRve  filteringのハイブリッドなら,他にもいろいろある   –  やり過ぎ感がある一方,キャプチャーしきれていない要素もありそうで,何と もいえない読後感 13/08/03 18
  • 19. 13/08/03 19 αr αl αc γ η y  :  xを0/1に離散化   x  :  probit(s,u,l,v,r) IBP IBP MGP Dir gamma θ    Dir(λ  ●  r) Mult Mult Focused  Topic  Model Binary  Matrix  FactorizaRon  with  low  rank  assumpRon Mult 行列モデルとトピックモデ ルでシェアされる変数 行列分解モデル トピックモデル ドキュメント数 ユーザー数