A scalable probablistic classifier for language modeling: ACL 2011 読み会

ACL2011読み会

坪坂正志
2011/9/3@サイボウズラボ

2011/9/3 ACL 2011 読み会@サイボウズラボ 1

紹介論文

• Joel Lang : A scalable probablistic classifier for language
modeling. ACL. 2011
– 確率的識別器を使った言語モデルに関する論文
– Kneser-NeyのようなNグラムモデルに比べ、長距離の特徴量
などを利用できる
– 同様に識別器を使った先行研究と違い、語彙数30367、1億
語以上のコーパスに対してもスケールする


言語モデル

Happy families are all alike; every unhappy
次に来る単語は？


言語モデル


• 例えばtrigramモデルではP(word | every unhappy)を
計算する


言語モデル


• 例えばtrigramモデルではP(word | every unhappy)を
計算する
• でも離れた単語に注目すると、より次の単語の予測
精度が高くなる可能性がある


トリガーモデル

• Nグラムの範囲を超えた長距離の単語の影響を組
み入れた言語モデル
• 詳しくは


どういう特徴量を使うか

• これまでの文脈が ” Yesterday at the press conference
Mr Thompson said”の場合

通常の3-gram

3-gramの一部をスキップ

3個前までの出現単語

4-8個前までの出現単語


先行研究

• [Rosenfeld 1996]
– 最大エントロピー分類器を使った言語モデル
– パラメータの推定に非常に時間がかかる
• [Bengio+ 2003]
– ニューラルネットを使った言語モデル
– これも大きなデータセットに適応するのは困難
• [Mnih and Hinton 2008]
– 語彙数20000, 1400万語のデータセットに対して適用
• [Van den Bosch 2005]
– 決定木ベースの手法
– 一億語以上のデータセットに対して適用可能
– 確率モデルではないのでperplexityでの比較が困難


先行研究 (論文では触れてない)

• 岡野原, 辻井 : 行列分解による多クラス分類とその
応用. 言語処理学会. 2010
– 単語数5379万、語彙数116万のデータに対して適用
– 確率モデルではないが、ソフトマックス関数を使って確率
値に変換している


問題設定

• 与えられた特徴量ベクトル��に対して、クラス分布
��(��|��)を推定する
– ここで一つのクラスは一つの語彙に相当する
– 特徴量ベクトル �� = (��1 , … , �� )
– 特徴量はバイナリを仮定 (�� ∈ *0,1+)
– 各特徴量は「直前の単語列が”* Thompson said”である」、
「4-8単語前までに”conference”が出現」などを意味する
• ここで特徴量ベクトルの次元は非常に大きいが、ア
クティブな(非ゼロ)なものの数は少ない
– 例えば先程の例では17個


VMM (Variable mixture model)

• 各�� ごとに��(��|�� )を定める
• さらに特徴量ごとに予測の強さ�� ∈ ��を定める
• このとき��(��|��, ��)を次のようにモデル化する


最大エントロピーとの比較

• (2)式を変形すると最大エントロピーの式に近い形に
なる


最大エントロピーとの比較

• 最大エントロピーにおいては規格化定数の計算量
がクラス数(語彙数)に比例する
• 一方VMMでは計算量は有効な特徴量の数に比例
する
– クラス数によらない


��(�� |�� )の推定

• ここに関しては決定的に行う
• absolute discountを使ったsmoothing
• 特徴量�� がアクティブだったときに�� である確率


��の推定

• 最尤推定を行う
• パラメータの推定アルゴリズムにはSGA (Stochastic
gradient ascent)を使う
– なお、パラメータの推定では全データ点を一回舐めるだけ
で十分であった。
– 逆に複数回見た場合、過学習の傾向が見られた


leave-one-out

• 勾配計算においてデータ点を取ってきたときに
��(�� |�� )の計算に取ってきたデータ点の寄与をとり
のぞいて計算する
– これにより汎化性能が向上する


実験

• RCV1データを利用
– 総語彙数 30367 (week 31において頻度4以下の単語はout-of-
vocabulary(UNK)に変換)
– week 50のデータをディベロップメントセット、week 51のデータ
をテストセットとする
– 訓練データとしては4種類のサイズのデータを用意
• D1 (week 1, 3.1M words), D2 (week 1-3, 10M words), D3(week 1-10,
37M words), D4 (week 1-30, 113M words)


利用するモデル

• KN : modified Kneser-Ney
• VM-BA (basic) : N-gram特徴量のみを利用
• VM-SR (short range) : BAに加え、skip N-gramとN個
前までの単語をBOFにした特徴量を利用
• VM-LR (long range) : SRに加え、長距離の単語をBOF
にした特徴量を利用


実験結果

• 長距離の特徴量を使った
VM-LRのperplexityが最も小
さくなっている
• D4においてVM-LRの学習時
間が30分に対してKNは6分
• D3,D4においてN=5がないの
はメモリ不足のため


実は結果をプロットしてみると(論文にはない)

• コーパスサイズを増やしていくと、モデルによる
perplexityの違いは少なくなる(cf [Brants+ 2007])


まとめ

• スケーラブルかつ豊富な特徴量を利用できる確率
的分類器のモデルであるVMMを提案した
– 加えて実装は単純
• 言語モデルに適応したところ、Nグラムモデルである
Kneser-Neyよりも高い精度となった
• 今後はメモリの使用量の改善などを行いたい


参考文献

• R. Rosenfeld : A maximum entropy approach to adaptive
statistical language modeling. Computer, speech and
language. 1996
• Y. Bengio+ : A neural probabilistic language model.
Journal of Machine Learning Research. 2003
• A. Mnih and G. Hinton : A scalable hierachical distributed
language model. NIPS. 2008
• A. Van den Bosch : Scalable classification-based word
prediction and confusible correction. Traitement
automatique des langues. 2005
• T. Brants+ : Large Language Models in Machine
Translation. EMNLP. 2007


A scalable probablistic classifier for language modeling: ACL 2011 読み会

Recommended

Recommended

More Related Content

Similar to A scalable probablistic classifier for language modeling: ACL 2011 読み会

Similar to A scalable probablistic classifier for language modeling: ACL 2011 読み会 (20)

More from 正志坪坂

More from 正志坪坂 (20)