首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。
6. Base Model
辞書 - 80万単語
レンマ,POS,活用形 の情報を含む
JUMAN辞書
追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル
で主に構成
Scoring function
Features
単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)
文字種,trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル
7. Base Model
Training
重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
out-of-vocabulary (OOV) の取り扱い
解析時:文字種で入力列を分割することで自動で単語を生成
学習時:辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
Decording
second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7
9. RNNLM Integrated Model
Decording
RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し,ビーム幅中の可能
なcontext 候補のみ保持する
十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
各候補は context を表現するベクトルを持ち,
二つの単語の履歴を持つ
9
10. Experiments - Data sets
人手タグ付きコーパス
(RNNLMの再学習, base model の学習に利用)
Kyoto University Text Corpus (Kawahara et al.,
2002)
Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
Test : 2000, Develop : 500, Train : 45000
10
11. Experiments - Baselines
JUMAN
MeCab
Base model のみ
Base model + 従来の言語モデル
3-gram 言語モデル(同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成)
11
12. Experiments - Settings
事前に設定するパラメータ
ビーム幅:5
C_p = 5 (Mikolov et al. 2011)のデフォルト値
チューニングするパラメータ
development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain(提案手法) 0.3 1.5
RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用
RNNLM の学習リソース
自動で単語分割され構築されたコーパス
人手でラベル付けされたコーパス
Recurrent Neural Net-work trained jointly with Maximum Entropy model