More Related Content
Similar to Segmenting Sponteneous Japanese using MDL principle
Similar to Segmenting Sponteneous Japanese using MDL principle (20)
Segmenting Sponteneous Japanese using MDL principle
- 2. 本発表の概要
N-gram言語モデル向けの
教師なし単語分割法を提案
本研究が対象としている単語分割の説明
提案手法の概要
結果:形態素解析による分割を改善すること
に成功
2
- 3. 背景
目的: 言語モデル性能の向上
音声認識候補の
順位付け
生 単語ベース
単語分割された
コーパ N-gram 文書とクエリの
コーパス
ス 言語モデル 類似度評価
うまい単語分割ができると、
言語モデルやその応用システムの性能が向上する
3
- 5. なぜ教師なし学習か
作業コストが低い
辞書の作成、単語分割済みコーパスが不要
形態素や人間の基準がよいとは限らない
区切りの与え方はドメイン次第
[よろしく][お][願い][し][ます] ?
[よ][ろ][し][く][お][願][い][し][ま][す] ?
[よろしくお願いします] ?
5
- 6. 提案手法(学習)
仮の単語分割済み
コーパス
(最初は文字分割など)
1. 隣接して現れる2単語の対のうち、
ある指標(コーパスの記述長)の減少幅が最大の
組を連結する
改良された
2. 連結されたものを1単語とみなして、
単語分割済み
同じ手続きを繰り返す コーパス
3. 1.で減少する候補がなくなったら終了
4. 連結した単語対を連結した順に出力する
6
- 7. 何を最適化するか
N-gram パープレキシティ N-gram 符号化による記述長
(提案)
言語モデルの性能指 パープレキシティ+辞
標そのもの 書の符号長
N=1の場合のみしか
N=2の場合の実用的な
実現されていない
計算が可能になった
この基準のみでは、
過学習に陥る 指標自身が過学習を防
いでいる 7
- 8. 記述長の定義
記述長は コーパスの符号長 と 辞書の符号長 の和
コーパスの符号長
#w 1 w 2
− ∑ ∑ #w 1 w 2 log
#w 1
w1 ∈辞書 w 2 ∈辞書
辞書の符号長
#辞書中の c
− ∑ ∑ log 語彙数
w ∈辞書 c∈w
8
- 10. 提案手法(適用)
基本的には
学習で出力された連結手順をそのまま再現する
予備実験の結果
連結手順すべてを適用すると、
連結が起こりすぎて言語モデルの性能が悪化
ヘルドアウトデータを用いて
最適な連結数を決定する
10
- 15. 実験
対話音声書き起こし文(約25万字)を使用
言語モデルの訓練 ヘルドアウト 評価
19 : 1 : 1
次を比較
形態素解析(MeCab)による分割
文字を初期分割にした提案手法
MeCabを初期分割にした提案手法
2-gram言語モデルの文字あたりパープレキシ
ティで性能を評価
15
- 17. 結果
文字当たりパープレキシティ 提案手法
(文字)
提案手法(形態素)は形態素解析の分割を改善した
ヘルドアウトにより最適値をほぼ予測できた
提案手法
(形態素)
形態素解析
連結数
17
- 18. まとめ
2-gramパープレキシティを近似的に最適化す
る教師なし単語分割の手法を提案した
文字当たりパープレキシティの観点で形態素解
析による分割を改善した
今後の課題
言語モデルの応用システムの性能の点でも本手
法が有効かどうかを調べる
3-gram、およびそれ以上への手法の拡張
18