Segmenting Sponteneous Japanese using MDL principle

最小記述長原理に基づいた
日本語話し言葉の単語分割

東京大学大学院　松原勇介

豊橋技術科学大学　秋葉友良

東京大学/Univ. of Manchester/NaCTeM　辻井潤一

NLP2007 (2007-03-20)

本発表の概要
N-gram言語モデル向けの
教師なし単語分割法を提案
 本研究が対象としている単語分割の説明
 提案手法の概要
 結果：形態素解析による分割を改善すること
に成功

2

背景

目的：言語モデル性能の向上
音声認識候補の
順位付け
生単語ベース
単語分割された
コーパ N-gram 文書とクエリの
コーパス
ス言語モデル類似度評価

うまい単語分割ができると、
言語モデルやその応用システムの性能が向上する
3

ドメインへの特化
N-gram言語モデルの性能はドメインに敏感

ドメインに特化した単語分割をする既存手法
 ドメイン向けに辞書を補充
 そのドメインの単語分割済みコーパスで教師あり学習
 そのドメインの生コーパスで言語モデルの性能指標を
最適化する教師なし学習
4

なぜ教師なし学習か
 作業コストが低い

辞書の作成、単語分割済みコーパスが不要
 形態素や人間の基準がよいとは限らない

区切りの与え方はドメイン次第
 [よろしく][お][願い][し][ます] ？
 [よ][ろ][し][く][お][願][い][し][ま][す] ？
 [よろしくお願いします] ？
5

提案手法（学習）
仮の単語分割済み
コーパス
(最初は文字分割など)
1. 隣接して現れる2単語の対のうち、
ある指標（コーパスの記述長）の減少幅が最大の
組を連結する

改良された
2. 連結されたものを1単語とみなして、
単語分割済み
同じ手続きを繰り返すコーパス

3. 1.で減少する候補がなくなったら終了
4. 連結した単語対を連結した順に出力する
6

何を最適化するか
N-gram パープレキシティ N-gram 符号化による記述長
(提案)
 言語モデルの性能指  パープレキシティ＋辞
標そのもの書の符号長
 N=1の場合のみしか
 N=2の場合の実用的な
実現されていない
計算が可能になった
 この基準のみでは、
過学習に陥る  指標自身が過学習を防
いでいる 7

記述長の定義
記述長はコーパスの符号長と辞書の符号長の和

コーパスの符号長
#w 1 w 2 
− ∑ ∑ #w 1 w 2 log
#w 1 
w1 ∈辞書 w 2 ∈辞書

辞書の符号長
#辞書中の c
− ∑ ∑ log 語彙数
w ∈辞書 c∈w
8

1ステップあたりの計算量
素朴な方法
全単語対に対して、連結後の記述長を再計算する

→ O(延べ単語数ｘ語彙数2)

我々の方法
全単語対に対して、記述長の差分を計算する
1つの単語対についての差分の計算は O(語彙数) で済む

→ O(延べ単語数+語彙数ｘ語彙数2)
9

提案手法（適用）
基本的には

学習で出力された連結手順をそのまま再現する
予備実験の結果
連結手順すべてを適用すると、
連結が起こりすぎて言語モデルの性能が悪化

ヘルドアウトデータを用いて
最適な連結数を決定する

10

動作例（初期分割：文字）

11

動作例（10ステップ後）

12


13


14

実験
 対話音声書き起こし文（約25万字）を使用
言語モデルの訓練　ヘルドアウト　評価
19 ： 1 ：　1
 次を比較
 形態素解析(MeCab)による分割
 文字を初期分割にした提案手法
 MeCabを初期分割にした提案手法
 2-gram言語モデルの文字あたりパープレキシ
ティで性能を評価
15

結果
文字当たりパープレキシティ提案手法
（文字）

提案手法
（形態素）

形態素解析

連結数
16

結果
文字当たりパープレキシティ提案手法
 （文字）
提案手法(形態素)は形態素解析の分割を改善した

 ヘルドアウトにより最適値をほぼ予測できた

提案手法
（形態素）

形態素解析

連結数
17

まとめ
 2-gramパープレキシティを近似的に最適化す
る教師なし単語分割の手法を提案した
 文字当たりパープレキシティの観点で形態素解
析による分割を改善した
今後の課題
 言語モデルの応用システムの性能の点でも本手
法が有効かどうかを調べる
 3-gram、およびそれ以上への手法の拡張
18

Segmenting Sponteneous Japanese using MDL principle

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (20)

Similar to Segmenting Sponteneous Japanese using MDL principle

Similar to Segmenting Sponteneous Japanese using MDL principle (20)

Recently uploaded

Recently uploaded (20)

Segmenting Sponteneous Japanese using MDL principle