符号なしベトナム語

LOGO

符号なしのベトナム語
を修正する提案
Luu Tuan Anh
長岡技術科学大学
自然言語処理山本研究室

現在のベトナム語
 ベトナム語の概要：
•日本語と同じ、形態素解析が難しい。
•ラテン文字を使う
•母音と子音
•母音：a, ă, â, e, ê, i, o, ô, ơ, u, ư, y
•符号を持つ子音：đ
•アクセントの符号：

母音と結
合する
a á à ạ ả ã

符号があるか否かの問題

符号がある場合符号がない場合

・わかりやすい・タイピングをしやすい
・誤解があまりない・どこも表示できる

・タイピングが面倒・わかりづらい
・ベトナムのフォントがな・誤解しやすい
ければ表示できない。

符号なし符号ある意味

chó 犬
cho chợ 店
chờ 待つ

変形規則が必要
a a á à ạ ã ả â ấ ầ ậ...
e e é è ẹ ẽ ẻ ê ế ề ệ...
i iíìịĩỉ
o o ó ò ọ õ ỏ ô ố ồ ộ...
u u ú ù ụ ũ ủ ư ứ ừ ự…
y yýỳỵ…

N-gramモデルの提案
Input : 符号なしの文 s

Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。
t[i]だけ
Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。

Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。

s : hom nay troi mua. (今日雨が降った。)
形態素解析
t : hom_nay troi mua.
Hom nay troi mua

Hôm
trời mua
nay
文頭文末
trói múa

コスト最小法 mùa

コスト:digram mưa

問題？
Input : 符号なしの文 s

Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。

Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。

Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。

形態素解析と同時に行う提案
コスト＝∑｛（形態素コスト×形態素コスト重み）
（品詞コスト×見出し語コスト）１
１０～１００～１．０～

＋（連接コスト×連接コスト重み）｝
～１０～４

から４０
だ
４０１０１１４０
文頭４０
読む文末
１００
１６４０
からだ
１００×１．６

形態素解析と同時に行う提案
例：hoc sinh hoc
học sinh hóc

hoc sinh hoc

hóc sinh
học

文頭文末
học sinh
học

hoc sinh hoc

hóc hóc sinh

問題点

 ノードの数が増えている。
ですが、このグラフはtopologyのグラフだか
ら、計算量はO(n)であって、ノードがk倍増え
ても、計算量はO(k*n)である。この値は小さ
い。

LOGO

終わり
Luu Tuan Anh

符号なしベトナム語

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a 符号なしベトナム語

Semelhante a 符号なしベトナム語 (9)

Mais de 長岡技術科学大学　自然言語処理研究室

Mais de 長岡技術科学大学　自然言語処理研究室 (20)