Mais conteúdo relacionado
Semelhante a 符号なしベトナム語 (9)
Mais de 長岡技術科学大学 自然言語処理研究室 (20)
符号なしベトナム語
- 2. 現在のベトナム語
ベトナム語の概要:
•日本語と同じ、形態素解析が難しい。
•ラテン文字を使う
•母音と子音
•母音:a, ă, â, e, ê, i, o, ô, ơ, u, ư, y
•符号を持つ子音:đ
•アクセントの符号:
母音と結
合する
a á à ạ ả ã
- 3. 符号があるか否かの問題
符号がある場合 符号がない場合
・わかりやすい ・タイピングをしやすい
・誤解があまりない ・どこも表示できる
・タイピングが面倒 ・わかりづらい
・ベトナムのフォントがな ・誤解しやすい
ければ表示できない。
- 5. 符号があるか否かの問題
変形規則が必要
a a á à ạ ã ả â ấ ầ ậ...
e e é è ẹ ẽ ẻ ê ế ề ệ...
i iíìịĩỉ
o o ó ò ọ õ ỏ ô ố ồ ộ...
u u ú ù ụ ũ ủ ư ứ ừ ự…
y yýỳỵ…
- 6. N-gramモデルの提案
Input : 符号なしの文 s
Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。
t[i]だけ
Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。
Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。
- 7. N-gramモデルの提案
s : hom nay troi mua. (今日雨が降った。)
形態素解析
t : hom_nay troi mua.
Hom nay troi mua
Hôm
trời mua
nay
文頭 文末
trói múa
コスト最小法 mùa
コスト:digram mưa
- 8. N-gramモデルの提案
問題?
Input : 符号なしの文 s
Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。
Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。
Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。