SlideShare uma empresa Scribd logo
1 de 12
LOGO




符号なしのベトナム語
を修正する提案
 Luu Tuan Anh
 長岡技術科学大学
 自然言語処理山本研究室
現在のベトナム語
  ベトナム語の概要:
   •日本語と同じ、形態素解析が難しい。
   •ラテン文字を使う
   •母音と子音
   •母音:a, ă, â, e, ê, i, o, ô, ơ, u, ư, y
   •符号を持つ子音:đ
   •アクセントの符号:


母音と結
合する
          a á à ạ ả ã
符号があるか否かの問題

符号がある場合         符号がない場合

 ・わかりやすい         ・タイピングをしやすい
 ・誤解があまりない       ・どこも表示できる



 ・タイピングが面倒       ・わかりづらい
 ・ベトナムのフォントがな    ・誤解しやすい
 ければ表示できない。
符号があるか否かの問題
符号なし   符号ある   意味


       chó    犬
 cho   chợ    店
       chờ    待つ
符号があるか否かの問題
    変形規則が必要
a   a á à ạ ã ả â ấ ầ ậ...
e   e é è ẹ ẽ ẻ ê ế ề ệ...
i   iíìịĩỉ
o   o ó ò ọ õ ỏ ô ố ồ ộ...
u   u ú ù ụ ũ ủ ư ứ ừ ự…
y   yýỳỵ…
N-gramモデルの提案
Input : 符号なしの文   s

Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。
                                t[i]だけ
Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。

Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。
N-gramモデルの提案
s : hom nay troi mua. (今日雨が降った。)
             形態素解析
t : hom_nay troi mua.
             Hom nay    troi    mua

                 Hôm
                         trời   mua
                 nay
 文頭                                   文末
                         trói   múa


コスト最小法                          mùa

    コスト:digram                  mưa
N-gramモデルの提案
                                  問題?
Input : 符号なしの文   s

Step 1 : sをそのまま形態素解析して、得られた結果を
単語リストtとする。

Step 2 : 変形規則により、t[i]とt[i+1] の変形を全部作成
する。

Step 3 : bigramを利用して、step2での変形のペアの中
で最も高いペアを決まる。符号を付ける。
また、step2に戻る。
形態素解析と同時に行う提案
コスト=∑{(形態素コスト×形態素コスト重み)
          (品詞コスト×見出し語コスト)           1
          10~100 ~ 1.0~

                     +(連接コスト×連接コスト重み)}
                 ~10~               4


                     から   40
                               だ
                40   10        11   40
文頭   40
          読む                             文末
          100
                16                  40
                      か ら      だ
                      100×1.6
形態素解析と同時に行う提案
 例:hoc sinh hoc
             học sinh    hóc

             hoc sinh     hoc

             hóc sinh
                        học

文頭                                 文末
                        học sinh
             học

               hoc      sinh hoc

             hóc        hóc sinh
問題点


 ノードの数が増えている。
 ですが、このグラフはtopologyのグラフだか
ら、計算量はO(n)であって、ノードがk倍増え
ても、計算量はO(k*n)である。この値は小さ
い。
LOGO




終わり
Luu Tuan Anh

Mais conteúdo relacionado

Semelhante a 符号なしベトナム語

130323 slide all
130323 slide all130323 slide all
130323 slide all
ikea0064
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
Preferred Networks
 

Semelhante a 符号なしベトナム語 (9)

第9回スキル養成講座講義資料
第9回スキル養成講座講義資料第9回スキル養成講座講義資料
第9回スキル養成講座講義資料
 
130323 slide all
130323 slide all130323 slide all
130323 slide all
 
yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
言語処理系入門€7
言語処理系入門€7言語処理系入門€7
言語処理系入門€7
 
しかくのお勉強
しかくのお勉強しかくのお勉強
しかくのお勉強
 

Mais de 長岡技術科学大学 自然言語処理研究室

Mais de 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

符号なしベトナム語