Mais conteúdo relacionado Semelhante a 20100831.あしたの研第14回座談会moses.スライド (20) 20100831.あしたの研第14回座談会moses.スライド7. 機械翻訳の歴史1
1947年 ウィーバーが書簡で機械翻訳(MT)を提案
MTの基本的特性のいくつかを洞察
1948年 シャノンが通信の数学的理論を発表
言語をマルコフ過程とみなすモデルを提唱
翻訳を暗号問題の延長として定義
1949年 MITなどで自動翻訳の研究を開始
ジョージタウン大学とIBMのMT共同プロジェクト開始
1952年 MITにて検討会>ロンドンで国際言語学会議
1957年 スプートニク・ショック>ロシア語MT研究に予算
8. 機械翻訳の歴史2
1957年 チョムスキーが変形生成文法を提案
句構造規則と変形規則により文の生成をモデル化する
言語学界に大きな影響を与える
1960年から1985年にかけてMTの基本モデルとして機能
1963年 SYSTRAN、Euratomに納入
1965年 ニューヨーク万博にIBMの露英翻訳システム展示
同年に第1回のCOLING開催、現在まで続く
1966年 ALPACレポートの発表
米国はMTの成果に見切りをつけて研究費の投入を中止
代わりに計算言語学に研究費を投入するよう進言
12. 直接翻訳方式
Direct Machine Translation
元言語の単語や句を直接に先言語の表現に移す
チョムスキーの変形生成文法の影響を受けた構文変換方式が
登場する以前(=MT研究のごく初期)に採用されていた方式。
PAHOが英語スペイン語間のMTをこの方式で実用化
SPANUM 1980
ENGSPAN 1985
13. 構文変換方式
Syntactic Machine Translation
analysis - transfer - generation
1. 元言語の文を文法による解析により句構造表現にする
2. 変換文法によって元言語の句構造を先言語の句構造に移す
3. 先言語の句構造を線形化して文を生成する
特徴
ある文が複数の句構造で表現できる場合がある
辞書を充実させることで性能が改善される
14. 用例機械翻訳
Sample-base Machine Translation
1981年に長尾真氏が提案
構文翻訳方式では結果が良くないときに文法、変換、生成のど
こに原因があるのか特定するのが困難
文法規則が数百を超えるとどの規則をどう変更すればよいかを
判断するのはほとんど不可能
人間が言語を修得する場合はむしろ多数の例文とその翻訳を
記憶し、類似の文の翻訳に役立てている>その方法を機械翻
訳にもとりいれる考え方
翻訳メモリの考え方も本質的に同じ(原文側での検索)
15. 統計機械翻訳
Statistical Machine Translation
翻訳と言語の確率モデルをもとに翻訳を行なう
(詳しくは後述)
18. 形態素解析(品詞タグ付け)
形態素morphemeとは>文における意味の最小単位
形態素解析とは>形態素を確定し品詞を付与する処理
⇒英語の場合は品詞タグ付けpart-of-speech tagging
確率的言語モデルを使うと高い精度で自動処理可能
日本語形態素解析のツール:
JUMAN, ChaSen, MeCab が有名
英語品詞タグ付けのツール:
TnT, TreeTagger, Stanford POS Tagger, Acopost
30. 数式の説明(条件付き確率の定義)
数式の説明(条件付き確率の定義)
ある事象 e が生じる確率をP(e)と表記する。
ある事象 e が生じたときに別の事象 f が生じる確率を 「条件
付き確率」と呼び、 P(f|e) と表記する。
事象 e が生じたうえでさらに事象 f が生じる確率はP(e)P(f|e)
と記述できる。
36. トレーニングプロセスの例(Moses)
1. Prepare data (45 minutes)
2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。アライメントの初期値に使用。
3. Align words (2:30 hours)
4. Get lexical translation table (30 minutes)
5. Extract phrases (10 minutes)
6. Score phrases (1:15 hours)
7. Build lexicalized reordering model (1 hour)
8. Build generation models
9. Create configuration file (1 second)
Condition:
751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine
(出典:Moses - User Manual and Code Guide p.75)
42. 現在の機械翻訳の課題
どこまで対言語コーパスを収集すれば十分な翻訳品質になるの
かよくわからない
一説によると数百万センテンスの対訳コーパスを持つと、一見して
流暢にみえる訳文が生成されるらしい。
コーパスが形成されない分野では性能がでない
グーグルは一般的な翻訳を指向している...業界別にカスタマイズし
た対訳コーパスはLanguage Weaver などの専門企業が対応していく
住み分けになる?
47. 参考図書
*1) クロード・E・シャノン,ワレン・ウィーバー
『通信の数学的理論』ちくま学芸文庫、植松友彦訳
*2) 永田正昌「確率モデルによる自然言語処理」, 『言語と心理の統
計』統計科学のフロンティア10, 岩波書店, 2003年
*3) Philipp Koehn, "Statistical Machine Translation System
User Manual and Code Guide"
http://www.statmt.org/moses/manual/manual.pdf