20100831.あしたの研第14回座談会moses.スライド

機械翻訳入門

2010年8月31日
あしたの研
河野弘毅

機械翻訳の歴史１

1947年　ウィーバーが書簡で機械翻訳（MT）を提案
MTの基本的特性のいくつかを洞察

1948年　シャノンが通信の数学的理論を発表
言語をマルコフ過程とみなすモデルを提唱
翻訳を暗号問題の延長として定義

1949年　MITなどで自動翻訳の研究を開始
ジョージタウン大学とIBMのMT共同プロジェクト開始

1952年　MITにて検討会＞ロンドンで国際言語学会議
1957年　スプートニク・ショック＞ロシア語MT研究に予算

機械翻訳の歴史２

1957年　チョムスキーが変形生成文法を提案
句構造規則と変形規則により文の生成をモデル化する
言語学界に大きな影響を与える
1960年から1985年にかけてMTの基本モデルとして機能

1963年　SYSTRAN、Euratomに納入
1965年　ニューヨーク万博にIBMの露英翻訳システム展示
同年に第1回のCOLING開催、現在まで続く
1966年　ALPACレポートの発表
米国はMTの成果に見切りをつけて研究費の投入を中止
代わりに計算言語学に研究費を投入するよう進言

機械翻訳の歴史３

1967年　Brownコーパス発表（その後の言語コーパスの先鞭）
1976年　TAUM-METEO実用化開始
1978年　欧州で多言語間MTシステムEUROTRAの開発開始
結果をだせずに1992年に終了

1978年　東芝がかな漢字変換方式の日本語入力装置を商品化
1982年　論文抄録の日英英日MT（Muシステム）開発
日本では独自に開発を継続して1980年代に商品化
日本電気PIVOT、富士通ATLAS、東芝PC-TRANSAC、
日立HICATS、三菱MELTRAN、シャープDUET-E/J、
沖PENSEE、日本IBM SHALT、リコーRMT/EJ
その後廉価版ソフトが発売され今日まで続く

機械翻訳の歴史４

1993年　IBMのブラウン他が統計的MT手法の論文を発表
⇒この頃から計算機の処理能力が飛躍的に向上・低価格化

1998年　Ochらが句ベースの統計的MT手法を発表
⇒この頃からインターネット上で膨大な言語資源が利用可能に

2002年　Language Weaver 創業（Arabic英語間の統計的MT）
2006年　Google、統計的機械翻訳提供開始（中、ア、露）
⇒最近の研究は統計的手法と構文的手法の複合化を模索

◎これからの機械翻訳の主流はハイブリッド◎

直接翻訳方式
Direct Machine Translation

元言語の単語や句を直接に先言語の表現に移す

チョムスキーの変形生成文法の影響を受けた構文変換方式が
登場する以前（＝MT研究のごく初期）に採用されていた方式。

PAHOが英語スペイン語間のMTをこの方式で実用化
SPANUM 1980
ENGSPAN 1985

構文変換方式
Syntactic Machine Translation

analysis - transfer - generation

1. 元言語の文を文法による解析により句構造表現にする

2. 変換文法によって元言語の句構造を先言語の句構造に移す

3. 先言語の句構造を線形化して文を生成する

特徴
ある文が複数の句構造で表現できる場合がある
辞書を充実させることで性能が改善される

用例機械翻訳
Sample-base Machine Translation

1981年に長尾真氏が提案
構文翻訳方式では結果が良くないときに文法、変換、生成のど
こに原因があるのか特定するのが困難
文法規則が数百を超えるとどの規則をどう変更すればよいかを
判断するのはほとんど不可能
人間が言語を修得する場合はむしろ多数の例文とその翻訳を
記憶し、類似の文の翻訳に役立てている＞その方法を機械翻
訳にもとりいれる考え方
翻訳メモリの考え方も本質的に同じ（原文側での検索）

統計機械翻訳
Statistical Machine Translation

翻訳と言語の確率モデルをもとに翻訳を行なう

（詳しくは後述）

自然言語処理の基礎技術

形態素解析（品詞タグづけ）
基本句構造同定（文節区切り）
固有表現・専門用語の抽出
構文解析

形態素解析（品詞タグ付け）

形態素morphemeとは＞文における意味の最小単位

形態素解析とは＞形態素を確定し品詞を付与する処理
　　⇒英語の場合は品詞タグ付けpart-of-speech tagging

確率的言語モデルを使うと高い精度で自動処理可能

日本語形態素解析のツール：
JUMAN, ChaSen, MeCab が有名

英語品詞タグ付けのツール：
　TnT, TreeTagger, Stanford POS Tagger, Acopost

基本句構造同定（文節区切り）

文節区切りの例
ここではきものをぬいでください
ここで／はきものを／ぬいでください
ここでは／きものを／ぬいでください

基本句構造同定は処理上は「系列タギング問題」

系列タギングのツール
YamCha, CRF++

固有表現・専門用語の抽出

固有表現抽出
固有表現・数値表現を抽出する
系列タギング問題として解く（らしい）

専門用語抽出
頻出する重要な単語を抽出する
頻度等に基づき重要度を定義して解く

構文解析

いくつもの手法がある
依存構造解析
句構造解析
述語項構造解析

構文解析のツール
Collins Parser
Stanford Parser
MSTParser

統計的機械翻訳とは何か

ある原文が与えられたときにその訳文を語（または句）の単位で
順番に生成していく。そのときに、ある語（または句）の次に並ぶ
語（または句）として最も確率が高いものを膨大な対訳データ
ベースを統計的に処理することによって計算で求めようとする。

構文ベースのMTは言語を構造的・記号的にとらえて数学的にモ
デル化していた。
統計ベースのMTは言語を確率過程ととらえて数学的にモデル
化する。

統計的言語モデルとは何か

通信
通信システムにおける記号の選択は、過程の中のどの状態にあっても先行
する選択に依存する。

直前に選ばれた単語がtheの場合、その後にtheや動詞が続けて選ば
れる確率は小さい。

復数の単語でも同様の確率的影響がある。たとえば "in the event" の
後には "that" が来る確率が高く、"elephant" が来る確率はとても小さ
い。

⇒言語の中にはある程度の制御力を振るう確率が存在する
⇒単独の言語では語順に基づいて確率を計算＝「言語モデル」

統計的翻訳モデルとは何か

単独の言語の場合は語順から確率データを生成した
⇒翻訳の場合は対訳の確率を利用する＝「翻訳モデル」

数式で書くと...
p(the|der)=0.3

実装データでは...
der ||| the ||| 0.3

その意味は...
「独語の der を英語の the へと翻訳する確率が 0.3」

統計的機械翻訳の処理フロー

対訳の単位は句（フレーズ）もOK

最初の統計的機械翻訳モデル（IBMモデル）は単語ベースの対訳
を行っていたが、現在は句（フレーズ）ベースの対訳が主流に（その
ほうが性能がよい）

単語ベースの翻訳テーブル

der ||| the ||| 0.3

句（フレーズ）ベースの翻訳テーブル

das ist ||| this is ||| 0.8

統計的手法の急速な発展

翻訳モデルの発展（1993〜）
自動評価手法の発達（BLEU）2002〜
フリーのツールの普及（GIZA++, Moses...）2003〜
チューニング法の発達（誤り最小化学習）2003〜
対訳データの拡充（Europarl、日英特許コーパス）2008〜

翻訳とはP(e)P(f|e)を最大化するeを探すこと

出典：
永田正昌, "確率モデルによる自然言語処理", 言語と心理の統計, 統計科学のフロンティア10, 2003年, p101

数式の説明（条件付き確率の定義）
数式の説明（条件付き確率の定義）

ある事象 e が生じる確率をP(e)と表記する。

ある事象 e が生じたときに別の事象 f が生じる確率を「条件
付き確率」と呼び、 P(f|e) と表記する。

事象 e が生じたうえでさらに事象 f が生じる確率はP(e)P(f|e)
と記述できる。

この定義式からわかること

P(e)P(f|e)を最大化するeを探す、ということは....

P(e)...この部分が言語モデルに対応する。

P(f|e)...この部分が翻訳モデルに対応する。

argmax()...この部分（カッコ内を最大化するeを探す）が
　　　　　デコーダー（復号器）での処理に相当する

（参考）雑音のある通信路モデル

出典：

アライメント（単語の対応付け）の問題

出典：

アライメントを考慮した翻訳確率

出典：

デコーダーの処理

対訳確率を並べた表が「翻訳テーブル」

デコーダーにとっては翻訳テーブルが「知識」に相当する

⇒デコーダーは翻訳テーブルに基づいて訳文を生成する

翻訳テーブルは対訳コーパスから自動生成する

対訳コーパスは翻訳メモリの巨大データベースと思えば良い

トレーニングプロセスの例（Moses）

1. Prepare data (45 minutes)
2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。アライメントの初期値に使用。
3. Align words (2:30 hours)
4. Get lexical translation table (30 minutes)
5. Extract phrases (10 minutes)
6. Score phrases (1:15 hours)
7. Build lexicalized reordering model (1 hour)
8. Build generation models
9. Create configuration file (1 second)
Condition:
751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine

（出典：Moses - User Manual and Code Guide p.75）

機械翻訳エンジンの構成例
（出典：Moses - User Manual and Code Guide p.12）

統計的機械翻訳の処理

はじめに巨大な翻訳データベース（対訳コーパス）ありき。

前半の処理で対訳コーパスから翻訳テーブルを自動生成する。（こ
の処理をトレーニングと呼ぶ）

後半の処理で翻訳テーブルを参照してデコーダーが翻訳対象文を
翻訳していく。（この処理をデコーディングと呼ぶ）

トレーニング＞デコーディングの繰り返しが統計的機械翻訳。

機械翻訳の趨勢

1947年に提唱された当初は確率的モデルを想定
1957年チョムスキー以降80年代までは構文翻訳が主流
90年代以降は統計的手法が主流に
構文翻訳が残ってるのは日本だけ（東芝他）世界は統計
今後は統計的手法に構文的手法をどう組み合わせるかが鍵
現場では翻訳メモリツール（例文的手法）とも組合せる

現在の機械翻訳の特徴

言語の文法構造がわからなくてもパロールのデータベース
があれば翻訳できる

推定の根拠となる対言語コーパスが良質かつ大量にあれ
ばあるほど翻訳精度があがる

言語構造の近さがプラスに作用する（他の条件が同じなら
日韓のほうが日英より品質がよい）

現在の機械翻訳の課題

どこまで対言語コーパスを収集すれば十分な翻訳品質になるの
かよくわからない

一説によると数百万センテンスの対訳コーパスを持つと、一見して
流暢にみえる訳文が生成されるらしい。

コーパスが形成されない分野では性能がでない

グーグルは一般的な翻訳を指向している...業界別にカスタマイズし
た対訳コーパスはLanguage Weaver などの専門企業が対応していく
住み分けになる？

パラレルコーパスの質と量が翻訳品質を決定する

出典：2010年5月19日 Google Franz Och氏講演

グーグルの機械翻訳

グーグルのMTは従来のルールベース（文法解析型）ではなく統
計ベース

グーグルは世界最大の言語資源（ただし書き言葉だが）を持つ
会社

SMTの元データ（対訳コーパス）として使うにはアライメントが欠
けている（＝検索のために収集したデータベースはそのままで
は使えない）

そこでGoogle Translator Toolkit で対言語コーパスの収集をめ
ざす

機械翻訳の専門会社

SYSTRAN
構文的機械翻訳の老舗（40年の伝統あり）
最近統計的手法に対応した

Language Weaver
2002年創業の大学発ベンチャー（アラビア語英語間）
2010年にSDLに買収

Asia Online
東南アジアで母語による検索エンジンをMTで提供

pangea.com.mt
独立系の統計的機械翻訳会社

制限言語アプローチ

自然言語の語彙や文法を制限して何らかの効用（修得期間
短縮、曖昧さ抑制など）を得ようとする試みは以前からある
Basic English（1930, Ogden）850語
Simplified English（1980年代、航空産業）

機械翻訳の精度をあげるために制限言語を利用する試み
は昔も今もある
制限日本語（1976、九州大学）
MAL言語（1983、京都大学）
産業日本語（2010、Japio他）
Acrolinx IQ（2010年に日本法人設立）

参考図書

*1) クロード・E・シャノン,ワレン・ウィーバー
『通信の数学的理論』ちくま学芸文庫、植松友彦訳

*2) 永田正昌「確率モデルによる自然言語処理」, 『言語と心理の統
計』統計科学のフロンティア10, 岩波書店, 2003年

*3) Philipp Koehn, "Statistical Machine Translation System
User Manual and Code Guide"
http://www.statmt.org/moses/manual/manual.pdf

20100831.あしたの研第14回座談会moses.スライド

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (10)

Semelhante a 20100831.あしたの研第14回座談会moses.スライド

Semelhante a 20100831.あしたの研第14回座談会moses.スライド (20)

20100831.あしたの研第14回座談会moses.スライド