SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
機械翻訳入門

2010年8月31日
  あしたの研
  河野弘毅
機械翻訳の現状
機械翻訳の現状
機械翻訳の現状
機械翻訳の現状
機械翻訳の歴史
機械翻訳の歴史1

1947年 ウィーバーが書簡で機械翻訳(MT)を提案
   MTの基本的特性のいくつかを洞察

1948年 シャノンが通信の数学的理論を発表
   言語をマルコフ過程とみなすモデルを提唱
   翻訳を暗号問題の延長として定義

1949年 MITなどで自動翻訳の研究を開始
   ジョージタウン大学とIBMのMT共同プロジェクト開始

1952年 MITにて検討会>ロンドンで国際言語学会議
1957年 スプートニク・ショック>ロシア語MT研究に予算
機械翻訳の歴史2

1957年 チョムスキーが変形生成文法を提案
   句構造規則と変形規則により文の生成をモデル化する
   言語学界に大きな影響を与える
   1960年から1985年にかけてMTの基本モデルとして機能

1963年 SYSTRAN、Euratomに納入
1965年 ニューヨーク万博にIBMの露英翻訳システム展示
   同年に第1回のCOLING開催、現在まで続く
1966年 ALPACレポートの発表
   米国はMTの成果に見切りをつけて研究費の投入を中止
   代わりに計算言語学に研究費を投入するよう進言
機械翻訳の歴史3

1967年 Brownコーパス発表(その後の言語コーパスの先鞭)
1976年 TAUM-METEO実用化開始
1978年 欧州で多言語間MTシステムEUROTRAの開発開始
   結果をだせずに1992年に終了

1978年 東芝がかな漢字変換方式の日本語入力装置を商品化
1982年 論文抄録の日英英日MT(Muシステム)開発
   日本では独自に開発を継続して1980年代に商品化
日本電気PIVOT、富士通ATLAS、東芝PC-TRANSAC、
日立HICATS、三菱MELTRAN、シャープDUET-E/J、
沖PENSEE、日本IBM SHALT、リコーRMT/EJ
   その後廉価版ソフトが発売され今日まで続く
機械翻訳の歴史4

1993年 IBMのブラウン他が統計的MT手法の論文を発表
⇒この頃から計算機の処理能力が飛躍的に向上・低価格化

1998年 Ochらが句ベースの統計的MT手法を発表
⇒この頃からインターネット上で膨大な言語資源が利用可能に

2002年 Language Weaver 創業(Arabic英語間の統計的MT)
2006年 Google、統計的機械翻訳提供開始(中、ア、露)
⇒最近の研究は統計的手法と構文的手法の複合化を模索

         ◎これからの機械翻訳の主流はハイブリッド◎
機械翻訳の方式
直接翻訳方式
       Direct Machine Translation

元言語の単語や句を直接に先言語の表現に移す

チョムスキーの変形生成文法の影響を受けた構文変換方式が
登場する以前(=MT研究のごく初期)に採用されていた方式。

PAHOが英語スペイン語間のMTをこの方式で実用化
  SPANUM 1980
  ENGSPAN 1985
構文変換方式
                 Syntactic Machine Translation

analysis - transfer - generation

 1. 元言語の文を文法による解析により句構造表現にする

2. 変換文法によって元言語の句構造を先言語の句構造に移す

3. 先言語の句構造を線形化して文を生成する

特徴
  ある文が複数の句構造で表現できる場合がある
  辞書を充実させることで性能が改善される
用例機械翻訳
     Sample-base Machine Translation

1981年に長尾真氏が提案
構文翻訳方式では結果が良くないときに文法、変換、生成のど
こに原因があるのか特定するのが困難
文法規則が数百を超えるとどの規則をどう変更すればよいかを
判断するのはほとんど不可能
人間が言語を修得する場合はむしろ多数の例文とその翻訳を
記憶し、類似の文の翻訳に役立てている>その方法を機械翻
訳にもとりいれる考え方
翻訳メモリの考え方も本質的に同じ(原文側での検索)
統計機械翻訳
      Statistical Machine Translation

翻訳と言語の確率モデルをもとに翻訳を行なう

              (詳しくは後述)
機械翻訳の基礎
自然言語処理の基礎技術


形態素解析(品詞タグづけ)
基本句構造同定(文節区切り)
固有表現・専門用語の抽出
構文解析
形態素解析(品詞タグ付け)


   形態素morphemeとは>文における意味の最小単位

  形態素解析とは>形態素を確定し品詞を付与する処理
  ⇒英語の場合は品詞タグ付けpart-of-speech tagging

確率的言語モデルを使うと高い精度で自動処理可能

日本語形態素解析のツール:
JUMAN, ChaSen, MeCab が有名

英語品詞タグ付けのツール:
 TnT, TreeTagger, Stanford POS Tagger, Acopost
基本句構造同定(文節区切り)


文節区切りの例
  ここではきものをぬいでください
  ここで/はきものを/ぬいでください
  ここでは/きものを/ぬいでください

基本句構造同定は処理上は「系列タギング問題」

系列タギングのツール
  YamCha, CRF++
固有表現・専門用語の抽出


固有表現抽出
  固有表現・数値表現を抽出する
  系列タギング問題として解く(らしい)

専門用語抽出
  頻出する重要な単語を抽出する
  頻度等に基づき重要度を定義して解く
構文解析


いくつもの手法がある
  依存構造解析
  句構造解析
  述語項構造解析

構文解析のツール
  Collins Parser
  Stanford Parser
  MSTParser
統計的機械翻訳
統計的機械翻訳とは何か


ある原文が与えられたときにその訳文を語(または句)の単位で
順番に生成していく。そのときに、ある語(または句)の次に並ぶ
語(または句)として最も確率が高いものを膨大な対訳データ
ベースを統計的に処理することによって計算で求めようとする。

構文ベースのMTは言語を構造的・記号的にとらえて数学的にモ
デル化していた。
統計ベースのMTは言語を確率過程ととらえて数学的にモデル
化する。
統計的言語モデルとは何か

通信
通信システムにおける記号の選択は、過程の中のどの状態にあっても先行
する選択に依存する。

 直前に選ばれた単語がtheの場合、その後にtheや動詞が続けて選ば
 れる確率は小さい。

 復数の単語でも同様の確率的影響がある。たとえば "in the event" の
 後には "that" が来る確率が高く、"elephant" が来る確率はとても小さ
 い。

⇒言語の中にはある程度の制御力を振るう確率が存在する
⇒単独の言語では語順に基づいて確率を計算=「言語モデル」
統計的翻訳モデルとは何か

単独の言語の場合は語順から確率データを生成した
⇒翻訳の場合は対訳の確率を利用する=「翻訳モデル」

数式で書くと...
                 p(the|der)=0.3

実装データでは...
                der ||| the ||| 0.3

その意味は...
     「独語の der を英語の the へと翻訳する確率が 0.3」
統計的機械翻訳の処理フロー
対訳の単位は句(フレーズ)もOK


最初の統計的機械翻訳モデル(IBMモデル)は単語ベースの対訳
を行っていたが、現在は句(フレーズ)ベースの対訳が主流に(その
ほうが性能がよい)

 単語ベースの翻訳テーブル

             der ||| the ||| 0.3

 句(フレーズ)ベースの翻訳テーブル

          das ist ||| this is ||| 0.8
統計的手法の急速な発展


翻訳モデルの発展(1993〜)
自動評価手法の発達(BLEU)2002〜
フリーのツールの普及(GIZA++, Moses...)2003〜
チューニング法の発達(誤り最小化学習)2003〜
対訳データの拡充(Europarl、日英特許コーパス)2008〜
翻訳とはP(e)P(f|e)を最大化するeを探すこと




出典:
永田正昌, "確率モデルによる自然言語処理", 言語と心理の統計, 統計科学のフロンティア10, 2003年, p101
数式の説明(条件付き確率の定義)
      数式の説明(条件付き確率の定義)


ある事象 e が生じる確率をP(e)と表記する。

ある事象 e が生じたときに別の事象 f が生じる確率を 「条件
付き確率」と呼び、 P(f|e) と表記する。

事象 e が生じたうえでさらに事象 f が生じる確率はP(e)P(f|e)
と記述できる。
この定義式からわかること

P(e)P(f|e)を 最大化するeを 探す、ということは....

P(e)...この部分が言語モデルに対応する。

P(f|e)...この部分が翻訳モデルに対応する。

argmax()...この部分(カッコ内を最大化するeを探す)が
     デコーダー(復号器)での処理に相当する
(参考)雑音のある通信路モデル




出典:
永田正昌, "確率モデルによる自然言語処理", 言語と心理の統計, 統計科学のフロンティア10, 2003年, p102
アライメント(単語の対応付け)の問題




出典:
永田正昌, "確率モデルによる自然言語処理", 言語と心理の統計, 統計科学のフロンティア10, 2003年, p104
アライメントを考慮した翻訳確率




出典:
永田正昌, "確率モデルによる自然言語処理", 言語と心理の統計, 統計科学のフロンティア10, 2003年, p105
デコーダーの処理


対訳確率を並べた表が「翻訳テーブル」

デコーダーにとっては翻訳テーブルが「知識」に相当する

⇒デコーダーは翻訳テーブルに基づいて訳文を生成する

翻訳テーブルは対訳コーパスから自動生成する

対訳コーパスは翻訳メモリの巨大データベースと思えば良い
トレーニングプロセスの例(Moses)


1. Prepare data (45 minutes)
2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。アライメントの初期値に使用。
3. Align words (2:30 hours)
4. Get lexical translation table (30 minutes)
5. Extract phrases (10 minutes)
6. Score phrases (1:15 hours)
7. Build lexicalized reordering model (1 hour)
8. Build generation models
9. Create configuration file (1 second)
Condition:
751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine

(出典:Moses - User Manual and Code Guide p.75)
機械翻訳エンジンの構成例
(出典:Moses - User Manual and Code Guide p.12)
統計的機械翻訳の処理


はじめに巨大な翻訳データベース(対訳コーパス)ありき。

前半の処理で対訳コーパスから翻訳テーブルを自動生成する。(こ
の処理をトレーニングと呼ぶ)

後半の処理で翻訳テーブルを参照してデコーダーが翻訳対象文を
翻訳していく。(この処理をデコーディングと呼ぶ)

トレーニング>デコーディングの繰り返しが統計的機械翻訳。
機械翻訳の現在
機械翻訳の趨勢


1947年に提唱された当初は確率的モデルを想定
1957年チョムスキー以降80年代までは構文翻訳が主流
90年代以降は統計的手法が主流に
構文翻訳が残ってるのは日本だけ(東芝他)世界は統計
今後は統計的手法に構文的手法をどう組み合わせるかが鍵
現場では翻訳メモリツール(例文的手法)とも組合せる
現在の機械翻訳の特徴


言語の文法構造がわからなくてもパロールのデータベース
があれば翻訳できる


推定の根拠となる対言語コーパスが良質かつ大量にあれ
ばあるほど翻訳精度があがる


言語構造の近さがプラスに作用する(他の条件が同じなら
日韓のほうが日英より品質がよい)
現在の機械翻訳の課題


  どこまで対言語コーパスを収集すれば十分な翻訳品質になるの
  かよくわからない

一説によると数百万センテンスの対訳コーパスを持つと、一見して
流暢にみえる訳文が生成されるらしい。

  コーパスが形成されない分野では性能がでない

グーグルは一般的な翻訳を指向している...業界別にカスタマイズし
た対訳コーパスはLanguage Weaver などの専門企業が対応していく
住み分けになる? 
パラレルコーパスの質と量が翻訳品質を決定する




出典:2010年5月19日 Google Franz Och氏講演
グーグルの機械翻訳


グーグルのMTは従来のルールベース(文法解析型)ではなく統
計ベース

グーグルは世界最大の言語資源(ただし書き言葉だが)を持つ
会社

SMTの元データ(対訳コーパス)として使うにはアライメントが欠
けている(=検索のために収集したデータベースはそのままで
は使えない)

そこでGoogle Translator Toolkit で対言語コーパスの収集をめ
ざす
機械翻訳の専門会社


SYSTRAN
  構文的機械翻訳の老舗(40年の伝統あり)
  最近統計的手法に対応した

Language Weaver
   2002年創業の大学発ベンチャー(アラビア語英語間)
   2010年にSDLに買収

Asia Online
   東南アジアで母語による検索エンジンをMTで提供

pangea.com.mt
   独立系の統計的機械翻訳会社
制限言語アプローチ

自然言語の語彙や文法を制限して何らかの効用(修得期間
短縮、曖昧さ抑制など)を得ようとする試みは以前からある
  Basic English(1930, Ogden)850語
  Simplified English(1980年代、航空産業)

機械翻訳の精度をあげるために制限言語を利用する試み
は昔も今もある
  制限日本語(1976、九州大学)
  MAL言語(1983、京都大学)
  産業日本語(2010、Japio他)
  Acrolinx IQ(2010年に日本法人設立)
参考図書


*1) クロード・E・シャノン,ワレン・ウィーバー
  『通信の数学的理論』ちくま学芸文庫、植松友彦訳

*2) 永田正昌「確率モデルによる自然言語処理」, 『言語と心理の統
計』統計科学のフロンティア10, 岩波書店, 2003年

*3) Philipp Koehn, "Statistical Machine Translation System
    User Manual and Code Guide"
   http://www.statmt.org/moses/manual/manual.pdf

Mais conteúdo relacionado

Destaque

Destaque (10)

Rails.20110405
Rails.20110405Rails.20110405
Rails.20110405
 
Red5
Red5Red5
Red5
 
Flume
FlumeFlume
Flume
 
Friendica_28th_AshitanoKen
Friendica_28th_AshitanoKenFriendica_28th_AshitanoKen
Friendica_28th_AshitanoKen
 
S4
S4S4
S4
 
Cassandra v0.6-siryou
Cassandra v0.6-siryouCassandra v0.6-siryou
Cassandra v0.6-siryou
 
machine learning & apache mahout
machine learning & apache mahoutmachine learning & apache mahout
machine learning & apache mahout
 
MongoDB
MongoDBMongoDB
MongoDB
 
すまっぽん!オンライン説明会
すまっぽん!オンライン説明会すまっぽん!オンライン説明会
すまっぽん!オンライン説明会
 
Apache UIMA
Apache UIMAApache UIMA
Apache UIMA
 

Semelhante a 20100831.あしたの研第14回座談会moses.スライド

TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
none_toka
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
 

Semelhante a 20100831.あしたの研第14回座談会moses.スライド (20)

ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
Machine translation
Machine translationMachine translation
Machine translation
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語
 
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
対話システム, 南泰浩
対話システム, 南泰浩対話システム, 南泰浩
対話システム, 南泰浩
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 
TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)TAPL勉強会 第1章 (2012-07-17)
TAPL勉強会 第1章 (2012-07-17)
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
Interop2017
Interop2017Interop2017
Interop2017
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 

20100831.あしたの研第14回座談会moses.スライド