翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)

翻訳精度の最大化による
同時音声翻訳のための文分割法
小田悠介 (@odashi_t)
Graham Neubig 清水宏晃
Sakriani Sakti 戸田智基中村哲
情報科学研究科, NAIST
2014/3/18 (NLP2014)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 1

1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果

同時音声翻訳 ― 機械翻訳の応用
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST2014/3/18 (NLP2014) 3
• 講義・スピーチの同時音声翻訳
(Simultaneous Speech Translation: SST)
– 原発話を連続的に音声認識、翻訳（、音声合成）
– 同時性（訳出時間の短さ）を重視
同時音声翻訳システム(English → Japanese)
今から18分間で
皆様を旅にご案内します
可能な限り
短時間で訳出
In the next 18 minutes
I'm going to take you on a journey

従来の音声翻訳と文分割法
• 従来の音声翻訳 …
しかし…
同時性が大きく損失• 講義など「文が長い」「文末が曖昧」
EN JA
in the next 18 minutes I 'm going to
take you on a journey and it 's a
journey that you and i have been
on for many years now and ...
翻訳単位＝文末推定 [Matusov+ 2006]
in the next 18 minutes
I 'm going to take you
on a journey
文分割
より短い単位の翻訳が必要文分割法の適用
今から18分間で
あなたを連れていきます
旅に
翻訳
翻訳単位を細分化
高速な訳出を実現
（翻訳精度も低下：トレードオフ）

1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果

関連研究
• [Rangarajan-Sridhar+ 2013]
– 予測された句読点の挿入位置 (コンマ、ピリオド、その他) を使用
• 線型SVMで学習 (素性: word 1,2,3-gram / POS 1, 2, 3-gram)
• 数種類の手法を比較検討 … 句読点による手法が最高性能
• [Fujita+ 2013]
– 分割位置の右確率 (Right Probability: RP) を使用
• 右確率 … ある位置の前後で語順が同じになる確率
• [Bangalore+ 2012]
– 音声認識の無音区間（＝発話の休止）を用いて文を分割

すべてヒューリスティクスに基づく手法
音韻的情報、言語的情報 …
関連研究の問題点
• 分割位置が翻訳精度に与える影響を考慮せず
• 翻訳器に対して分割位置が最適化されていない

1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果

提案手法への要件
• 提案手法が満たすべき要件
機械翻訳の評価尺度に基づいて
最適な分割位置を決定
1. 定式化
2. 文分割アルゴリズムの提案

文ごとの評価値の総和：
文分割
→個別に翻訳
→結合
定式化
学習データ中の
文分割位置集合
機械翻訳の
評価尺度
学習済み
翻訳器
対訳文
（学習データ）
• 対訳文・翻訳器・評価尺度が与えられたとき、
文ごとの評価尺度の合計を最大化する文分割位置を探索

文分割
モデル
モデル化
S*
分割位置の
選択
アルゴリズムの概要
3. 分割位置を素性でモデル化
2. 個の分割位置を学習データから選択
翻訳器 MT対訳
𝒇 𝑗, 𝒆𝑗
評価尺度 EV
K
今回メインの話題
3種類の手法
1. 学習データ（対訳コーパス）全体で分割する数を決定
（＝分割頻度の制約）

例
I ate lunch but she left
手法 1: 貪欲法に基づく探索
• 次の分割位置を決めるとき、今までに選んだ分割位置を保持
(＝貪欲法: greedy search)
最初の分割位置
ω = 0.7 ω = 0.5 ω = 0.8 ω = 0.6 ω = 0.6
2番目の分割位置
ω = 0.7 ω = 0.5 ω = 0.7 ω = 0.8
3番目の分割位置
ω = 0.5 ω = 0.8ω = 0.9
選ばれた分割位置の素性をSVMで学習

代名詞動詞名詞接続詞代名詞動詞
I ate an apple and an orange
代名詞動詞限定詞名詞接続詞限定詞名詞
例（素性：前後の品詞）
手法 2: 素性によるグループ化
• 翻訳器・評価尺度 … 複雑な関数ノイズが多い
– 学習データの性能が偶然良くなる分割位置で過学習
• 解決策 … 同じ素性を持つ分割位置をグループ化、同時に分割
グループ(代名詞+動詞) グループ(名詞+接続詞) グループ(限定詞+名詞)
• 動的計画法(DP)で探索、探索で素性が得られるのでモデル化は不要

手法 3: 正則化の追加
• 素性によるグループ化を行っても、
滅多に現れない素性に対して過学習してしまう可能性
正則化項
• 素性の数に対する正則化項を導入
• 大きな α … 最終的に選択される素性の数が減少
– α = 0 のときはグループ化のみの場合と等価

1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果

実験設定
• テストデータのドメイン … TED翻訳タスク [WIT3: Cettolo+ 2012]
• 言語対 ... 英語→ドイツ語・英語→日本語
• トークン化・品詞推定 ... Stanford POS Tagger, KyTea
• ... BLEU+1
• ... Moses(PBMT)
• テストデータの評価 ... BLEU, RIBES
言語対用途形態素数（英）形態素数（独/日）
英語→ドイツ語
PBMT 学習 21.8M 20.3M
文分割学習 424k 390k
テスト 27.6k 25.4k
英語→日本語
PBMT 学習 13.7M 19.7M
文分割学習 401k 550k
テスト 8.20k 11.9k

比較対象
手法名概要
従来手法
Punct-Predict 句読点位置の予測 [Rangarajan+ 2013]
RP 右確率 [Fujita+ 2013]
提案手法
Greedy
手法1:
貪欲法（＋SVMによるモデル化）
Greedy+DP
手法2:
貪欲法＋素性によるグループ化
Greedy+DP (α = 0.5)
手法3:
貪欲法＋素性によるグループ化＋正則化

実験結果 - BLEU
翻訳単位の平均単語数
BLEU
Greedyは性能が低い
（過学習？）
Greedy+DPは
RPよりも高性能
（英→独：1程度向上）
翻訳性能を維持して
未分割より3～5倍、
句読点予測より2～3倍
の分割頻度を実現

実験結果 - RIBES
RIBES
英→独、英→日
両方でRPより高性能
（英→独：1程度向上）
（英→日：3程度向上）

実験結果 - 学習データのBLEU
BLEU
Greedyは
学習データに対し
非常に高い性能
しかし
テスト結果は悪い
過学習
Greedy+DP
グループ化制約
過学習を抑制

学習結果 (Greedy+GP)
（高頻度順）
1 NN / CC 7 NN / RB
2 NN / VBZ 8 NNS / VBP
3 CC / PRP 9 NN / VBD
4 NN / PRP 10 CC / IN
5 CC / DT 11 CC / NN
6 CC / RB 12 CC / LS

まとめ
• 同時音声翻訳の実現には文分割法が必要
• 従来手法＝ヒューリスティクス
• 提案手法＝翻訳精度を直接最適化
– 貪欲法
– 動的計画法
– 素性の数による正則化
• 実験結果
– BLEU 英→独で性能向上
– RIBES 英→独、英→日で性能向上
– 分割頻度未適用より3～5倍、従来手法（句読点予測）より2～3倍

今後の課題
• Greedy+DPアルゴリズムの改良
– 多数の素性を使用できるようにする
– 学習データの大規模化（要：高速化・省メモリ化）
• 履歴を考慮した翻訳[Rangarajan-Sridhar+ 2013]の適用
– 翻訳精度が向上することが既知
• 文末推定・品詞推定のオンライン化
• 人手評価による検証

References
• [Matusov+ 2006]
Evgeny Matusov, Arne Mauser, and Hermann Ney. Automatic sentence segmentation and
punctuation prediction for spoken language translation. In Proc. IWSLT, pages 158-165, 2006.
• [Bangalore+ 2012]
Srinivas Bangalore, Vivek Kumar Rangarajan Sridhar, Prakash Kolan, Ladan Golipour, and Aura
Jimenez. Real-time incremental speech-to-speech translation of dialogs. In Proc. NAACL HLT, pages
437-445, 2012.
• [Rangarajan-Sridhar+ 2013]
Vivek Kumar Rangarajan Sridhar, John Chen, Srinivas Bangalore, Andrej Ljolje, and Rathinavelu
Chengalvarayan. Segmentation strategies for streaming speech translation. In Proc. NAACL HLT,
pages 230-238, 2013.
• [Fujita+ 2013]
Tomoki Fujita, Graham Neubig, Sakriani Sakti, Tomoki Toda, and Satoshi Nakamura. Simple,
lexicalized choice of translation timing for simultaneous speech translation. In InterSpeech, 2013.
• [WIT3: Cettolo+ 2012]
Mauro Cettolo, Christian Girardi, and Marcello Federico.2012. Wit3: Web inventory of transcribed
and translated talks. In Proc. EAMT, pages 261–268.

翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to 翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)

Similar to 翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014) (7)

翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)