miyoshi17sp07

©Yuki Saito, 2017/07/27
コンテキスト事後確率の
Sequence-to-Sequence 学習を用いた音声変換と
Dual Learning の評価
三好裕之, ○ 齋藤佑樹, 高道慎之介, 猿渡洋 (東京大学)
2017年7月音声（SP）研究会 7月27日（木）SP-3

/22
 音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
 統計的パラメトリック音声変換
– 音声特徴量を統計モデルによりモデル化 & 変換
• Deep Neural Network (DNN) 音声変換 [Desai et al., 2009]
 テキスト依存音声変換 [Kain et al., 1998]
– 入力音声 → テキスト → 出力音声
– 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech)
– ノンパラレルデータを用いた学習も可能
– テキストへのマッピングにより音声特徴量の時間解像度が低下
1
研究分野: テキスト依存音声変換
音声変換:
Voice Conversion (VC)
Output
speech
Input
speech

/22
 従来法: コンテキスト事後確率の複写に基づく音声変換
– コンテキスト事後確率を利用し, フレーム単位での変換を実現
– 話者性の再現精度が低下
• 入力音声のコンテキスト事後確率の複写が原因
 本発表
– (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習
• 事後確率の可変長変換により, 話者性の変換精度を改善
– (2) 音声認識・合成モデルの dual learning
• 音声合成時の誤差を考慮し, 複数のモデルを同時に学習
 結果
– Seq2Seq 学習により話者性が改善
– Dual learning により音質・話者性が改善
2
本発表の概要

/223
目次
 研究背景
 従来のテキスト依存音声変換
 提案法
– コンテキスト事後確率の Seq2Seq 学習
– 音声認識・合成モデルの dual learning
 実験的評価
 まとめ

/224
テキスト依存音声変換における
話者非依存の音声認識モデル学習
Linguistic
feats.
𝒍 𝑥
Cross-entropy (認識誤差) 最小化
ASR
[Kain et al., 1998]
Posterior
probs.
𝒑 𝑥
a
i
u
継続長の異なる様々な音声特徴量を用いて学習
Frame
Source
speech
feats. 𝒙

/225
テキスト依存音声変換における
目的話者依存の音声合成モデル学習
[Kain et al., 1998]Mean squared error 最小化
Generated
speech
feats.𝒚
Frame
Target
speech
feats. 𝒚 𝒑 𝑦
TTSASR (fixed)
𝒑 𝑦
Posterior
probs.

/226
コンテキスト事後確率の複写に基づく音声変換
[Sun et al., 2016]
Frame
Source
speech
feats. 𝒙
COPY
Converted
speech
feats.𝒚
TTSASR
Posterior
probs.
𝒑 𝑥
入力音声特徴量のコンテキスト事後確率を複写し,
合成音声特徴量を推定
𝒑 𝑥

/227
従来法の問題点
 ① 事後確率に含まれる話速・音韻性の違いを無視した変換
 ② 音声認識・合成モデルの個別学習
– 認識精度の改善 ≠ 合成音声の品質改善
a
r
a
y
a
r
a
y
0
1
話速の違い音韻性の違い
Frame y r y raa

/228
目次
 研究背景
 提案法
 実験的評価
 まとめ

/229
Sequence-to-Sequence (Seq2Seq) 学習
 Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習
 コンテキスト事後確率の Seq2Seq 学習における問題点
– 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016]
– 継続長 (フレーム数) の決定が困難
 本発表における制約
– 事後確率変換の単位は音素ごと
– 事後確率の継続長は既知
雨が降る It rains
入力系列出力系列
Encoder Decoder

/2210
事後確率変換モデル学習
Frame
𝑪 𝒑 𝑥
Posterior conversion
𝑪 ⋅
𝒍 𝑦
Mean squared error
(変換誤差) 最小化
Cross-entropy 最小化
(事後確率推定誤差の影響を軽減)
Source
posterior
probs.
𝒑 𝑦𝒑 𝑥

/2211
コンテキスト事後確率の
Seq2Seq 学習を用いた音声変換
FrameSource
speech
feats. 𝒙
ASR
𝒚
Converted
speech
feats.
TTS
Posterior
probs.
𝒑 𝑥
𝑪 ⋅
CONVERSION
𝒑 𝑦

/2212
Seq2Seq 学習の効果:
事後確率の違いを考慮した変換
Estimated (Seq2Seq)Target speakerSource speaker
0
1
コンテキスト事後確率の可変長変換を実現！

/2213
𝒍 𝑥
Cross-entropy
最小化
ASR
𝒑 𝑥
Frame
Source
speech
feats. 𝒙
音声認識・合成モデルの Dual Learning
Generated
speech
feats.𝒙
TTS
[He et al., 2016]
Input to TTS
Mean squared error 最小化
音声合成時の誤差も考慮しつつ, 認識モデルを学習！

/2214
考察
 系列のアライメント単位に関する考察
– テキスト依存音声変換: コンテキスト単位
• 可変長の系列変換が可能だが, 時間の量子化が発生
– 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位
• 時間の量子化は緩和されるが, 系列長が固定
– 提案法: フレーム単位
• Seq2Seq 学習により, 可変長の系列変換を実現
 Dual learning に関する考察
– 所望のクラスラベルを用いた自己符号化に類似
– 潜在変数を用いた variational auto-encoder に拡張可能
[Kingma et al., 2014]

/2215
目次
 研究背景
 提案法
 実験的評価
 まとめ

/22
実験条件
入出力話者
女性話者 → 男性話者
(話速が大きく異なる話者の組を選択)
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A－I セット 450文×8名 / Jセット 53文
スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元)
コンテキスト
224次元 (quin-phone)
音声認識モデルのコスト関数:
音素グループ毎の識別誤差の和
音声認識モデル Bi-directional LSTM (output activation: softmax)
音声合成モデル Bi-directional LSTM (output activation: linear)
事後確率変換モデル
Encoder: Bi-directional LSTM
Decoder: Uni-directional LSTM
16

/2217
Seq2Seq 学習の有効性に関する客観評価
 評価指標: 自然音声 / 合成音声のメルケプストラム歪み
– アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法)
– 提案法において継続長は既知 → 理想条件の下での評価値
Proposed
Conventional
4.0 4.5 5.0 6.0 6.55.5
改善
Seq2Seq 学習により, DTWに起因する歪みの増加を回避！
メルケプストラム歪み [dB]

/22
Seq2Seq 学習の有効性に関する主観評価結果
(音声変換の品質)
 プリファレンススコア (評価者数7名)
18
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
改善
改善
0.0 0.2 0.4 0.6 1.00.8
Proposed
Conventional
(b) 音質
(a) 話者性
Proposed
Conventional
改善
劣化

/2219
音声認識・合成モデルの
Dual Learning に関する客観評価
 評価指標: 認識・合成を通じた特徴量復元による歪み
– (1) 音声認識・合成モデルを通じて入力音声特徴量を復元
– (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算
Dual learning
個別学習
4.0 4.5 5.0 6.0 6.55.5
改善
メルケプストラム歪み [dB]
Dual learning により, 歪みの軽減した音声特徴量を生成！

/22
 プリファレンススコア (評価者数7名)
20
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
0.0 0.2 0.4 0.6 1.00.8
Dual learning
個別学習
Dual learning
個別学習
音声認識・合成モデルの
Dual Learning に関する主観評価 (音声変換の品質)
改善
改善
(a) 話者性
(b) 音質

/2221
目次
 研究背景
 提案法
 実験的評価
 まとめ

/22
まとめ
 目的: テキスト依存音声変換の品質改善
 提案法
– (1) コンテキスト事後確率の Seq2Seq 学習
– (2) 音声認識・合成モデルの dual learning
 結果
– Seq2Seq 学習による話者性の改善
– Dual learning による音質・話者性の改善
• 事後確率モデルも含めた dual learning による改善は見られず
 今後の予定
– Seq2Seq 学習を行う場合の系列長決定法に関する調査
22

miyoshi17sp07

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a miyoshi17sp07

Semelhante a miyoshi17sp07 (17)

Mais de Yuki Saito

Mais de Yuki Saito (16)

miyoshi17sp07