Mais conteúdo relacionado
Semelhante a miyoshi17sp07 (17)
miyoshi17sp07
- 2. /22
音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
統計的パラメトリック音声変換
– 音声特徴量を統計モデルによりモデル化 & 変換
• Deep Neural Network (DNN) 音声変換 [Desai et al., 2009]
テキスト依存音声変換 [Kain et al., 1998]
– 入力音声 → テキスト → 出力音声
– 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech)
– ノンパラレルデータを用いた学習も可能
– テキストへのマッピングにより音声特徴量の時間解像度が低下
1
研究分野: テキスト依存音声変換
音声変換:
Voice Conversion (VC)
Output
speech
Input
speech
- 3. /22
従来法: コンテキスト事後確率の複写に基づく音声変換
– コンテキスト事後確率を利用し, フレーム単位での変換を実現
– 話者性の再現精度が低下
• 入力音声のコンテキスト事後確率の複写が原因
本発表
– (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習
• 事後確率の可変長変換により, 話者性の変換精度を改善
– (2) 音声認識・合成モデルの dual learning
• 音声合成時の誤差を考慮し, 複数のモデルを同時に学習
結果
– Seq2Seq 学習により話者性が改善
– Dual learning により音質・話者性が改善
2
本発表の概要
- 10. /229
Sequence-to-Sequence (Seq2Seq) 学習
Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習
コンテキスト事後確率の Seq2Seq 学習における問題点
– 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016]
– 継続長 (フレーム数) の決定が困難
本発表における制約
– 事後確率変換の単位は音素ごと
– 事後確率の継続長は既知
雨 が 降る It rains
入力系列 出力系列
Encoder Decoder
- 15. /2214
考察
系列のアライメント単位に関する考察
– テキスト依存音声変換: コンテキスト単位
• 可変長の系列変換が可能だが, 時間の量子化が発生
– 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位
• 時間の量子化は緩和されるが, 系列長が固定
– 提案法: フレーム単位
• Seq2Seq 学習により, 可変長の系列変換を実現
Dual learning に関する考察
– 所望のクラスラベルを用いた自己符号化に類似
– 潜在変数を用いた variational auto-encoder に拡張可能
[Kingma et al., 2014]
- 17. /22
実験条件
入出力話者
女性話者 → 男性話者
(話速が大きく異なる話者の組を選択)
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文×8名 / Jセット 53文
スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元)
コンテキスト
224次元 (quin-phone)
音声認識モデルのコスト関数:
音素グループ毎の識別誤差の和
音声認識モデル Bi-directional LSTM (output activation: softmax)
音声合成モデル Bi-directional LSTM (output activation: linear)
事後確率変換モデル
Encoder: Bi-directional LSTM
Decoder: Uni-directional LSTM
16
- 18. /2217
Seq2Seq 学習の有効性に関する客観評価
評価指標: 自然音声 / 合成音声のメルケプストラム歪み
– アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法)
– 提案法において継続長は既知 → 理想条件の下での評価値
Proposed
Conventional
4.0 4.5 5.0 6.0 6.55.5
改善
Seq2Seq 学習により, DTWに起因する歪みの増加を回避!
メルケプストラム歪み [dB]
- 20. /2219
音声認識・合成モデルの
Dual Learning に関する客観評価
評価指標: 認識・合成を通じた特徴量復元による歪み
– (1) 音声認識・合成モデルを通じて入力音声特徴量を復元
– (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算
Dual learning
個別学習
4.0 4.5 5.0 6.0 6.55.5
改善
メルケプストラム歪み [dB]
Dual learning により, 歪みの軽減した音声特徴量を生成!
- 21. /22
プリファレンススコア (評価者数7名)
20
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
0.0 0.2 0.4 0.6 1.00.8
Dual learning
個別学習
Dual learning
個別学習
音声認識・合成モデルの
Dual Learning に関する主観評価 (音声変換の品質)
改善
改善
(a) 話者性
(b) 音質
- 23. /22
まとめ
目的: テキスト依存音声変換の品質改善
提案法
– (1) コンテキスト事後確率の Seq2Seq 学習
– (2) 音声認識・合成モデルの dual learning
結果
– Seq2Seq 学習による話者性の改善
– Dual learning による音質・話者性の改善
• 事後確率モデルも含めた dual learning による改善は見られず
今後の予定
– Seq2Seq 学習を行う場合の系列長決定法に関する調査
22