More Related Content
Similar to Saito18sp03 (6)
More from Yuki Saito (16)
Saito18sp03
- 1. ©Yuki Saito, 2018/03/19
2018年3月 音声 (SP) 研究会 3月19日 (月) SP-4
○ 齋藤 佑樹 (NTT/東大),
井島 勇祐, 西田 京介 (NTT), 高道 慎之介 (東大)
音素事後確率と 𝑑-vector を用いた
Variational Autoencoder による
ノンパラレル多対多音声変換
- 2. /24
音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
統計的パラメトリックVC [Stylianou et al., 1988]
– 音声パラメータを統計モデルによりモデル化 (学習) & 変換
– パラレルVC: 学習に変換元/変換先話者の同一発話音声を使用
• 高品質な変換が可能だが, 学習データの収集は困難
– ノンパラレルVC: 同一発話以外の音声の利用が可能
• 学習データの収集が容易だが, 変換音声の品質は劣化
1
研究分野: 音声変換 (Voice Conversion: VC)
音声変換:
Voice Conversion (VC)
Target
speech
Source
speech
- 3. /242
本発表の概要
従来法: VAE*を用いた一対一VC (VAE-VC)
– 話者表現で条件付けされたVAEを用いて音声パラメータを変換
– 音韻を表す潜在変数の過剰な正則化により, 音声の品質が劣化
– 特定話者対の変換のみが可能 (未知話者の変換は困難)
提案法
– (1) 音素事後確率を用いたVAE-VC
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) ノンパラレル多対多VAE-VC
• 未知話者から未知話者への変換が可能
• 未知話者にも対応する話者表現法 (話者コード適応, 𝑑-vector)
結果: VAE-VCの大幅な品質改善 & 多対多VAE-VCを実現
[Hsu et al., 2016]
*Variational AutoEncoder [Kingma et al., 2013]
- 5. /244
Variational AutoEncoder (VAE)
ℒ 𝜽, 𝝓; 𝒙 = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛
[Kingma et al., 2013]
潜在変数 𝒛 に対する正則化項
Latent
variables
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
特徴量 𝒙 の再構築誤差
Input
features
Generated
features
- 6. /245
話者コードを用いた従来のVAE-VCの学習フェーズ
(一対一VC)
ℒ 𝜽, 𝝓; 𝒙, 𝒚s = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛, 𝒚s
潜在変数 𝒛 に対する正則化項
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
音声パラメータ 𝒙 の再構築誤差
Input
speech
params.
Generated
speech
params.
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
𝒚s
Speaker
codes
- 7. /246
話者コードを用いた従来のVAE-VCの変換フェーズ
(一対一VC)
潜在変数 𝒛 は話者表現 𝒚s に対して独立であると仮定
– 話者に依存しない音韻の情報を表現することを期待
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
𝒚s
Speaker
codes
- 8. /247
従来のVAE-VCにおける問題点
問題点1: 𝒛 の分布の過剰な正則化
– 音韻の消失により品質が劣化
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
問題点2: 変換可能な話者対の制約
– 離散的な話者コードの利用に起因
[Bowman et al., 2016]
𝒚s
Speaker
codes
- 10. /249
提案法の概要
前提: 不特定多数話者音声を含む大規模コーパスが利用可能
– 音声認識/話者認証モデル構築用 (e.g., 男女200名以上)
提案法
– (1) 音素事後確率を用いたVAE-VC
• 音素事後確率 (PPG*): 音声認識モデルの予測結果
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) 未知話者対の変換も可能なVAE-VC
• 未知話者にも対応する話者表現法を提案
– 話者コード適応: 離散的な話者コードを未知話者に適応
– 𝑑-vector: 話者認証モデルのボトルネック特徴量 (連続値)
[Variani et al., 2014]
[Luong et al., 2017]
*Phonetic PosteriorGrams [Sun et al., 2016]
- 15. /2414
考察
音声認識/話者認証モデル学習時のラベリング
– 音声認識: 音素ラベルの付与,話者認証: 話者コードの付与
• → Conditional VAEの枠組みに基づく半教師あり学習が可能
音声変換/音声認識/話者認証の統合
– 提案法における音声認識/話者認証モデル: 事前学習後は固定
• → End-to-End 学習による同時最適化も可能
言語非依存の音声変換への拡張
– 提案法におけるPPGの単位: 日本語音素
• → 識別単位の変更により言語非依存の音声変換も実現可能
[Kingma et al., 2014]
[Zhang et al., 2017] [Heigold et al., 2016]
- 17. /24
実験条件
音声コーパス
音声認識/話者認証モデル構築用
260名 (男性130, 女性130, 約31時間)
音声変換モデル (男性 → 男性, 男性 → 女性) 構築用
同一発話内容の425データを3分割
(1—200: 変換元, 201—400: 変換先, 401—425: 評価)
音声特徴量
(動的特徴量も含む)
スペクトル特徴量
40次元のメルケプストラム (0次は変換せず)
音源特徴量
対数F0, U/V, 10帯域の非周期成分
DNNアーキテクチャ
すべて Feed-Forward 型ネットワーク
(アーキテクチャの詳細は原稿を参照)
PPGの音素数 56 (当該フレームの音素のみ予測)
𝑑-vector 16次元
VAEの潜在変数 64次元
16
- 18. /2417
客観評価
比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ: 同一発話音声
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ: 非同一発話音声
• 提案法は多対多VCでも評価
– 音声認識/話者認証用コーパスで音声変換モデルを学習
– 評価用の話者対は学習データから除外
評価基準: 変換音声の mel-cepstral distortion
– 学習/適応 (話者推定) 時に用いるデータ量の影響を調査
- 19. /2418
客観評価結果 (一対一VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of training data
良
悪
従来法と比較して歪みを大幅に改善
リファレンス
従来法
提案法 (話者コード)
提案法 (𝑑-vector)
リファレンス
従来法
提案法 (話者コード)
提案法 (𝑑-vector)
- 20. /2419
客観評価結果 (多対多VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of adaptation data
良
悪
話者表現としての 𝑑-vector の有効性を確認
提案法 (話者コード)
提案法 (𝑑-vector)
提案法 (話者コード)
提案法 (𝑑-vector)
- 21. /2420
主観評価
比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ数: 400 (同一発話音声)
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ数: 200 (非同一発話音声)
• 提案法は一対一と多対多の両方で音声サンプルを生成
– 多対多VCの適応データ数: 100
評価基準
– 変換音声の自然性 (MOSスコア) & 話者類似性 (DMOSスコア)
- 25. /24
まとめ
24
目的
– VAEを用いたノンパラレルVCの品質改善 & 多対多VCへの拡張
提案
– (1) 音素事後確率を用いたVAE-VCの学習/変換法
• 音韻の消失に起因する品質劣化を緩和
– (2) 多対多VAE-VCのための話者表現
• (a) 話者コードの適応, (b) 𝑑-vector の利用
結果
– (1) 音素事後確率の導入による大幅な品質改善
– (2) ノンパラレル多対多VAE-VCの実現
• 𝑑-vector は同性間のVCにおける品質改善に有効
今後
– 𝑑-vector の次元数への依存性に関する調査