Saito18sp03

©Yuki Saito, 2018/03/19
2018年3月音声 (SP) 研究会 3月19日 (月) SP-4
○ 齋藤佑樹 (NTT/東大),
井島勇祐, 西田京介 (NTT), 高道慎之介 (東大)
音素事後確率と 𝑑-vector を用いた
Variational Autoencoder による
ノンパラレル多対多音声変換

/24
 音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
 統計的パラメトリックVC [Stylianou et al., 1988]
– 音声パラメータを統計モデルによりモデル化 (学習) & 変換
– パラレルVC: 学習に変換元/変換先話者の同一発話音声を使用
• 高品質な変換が可能だが, 学習データの収集は困難
– ノンパラレルVC: 同一発話以外の音声の利用が可能
• 学習データの収集が容易だが, 変換音声の品質は劣化
1
研究分野: 音声変換 (Voice Conversion: VC)
音声変換:
Voice Conversion (VC)
Target
speech
Source
speech

/242
本発表の概要
 従来法: VAE*を用いた一対一VC (VAE-VC)
– 話者表現で条件付けされたVAEを用いて音声パラメータを変換
– 音韻を表す潜在変数の過剰な正則化により, 音声の品質が劣化
– 特定話者対の変換のみが可能 (未知話者の変換は困難)
 提案法
– (1) 音素事後確率を用いたVAE-VC
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) ノンパラレル多対多VAE-VC
• 未知話者から未知話者への変換が可能
• 未知話者にも対応する話者表現法 (話者コード適応, 𝑑-vector)
 結果: VAE-VCの大幅な品質改善 & 多対多VAE-VCを実現
[Hsu et al., 2016]
*Variational AutoEncoder [Kingma et al., 2013]

/243
目次
 研究背景
 従来のVAE音声変換
 提案法
– 音素事後確率を用いたVAE音声変換
– 多対多VAE音声変換への拡張
 実験的評価
 まとめ

/244
Variational AutoEncoder (VAE)
ℒ 𝜽, 𝝓; 𝒙 = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛
[Kingma et al., 2013]
潜在変数 𝒛 に対する正則化項
Latent
variables
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
特徴量 𝒙 の再構築誤差
Input
features
Generated
features

/245
話者コードを用いた従来のVAE-VCの学習フェーズ
(一対一VC)
ℒ 𝜽, 𝝓; 𝒙, 𝒚s = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙
log 𝑝 𝜽 𝒙|𝒛, 𝒚s
潜在変数 𝒛 に対する正則化項
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
音声パラメータ 𝒙 の再構築誤差
Input
speech
params.
Generated
speech
params.
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
𝑝 𝜃 𝒙|𝒛, 𝒚s
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
𝒚s
Speaker
codes

/246
話者コードを用いた従来のVAE-VCの変換フェーズ
(一対一VC)
 潜在変数 𝒛 は話者表現 𝒚s に対して独立であると仮定
– 話者に依存しない音韻の情報を表現することを期待
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016]
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
𝒚s
Speaker
codes

/247
従来のVAE-VCにおける問題点
 問題点1: 𝒛 の分布の過剰な正則化
– 音韻の消失により品質が劣化
Encoder
𝑞 𝜙 𝒛|𝒙
Decoder
Latent
variables
𝒙 𝒙
𝒛
𝒩 𝒛; 𝟎, 𝑰
Input
speech
params.
Generated
speech
params.
 問題点2: 変換可能な話者対の制約
– 離散的な話者コードの利用に起因
[Bowman et al., 2016]
𝒚s
Speaker
codes

/248
目次
 研究背景
 提案法
 実験的評価
 まとめ

/249
提案法の概要
 前提: 不特定多数話者音声を含む大規模コーパスが利用可能
– 音声認識/話者認証モデル構築用 (e.g., 男女200名以上)
 提案法
– (1) 音素事後確率を用いたVAE-VC
• 音素事後確率 (PPG*): 音声認識モデルの予測結果
• 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与
– (2) 未知話者対の変換も可能なVAE-VC
• 未知話者にも対応する話者表現法を提案
– 話者コード適応: 離散的な話者コードを未知話者に適応
– 𝑑-vector: 話者認証モデルのボトルネック特徴量 (連続値)
[Variani et al., 2014]
[Luong et al., 2017]
*Phonetic PosteriorGrams [Sun et al., 2016]

/2410
音素事後確率 (PPG) を用いたVAE-VC
𝒙 𝒙
𝒛
Encoder Decoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes

/2411
ノンパラレル多対多VAE-VCへの拡張
𝒙 𝒙
𝒛
Encoder Decoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes
未知話者に対する
話者表現推定法を提案

/2412
𝒙 𝒙
𝒛
Encoder
𝒚s
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
Speaker
codes
(1) 未知話者に対する話者コードの適応*
𝐿MSE = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙
𝜕𝐿MSE 𝜕𝒚s
Decoder
*テキスト音声合成で提案 [Luong et al., 2017]
0.7
0.3

/2413
𝒙 𝒙
𝒛
Encoder Decoder
Pre-trained
speaker
verification
Pre-trained
speech
recognition
あ
a
i
u
𝒛p
PPGs
(2) 音素事後確率 (PPG) と 𝑑-vector を用いたVAE-VC
𝑑-vectors
𝒛s𝒙∗
未知話者の 𝑑-vector も
同様に利用可能

/2414
考察
 音声認識/話者認証モデル学習時のラベリング
– 音声認識: 音素ラベルの付与，話者認証: 話者コードの付与
• → Conditional VAEの枠組みに基づく半教師あり学習が可能
 音声変換/音声認識/話者認証の統合
– 提案法における音声認識/話者認証モデル: 事前学習後は固定
• → End-to-End 学習による同時最適化も可能
 言語非依存の音声変換への拡張
– 提案法におけるPPGの単位: 日本語音素
• → 識別単位の変更により言語非依存の音声変換も実現可能
[Kingma et al., 2014]
[Zhang et al., 2017] [Heigold et al., 2016]

/2415
目次
 研究背景
 提案法
 実験的評価
 まとめ

/24
実験条件
音声コーパス
音声認識/話者認証モデル構築用
260名 (男性130, 女性130, 約31時間)
音声変換モデル (男性 → 男性, 男性 → 女性) 構築用
同一発話内容の425データを3分割
(1—200: 変換元, 201—400: 変換先, 401—425: 評価)
音声特徴量
(動的特徴量も含む)
スペクトル特徴量
40次元のメルケプストラム (0次は変換せず)
音源特徴量
対数F0, U/V, 10帯域の非周期成分
DNNアーキテクチャ
すべて Feed-Forward 型ネットワーク
(アーキテクチャの詳細は原稿を参照)
PPGの音素数 56 (当該フレームの音素のみ予測)
𝑑-vector 16次元
VAEの潜在変数 64次元
16

/2417
客観評価
 比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ: 同一発話音声
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ: 非同一発話音声
• 提案法は多対多VCでも評価
– 音声認識/話者認証用コーパスで音声変換モデルを学習
– 評価用の話者対は学習データから除外
 評価基準: 変換音声の mel-cepstral distortion
– 学習/適応 (話者推定) 時に用いるデータ量の影響を調査

/2418
客観評価結果 (一対一VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of training data
良
悪
従来法と比較して歪みを大幅に改善
リファレンス
従来法
提案法 (話者コード)
提案法 (𝑑-vector)
リファレンス
従来法

/2419
客観評価結果 (多対多VC)
(a) Male-to-male (b) Male-to-female
Mel-cepstraldistortion[dB]
6.0
7.0
8.0
9.0
5 10 25 50 100 200 5 10 25 50 100 200
Number of adaptation data
良
悪
話者表現としての 𝑑-vector の有効性を確認

/2420
主観評価
 比較手法
– リファレンス: Feed-Forward DNN [Desai et al., 2009]
• DNNの学習データ数: 400 (同一発話音声)
– 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016]
– 提案法 (話者コード): 話者コードとPPGを用いたVAE
– 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE
• VAEの学習データ数: 200 (非同一発話音声)
• 提案法は一対一と多対多の両方で音声サンプルを生成
– 多対多VCの適応データ数: 100
 評価基準
– 変換音声の自然性 (MOSスコア) & 話者類似性 (DMOSスコア)

/2421
主観評価結果
(変換音声の自然性に関するMOSスコア)
エラーバーは95%信頼区間, 評価者数8名
リファレンス
従来法
提案法
(話者コード)
提案法
(𝑑-vector)
提案法
(話者コード)
提案法
(𝑑-vector)
M2M
M2F
悪
変換音声の自然性に関するMOSスコア
良
1.0 2.0 3.0 4.0 5.0
大きく改善
一対一
多対多

/2422
主観評価結果
(変換音声の話者類似性に関するDMOSスコア)
エラーバーは95%信頼区間, 評価者数8名
リファレンス
従来法
提案法
(話者コード)
提案法
(𝑑-vector)
提案法
(話者コード)
提案法
(𝑑-vector)
M2M
M2F
悪
変換音声の話者類似性に関するDMOSスコア
良
1.0 2.0 3.0 4.0 5.0
大きく改善
提案法による品質改善 & ノンパラレル多対多VAE-VCを実現
一対一
多対多

/2423
目次
 研究背景
 提案法
 実験的評価
 まとめ

/24
まとめ
24
 目的
– VAEを用いたノンパラレルVCの品質改善 & 多対多VCへの拡張
 提案
– (1) 音素事後確率を用いたVAE-VCの学習/変換法
• 音韻の消失に起因する品質劣化を緩和
– (2) 多対多VAE-VCのための話者表現
• (a) 話者コードの適応, (b) 𝑑-vector の利用
 結果
– (1) 音素事後確率の導入による大幅な品質改善
– (2) ノンパラレル多対多VAE-VCの実現
• 𝑑-vector は同性間のVCにおける品質改善に有効
 今後
– 𝑑-vector の次元数への依存性に関する調査

Saito18sp03

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Saito18sp03

Similar to Saito18sp03 (6)

More from Yuki Saito

More from Yuki Saito (16)

Saito18sp03