saito2017asj_vc

©Yuki Saito, 2017/03/15
Highway network を用いた
差分スペクトル法に基づく敵対的DNN音声変換
◎ 齋藤佑樹, 高道慎之介, 猿渡洋 (東大院・情報理工)
日本音響学会 2017年春季研究発表会
講演番号 1-6-14

/12
➢ 問題点: 統計的パラメトリック音声変換の音質劣化
• 生成される音声特徴量系列の過剰な平滑化が一因
➢ 改善案:
– (1) 入力音声特徴量の直接的な利用
• 入出力のドメインが同じ → 入力音声特徴量の自然性を利用可能
– (2) Anti-spoofing に敵対する音響モデル学習
 自然 / 合成音声特徴量の分布の違いを補償
 テキスト音声合成において有効性を確認
➢ 本発表:
– (1) Input-to-output highway net を用いた差分スペクトル推定
– (2) 音声変換のための anti-spoofing に敵対する音響モデル学習
➢ 結果: 提案手法による品質改善効果を確認
1
本発表の概要
[Saito et al., 2017.]

/12
従来の枠組み: 特徴量変換に基づくDNN音声変換
2
𝒙, 𝒚, ෝ𝒚: { input, output, converted } speech features
𝑿, ෡𝒀: { input, converted } static-dynamic speech features
Delta
calculation
𝑾 ⋯
𝑿
⋯
⋯
෡𝒀
ML-based
parameter
gen.
⋯
⋯
⋯
⋯
Acoustic models
𝑮 ⋅
⋯
⋯
⋯
⋯
𝒙1
𝒙 𝑇
𝒙
⋯
𝐿G 𝒚, ෝ𝒚 =
1
𝑇
ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize
Minimum Generation Error (MGE) 学習 [Wu et al., 2016.]
Generation
error
𝐿G 𝒚, ෝ𝒚 𝒚1
𝒚 𝑇
𝒚
⋯
ෝ𝒚
⋯

/123
従来手法の問題点: 自然音声と異なる特徴量分布
分布の違いを緩和・補償する
DNNアーキテクチャと音響モデル学習法を提案
分布が縮小
Natural
Feed-Forward
w/ MGE
11th mel-cepstral coefficient
13thmel-cepstral
coefficient
分布が縮小

/124
提案手法:
重み付き差分スペクトルを推定する
Input-to-Output Highway Net
+
Anti-spoofing に敵対する音響モデル学習
(敵対的DNN音声変換)

/125
重み付き差分スペクトルを推定する
Input-to-Output Highway Net
Spectral
differentials
estimation
Transform
gate
𝑻 ⋅
𝑮 ⋅𝒙
⋯
𝑮 𝒙
⋯
𝒙1
𝒙 𝑇
𝒙
⋯
ෝ𝒚
ෝ𝒚1
ෝ𝒚 𝑇
⋯
𝒙
⋯
𝑻 𝒙
⋯
ෝ𝒚 = 𝒙 + 𝑻 𝒙 ∘ 𝑮 𝒙
入力特徴量に応じて
推定結果を重み付け (0 ～ 1)
入力特徴量を
直接的に利用
[Srivastava et al., 2015.]

/126
Transform Gate の値の例
(男性話者 → 男性話者への変換)
入力特徴量に応じた柔軟な特徴量変換を実現！
Frame index
Indexofmel-cepstral
coefficient
Indexofmel-filterbank
100 200 300 400
10
20
30
40
50
100 200 300 400
10
20
30
40
50
0.0
0.2
0.4
0.6
0.8
1.0

/12
Anti-spoofing に敵対する音響モデル学習
(敵対的DNN音声変換)
7
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
Anti-spoofing に
自然音声と識別させる損失
𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D
𝐸 𝐿G
𝐸 𝐿D
𝐿D,1 ෝ𝒚 → Minimize
入力音声特徴量に基づき
自然音声と合成音声を識別
𝐿G 𝒚, ෝ𝒚
𝒚
Acoustic
models
&
parameter
generation
ෝ𝒚𝒙
⋯
𝒙1
𝒙 𝑇
1: natural
0: generated
Anti-spoofing
Cross-entropy
or
𝑮 ⋅

/12
HW w/ MGE
8
合成音声特徴量の分布
Natural
11th mel-cepstral coefficient
13thmel-cepstral
coefficient
分布の縮小を緩和し, 自然音声との違いも補償！
HW w/ ADVFF w/ MGE
FF: Feed-Forward, HW: Input-to-output highway net
MGE: Minimum Generation Error, ADV: Adversarial training

/12
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
入出力話者男性 → 男性
学習 / 評価データ A－I セット 450文 / Jセット 53文
波形生成差分スペクトル法 [Kobayashi et al., 2014.]
音声パラメータ
60次元のメルケプストラム
(0次のメルケプストラムは入力話者のものを利用)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
音響モデル Feed-Forward 118 – 3x512 (ReLU) – 118 (linear)
Anti-spoofing Feed-Forward 59 – 3x256 (ReLU) – 1 (sigmoid)
重み 𝜔D 1.0
比較手法
MGE: 提案アーキテクチャ w/ MGE学習
ADV: 提案アーキテクチャ w/ 敵対的DNN音声変換
10

/12
音質・話者性に関する主観評価結果
➢ プリファレンススコア (評価者数8名)
11
敵対的DNN音声変換による音質・話者性の改善を確認
MGE
ADV
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
(a) 音質
(b) 話者性
MGE
ADV
改善
改善
0.0 0.2 0.4 0.6 1.00.8

/12
まとめ
➢ 目的: 統計的パラメトリック音声変換の品質改善
➢ 提案手法:
– (1) Input-to-output highway net による差分スペクトル推定
• 入力特徴量の直接的な利用 & 柔軟な特徴量変換
– (2) 敵対的DNN音声変換
• 自然 / 合成音声特徴量の分布の違いを補償
➢ 今後の予定:
• Input-to-output highway net の話者対への依存性の調査
12

saito2017asj_vc

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a saito2017asj_vc

Semelhante a saito2017asj_vc (7)

Mais de Yuki Saito

Mais de Yuki Saito (15)

saito2017asj_vc