Mais conteúdo relacionado
Semelhante a DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム (11)
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
- 3. /14
従来の音響モデル学習:
Minimum Generation Error (MGE) 学習
2
Generation
error
𝐿G 𝒄, ො𝒄
Linguistic
feats.
𝒄
[Wu et al., 2016.]
Static-delta
mean vectors
⋯
⋯
⋯
⋯
ො𝒄
time
𝑡 = 1
⋯
⋯
⋯
⋯
⋯
time
𝑡 = 𝑇
⋯
Generated
speech
params.
Natural
speech
params.
Parameter
generation
𝐿G 𝒄, ො𝒄 =
1
𝑇
ො𝒄 − 𝒄 T ො𝒄 − 𝒄 → Minimize
⋯
- 6. /14
Anti-spoofing:
合成音声による声のなりすましを防ぐ識別器
5
ො𝒄 Cross entropy
𝐿D 𝒄, ො𝒄
0: generated
1: natural
[Wu et al., 2016.] [Chen et al., 2015.]
𝐷 𝝓 ⋅
Generated
speech
params.
𝒄
Natural
speech
params.
Feature
function
𝝓 ⋅
本発表では𝝓 𝒄 𝑡 = 𝒄 𝑡
𝐿D,1 𝒄 𝐿D,0 ො𝒄
𝐿D 𝒄, ො𝒄 = → Minimize−
1
𝑇
𝑡=1
𝑇
log 𝐷 𝒄 𝑡 −
1
𝑇
𝑡=1
𝑇
log 1 − 𝐷 ො𝒄 𝑡
合成音声を
合成音声と識別させる
自然音声を
自然音声と識別させる
- 7. /14
Anti-spoofing と敵対する音響モデル学習
6
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
Linguistic
feats.
Parameter
generation
𝐿G 𝒄, ො𝒄
𝐿D,1 ො𝒄Feature
function 1: natural
𝜔D: 重み, 𝐸𝐿G
, 𝐸𝐿D
: 𝐿G 𝒄, ො𝒄 , 𝐿D,1 ො𝒄 の期待値
合成音声を
自然音声と識別させる
𝐿 𝒄, ො𝒄 = 𝐿G 𝒄, ො𝒄 + 𝜔D
𝐸𝐿G
𝐸𝐿D
𝐿D,1 ො𝒄 → Minimize
⋯
ො𝒄 𝒄
Generated
speech
params.
Natural
speech
params.
- 9. /14
素性関数 𝝓 ⋅ の設計を通じた特徴量の補償
• 音声合成や Anti-spoofing において既知の解析的特徴量
• DNNにより自動設計された特徴量
提案手法における学習手順
• 敵対的学習 [Goodfellow et al., 2014.] と,
• 識別器を含むマルチタスク学習 [Huang et al., 2015.] の組合せ
• DNNに基づく敵対的学習 → 複雑な分布を利用可能
学習は全て backpropagation で完結
• LSTMなどの任意のDNNアーキテクチャを利用可能
8
提案手法の特徴
- 11. /14
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分
コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など)
前処理 Trajectory smoothing [Takamichi et al., 2015.]
予測パラメータ
メルケプストラム
(𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear)
Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid)
10
- 12. /14
提案手法の初期化・学習および客観評価
11
初期化
• 音響モデル: MGE学習
• Anti-spoofing: 自然音声とMGE学習後の合成音声を識別
学習 (𝜔D = 0.5 とする)
• 音響モデル: Anti-spoofing に敵対する学習
• Anti-spoofing: 自然音声と当該学習時点での合成音声を識別
客観評価指標
• パラメータの生成誤差
• Anti-spoofing における詐称率
• 詐称率: 合成音声を自然音声と誤識別した割合
• この際に用いる Anti-spoofing はMGE学習後の合成音声を用いて構築