微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討

STFT loss
Differentiable
speech synthesizer
based on DSP
Speech parameters
analyzed by WORLD
Feature loss
Real
or
Fake
Mel-spectrogram
of natural speech
F0
Spectral env.
Aperiodicity
F0
Spectral env.
Aperiodicity Spectrogram
Spectral env.
estimator
F0
estimator
Aperiodicity
estimator
Discriminator
Synthesized
speech
Spectrogram
of natural speech
Adversarial training
微分可能な信号処理に基づく⾳声合成器を⽤いた DNN ⾳声パラメータ推定の検討
☆松永裕太 (LINE株式会社, 東⼤), 寺島涼, 橘健太郎 (LINE株式会社)
1. 本発表の概要
背景: ⾳声パラメータ推定
• ⾳声パラメータの推定精度は，⾳声合成や⾳声変換モデルによる
合成⾳声の品質に強く影響
• ⾃然⾳声からの⾳声パラメータ推定の精度向上に限界あり
• ⾳声パラメータ推定法:
• 信号処理: WORLD [1]
• Deep neural network (DNN): DEEPF0 [2], CREPE [3]
F0
スペクトル包絡
⾮周期性指標
従来の DNN ⾳声パラメータ推定法の課題
• ⾃然⾳声の真の F0 のデータ取得は困難
• 先⾏研究1: 信号処理による推定 F0 を使⽤ [2]
• 先⾏研究2: ⽤意した F0 から合成した⾳声を使⽤ [3]
• 推定パラメータであるため，再合成⾳声の品質が⾃然⾳声より劣化
本研究の貢献
• ⾳声パラメータを推定する DNN の学習法を提案
• 微分可能な⾳声合成器を導⼊
• 再合成⾳声を⾃然⾳声に近づけるように DNN を学習
2. 提案⼿法
⾳声パラメータ推定モデル
• ⾃然⾳声のメルスペクトログラムから⾳声パラメータを推定
• ⾳声パラメータ: F0, スペクトル包絡, ⾮周期性指標
• 各⾳声パラメータごとに推定モデルを構築
学習
• Feature loss: 推定パラメータと WORLD 分析パラメータの誤差
• STFT loss: 合成⾳声と⾃然⾳声のスペクトログラムの誤差
• Adversarial training: ⽣成⾳声と⾃然⾳声のスペクトログラムを識別
微分可能な⾳声合成器
• 推定モデル (DNN) により推定された⾳声パラメータから⾳声波形を合成
• WORLD の合成処理に基づく最⼩位相合成
• 微分可能: ⾃動微分が定義された PyTorch の関数を使⽤
WORLD 合成処理との主な違い
• パルスごとではなく、フレームごとに波形を⽣成
• ⽣成した波形全体に対する直流成分除去
STFT loss
Differentiable
speech synthesizer
based on DSP
Speech parameters
analyzed by WORLD
Feature loss
Real
or
Fake
Mel-spectrogram
of natural speech
F0
Spectral env.
Aperiodicity
F0
Spectral env.
Aperiodicity Spectrogram
Spectral env.
estimator
F0
estimator
Aperiodicity
estimator
Discriminator
Synthesized
speech
Spectrogram
of natural speech
Adversarial training
3. 実験的評価
データ
データセット JVS [4] のうち 50 話者
発話数 (学習, 検証, テスト) 5000, 50, 50
サンプリング周波数, 量⼦化ビット数 24 kHz, 16 bit
モデル推定モデル, 識別器 Scyclone [5] の⽣成器, 識別器
学習
Feature loss L1 loss, 0 ステップから適⽤
STFT loss 単⼀解像度, 100k ステップから適⽤
Adversarial loss hinge loss を使⽤, 200k ステップから適⽤
最適化,学習ステップ数 Adam (学習率 1e-4), 500k ステップ
実験条件
客観評価結果
• 評価指標
主観評価結果
• 評価: 再合成⾳声の品質に関する AB テスト
• 評価数: 50 サンプル/名, 評価者数: 9 名
• 結果: Prop.(GAN) > Prop.(STFT) > Base.(WORLD)
• feature loss と STFT loss を⽤いた提案法により品質が改善
• さらに敵対的学習の導⼊により改善
Method MCD PESQ FDSD F0 RMSE (Hz)
Base.(WORLD) 5.273 2.819 0.595 59.47
Prop.(STFT) 5.113 3.263 0.452 61.36
Prop.(GAN) 5.480 3.171 0.548 59.20
Method A Method B A B Neutral p-value
Base.(WORLD) Prop.(STFT) 0.220 0.330 0.450 4.50×10-4
Base.(WORLD) Prop.(GAN) 0.050 0.490 0.460 <10-10
Prop.(STFT) Prop.(GAN) 0.090 0.400 0.510 <10-10
特徴量 (F0) の頑健性の評価
• 評価: 推定パラメータに F0 変換を⾏い合成した⾳声の評価
• 結果: Prop.(GAN) は Base.(WORLD) と同程度か⾼い頑健性
MCD [6] Mel-Cepstral Distortion
PESQ [7] Perceptual Evaluation of Speech Quality
FDSD [8] Frechet Deep Speech Distance
F0 RMSE (Hz) ⾃然⾳声・再合成⾳声の推定 F0 の RMSE
Base.(WORLD) WORLD による分析合成⾳声
Prop.(STFT) Feature loss, STFT loss を⽤いた提案法による分析合成⾳声
Prop.(GAN) 上記に敵対的学習を導⼊した提案法による分析合成⾳声
4. まとめと今後の⽅針
• 再合成⾳声が⾼品質となる⾳声パラメータ推定 DNN の学習法を提案
• 提案法により主観的品質が改善し，敵対的学習によりさらに改善
• 今後は，学習データにない話者やノイズを含むデータでの評価を実施
※参考⽂献
[1] M. Morise, et al., IEICE Trans Inf Syst, 2016.
[2] S. Singh, et al., in Proc. ICASSP, 2021.
[3] J. W. Kim, et al., in Proc. ICASSP, 2018.
[4] S. Takamichi, et al., arXiv, 2019.
[5] M. Tanaka, et al., arXiv, 2020.
[6] R. Kubichek, in Proc. PACRIM, 1993.
[7] A. W. Rix, et al., in Proc. ICASSP, 2001.
[8] M. Binkowski, et al., arXiv, 2019.
• 結果: Prop.(STFT) で，MCD, FDSD が最も低く PESQ が最も⾼い値
• Prop.(STFT) の客観的品質が最も⾼い
• F0 再現度については Prop.(GAN) が最も⾼い
Method F0 RMSE (F0 ×0.75) F0 RMSE (F0 ×1.5)
Base.(WORLD) 48.39 143.4
Prop.(GAN) 47.95 143.2
3-Q-25
微分可能な⾳声分析合成システム
⽐較対象

微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討