SlideShare uma empresa Scribd logo
1 de 1
Baixar para ler offline
STFT loss
Differentiable
speech synthesizer
based on DSP
Speech parameters
analyzed by WORLD
Feature loss
Real
or
Fake
Mel-spectrogram
of natural speech
F0
Spectral env.
Aperiodicity
F0
Spectral env.
Aperiodicity Spectrogram
Spectral env.
estimator
F0
estimator
Aperiodicity
estimator
Discriminator
Synthesized
speech
Spectrogram
of natural speech
Adversarial training
微分可能な信号処理に基づく⾳声合成器を⽤いた DNN ⾳声パラメータ推定の検討
☆松永裕太 (LINE株式会社, 東⼤), 寺島涼, 橘健太郎 (LINE株式会社)
1. 本発表の概要
背景: ⾳声パラメータ推定
• ⾳声パラメータの推定精度は,⾳声合成や⾳声変換モデルによる
合成⾳声の品質に強く影響
• ⾃然⾳声からの⾳声パラメータ推定の精度向上に限界あり
• ⾳声パラメータ推定法:
• 信号処理: WORLD [1]
• Deep neural network (DNN): DEEPF0 [2], CREPE [3]
F0
スペクトル包絡
⾮周期性指標
従来の DNN ⾳声パラメータ推定法の課題
• ⾃然⾳声の真の F0 のデータ取得は困難
• 先⾏研究1: 信号処理による推定 F0 を使⽤ [2]
• 先⾏研究2: ⽤意した F0 から合成した⾳声を使⽤ [3]
• 推定パラメータであるため,再合成⾳声の品質が⾃然⾳声より劣化
本研究の貢献
• ⾳声パラメータを推定する DNN の学習法を提案
• 微分可能な⾳声合成器を導⼊
• 再合成⾳声を⾃然⾳声に近づけるように DNN を学習
2. 提案⼿法
⾳声パラメータ推定モデル
• ⾃然⾳声のメルスペクトログラムから⾳声パラメータを推定
• ⾳声パラメータ: F0, スペクトル包絡, ⾮周期性指標
• 各⾳声パラメータごとに推定モデルを構築
学習
• Feature loss: 推定パラメータと WORLD 分析パラメータの誤差
• STFT loss: 合成⾳声と⾃然⾳声のスペクトログラムの誤差
• Adversarial training: ⽣成⾳声と⾃然⾳声のスペクトログラムを識別
微分可能な⾳声合成器
• 推定モデル (DNN) により推定された⾳声パラメータから⾳声波形を合成
• WORLD の合成処理に基づく最⼩位相合成
• 微分可能: ⾃動微分が定義された PyTorch の関数を使⽤
WORLD 合成処理との主な違い
• パルスごとではなく、フレームごとに波形を⽣成
• ⽣成した波形全体に対する直流成分除去
STFT loss
Differentiable
speech synthesizer
based on DSP
Speech parameters
analyzed by WORLD
Feature loss
Real
or
Fake
Mel-spectrogram
of natural speech
F0
Spectral env.
Aperiodicity
F0
Spectral env.
Aperiodicity Spectrogram
Spectral env.
estimator
F0
estimator
Aperiodicity
estimator
Discriminator
Synthesized
speech
Spectrogram
of natural speech
Adversarial training
3. 実験的評価
データ
データセット JVS [4] のうち 50 話者
発話数 (学習, 検証, テスト) 5000, 50, 50
サンプリング周波数, 量⼦化ビット数 24 kHz, 16 bit
モデル 推定モデル, 識別器 Scyclone [5] の⽣成器, 識別器
学習
Feature loss L1 loss, 0 ステップから適⽤
STFT loss 単⼀解像度, 100k ステップから適⽤
Adversarial loss hinge loss を使⽤, 200k ステップから適⽤
最適化,学習ステップ数 Adam (学習率 1e-4), 500k ステップ
実験条件
客観評価結果
• 評価指標
主観評価結果
• 評価: 再合成⾳声の品質に関する AB テスト
• 評価数: 50 サンプル/名, 評価者数: 9 名
• 結果: Prop.(GAN) > Prop.(STFT) > Base.(WORLD)
• feature loss と STFT loss を⽤いた提案法により品質が改善
• さらに敵対的学習の導⼊により改善
Method MCD PESQ FDSD F0 RMSE (Hz)
Base.(WORLD) 5.273 2.819 0.595 59.47
Prop.(STFT) 5.113 3.263 0.452 61.36
Prop.(GAN) 5.480 3.171 0.548 59.20
Method A Method B A B Neutral p-value
Base.(WORLD) Prop.(STFT) 0.220 0.330 0.450 4.50×10-4
Base.(WORLD) Prop.(GAN) 0.050 0.490 0.460 <10-10
Prop.(STFT) Prop.(GAN) 0.090 0.400 0.510 <10-10
特徴量 (F0) の頑健性の評価
• 評価: 推定パラメータに F0 変換を⾏い合成した⾳声の評価
• 結果: Prop.(GAN) は Base.(WORLD) と同程度か⾼い頑健性
MCD [6] Mel-Cepstral Distortion
PESQ [7] Perceptual Evaluation of Speech Quality
FDSD [8] Frechet Deep Speech Distance
F0 RMSE (Hz) ⾃然⾳声・再合成⾳声の推定 F0 の RMSE
Base.(WORLD) WORLD による分析合成⾳声
Prop.(STFT) Feature loss, STFT loss を⽤いた提案法による分析合成⾳声
Prop.(GAN) 上記に敵対的学習を導⼊した提案法による分析合成⾳声
4. まとめと今後の⽅針
• 再合成⾳声が⾼品質となる⾳声パラメータ推定 DNN の学習法を提案
• 提案法により主観的品質が改善し,敵対的学習によりさらに改善
• 今後は,学習データにない話者やノイズを含むデータでの評価を実施
※参考⽂献
[1] M. Morise, et al., IEICE Trans Inf Syst, 2016.
[2] S. Singh, et al., in Proc. ICASSP, 2021.
[3] J. W. Kim, et al., in Proc. ICASSP, 2018.
[4] S. Takamichi, et al., arXiv, 2019.
[5] M. Tanaka, et al., arXiv, 2020.
[6] R. Kubichek, in Proc. PACRIM, 1993.
[7] A. W. Rix, et al., in Proc. ICASSP, 2001.
[8] M. Binkowski, et al., arXiv, 2019.
• 結果: Prop.(STFT) で,MCD, FDSD が最も低く PESQ が最も⾼い値
• Prop.(STFT) の客観的品質が最も⾼い
• F0 再現度については Prop.(GAN) が最も⾼い
Method F0 RMSE (F0 ×0.75) F0 RMSE (F0 ×1.5)
Base.(WORLD) 48.39 143.4
Prop.(GAN) 47.95 143.2
3-Q-25
微分可能な⾳声分析合成システム
⽐較対象

Mais conteúdo relacionado

Mais procurados

変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Mais procurados (20)

GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 

微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討

  • 1. STFT loss Differentiable speech synthesizer based on DSP Speech parameters analyzed by WORLD Feature loss Real or Fake Mel-spectrogram of natural speech F0 Spectral env. Aperiodicity F0 Spectral env. Aperiodicity Spectrogram Spectral env. estimator F0 estimator Aperiodicity estimator Discriminator Synthesized speech Spectrogram of natural speech Adversarial training 微分可能な信号処理に基づく⾳声合成器を⽤いた DNN ⾳声パラメータ推定の検討 ☆松永裕太 (LINE株式会社, 東⼤), 寺島涼, 橘健太郎 (LINE株式会社) 1. 本発表の概要 背景: ⾳声パラメータ推定 • ⾳声パラメータの推定精度は,⾳声合成や⾳声変換モデルによる 合成⾳声の品質に強く影響 • ⾃然⾳声からの⾳声パラメータ推定の精度向上に限界あり • ⾳声パラメータ推定法: • 信号処理: WORLD [1] • Deep neural network (DNN): DEEPF0 [2], CREPE [3] F0 スペクトル包絡 ⾮周期性指標 従来の DNN ⾳声パラメータ推定法の課題 • ⾃然⾳声の真の F0 のデータ取得は困難 • 先⾏研究1: 信号処理による推定 F0 を使⽤ [2] • 先⾏研究2: ⽤意した F0 から合成した⾳声を使⽤ [3] • 推定パラメータであるため,再合成⾳声の品質が⾃然⾳声より劣化 本研究の貢献 • ⾳声パラメータを推定する DNN の学習法を提案 • 微分可能な⾳声合成器を導⼊ • 再合成⾳声を⾃然⾳声に近づけるように DNN を学習 2. 提案⼿法 ⾳声パラメータ推定モデル • ⾃然⾳声のメルスペクトログラムから⾳声パラメータを推定 • ⾳声パラメータ: F0, スペクトル包絡, ⾮周期性指標 • 各⾳声パラメータごとに推定モデルを構築 学習 • Feature loss: 推定パラメータと WORLD 分析パラメータの誤差 • STFT loss: 合成⾳声と⾃然⾳声のスペクトログラムの誤差 • Adversarial training: ⽣成⾳声と⾃然⾳声のスペクトログラムを識別 微分可能な⾳声合成器 • 推定モデル (DNN) により推定された⾳声パラメータから⾳声波形を合成 • WORLD の合成処理に基づく最⼩位相合成 • 微分可能: ⾃動微分が定義された PyTorch の関数を使⽤ WORLD 合成処理との主な違い • パルスごとではなく、フレームごとに波形を⽣成 • ⽣成した波形全体に対する直流成分除去 STFT loss Differentiable speech synthesizer based on DSP Speech parameters analyzed by WORLD Feature loss Real or Fake Mel-spectrogram of natural speech F0 Spectral env. Aperiodicity F0 Spectral env. Aperiodicity Spectrogram Spectral env. estimator F0 estimator Aperiodicity estimator Discriminator Synthesized speech Spectrogram of natural speech Adversarial training 3. 実験的評価 データ データセット JVS [4] のうち 50 話者 発話数 (学習, 検証, テスト) 5000, 50, 50 サンプリング周波数, 量⼦化ビット数 24 kHz, 16 bit モデル 推定モデル, 識別器 Scyclone [5] の⽣成器, 識別器 学習 Feature loss L1 loss, 0 ステップから適⽤ STFT loss 単⼀解像度, 100k ステップから適⽤ Adversarial loss hinge loss を使⽤, 200k ステップから適⽤ 最適化,学習ステップ数 Adam (学習率 1e-4), 500k ステップ 実験条件 客観評価結果 • 評価指標 主観評価結果 • 評価: 再合成⾳声の品質に関する AB テスト • 評価数: 50 サンプル/名, 評価者数: 9 名 • 結果: Prop.(GAN) > Prop.(STFT) > Base.(WORLD) • feature loss と STFT loss を⽤いた提案法により品質が改善 • さらに敵対的学習の導⼊により改善 Method MCD PESQ FDSD F0 RMSE (Hz) Base.(WORLD) 5.273 2.819 0.595 59.47 Prop.(STFT) 5.113 3.263 0.452 61.36 Prop.(GAN) 5.480 3.171 0.548 59.20 Method A Method B A B Neutral p-value Base.(WORLD) Prop.(STFT) 0.220 0.330 0.450 4.50×10-4 Base.(WORLD) Prop.(GAN) 0.050 0.490 0.460 <10-10 Prop.(STFT) Prop.(GAN) 0.090 0.400 0.510 <10-10 特徴量 (F0) の頑健性の評価 • 評価: 推定パラメータに F0 変換を⾏い合成した⾳声の評価 • 結果: Prop.(GAN) は Base.(WORLD) と同程度か⾼い頑健性 MCD [6] Mel-Cepstral Distortion PESQ [7] Perceptual Evaluation of Speech Quality FDSD [8] Frechet Deep Speech Distance F0 RMSE (Hz) ⾃然⾳声・再合成⾳声の推定 F0 の RMSE Base.(WORLD) WORLD による分析合成⾳声 Prop.(STFT) Feature loss, STFT loss を⽤いた提案法による分析合成⾳声 Prop.(GAN) 上記に敵対的学習を導⼊した提案法による分析合成⾳声 4. まとめと今後の⽅針 • 再合成⾳声が⾼品質となる⾳声パラメータ推定 DNN の学習法を提案 • 提案法により主観的品質が改善し,敵対的学習によりさらに改善 • 今後は,学習データにない話者やノイズを含むデータでの評価を実施 ※参考⽂献 [1] M. Morise, et al., IEICE Trans Inf Syst, 2016. [2] S. Singh, et al., in Proc. ICASSP, 2021. [3] J. W. Kim, et al., in Proc. ICASSP, 2018. [4] S. Takamichi, et al., arXiv, 2019. [5] M. Tanaka, et al., arXiv, 2020. [6] R. Kubichek, in Proc. PACRIM, 1993. [7] A. W. Rix, et al., in Proc. ICASSP, 2001. [8] M. Binkowski, et al., arXiv, 2019. • 結果: Prop.(STFT) で,MCD, FDSD が最も低く PESQ が最も⾼い値 • Prop.(STFT) の客観的品質が最も⾼い • F0 再現度については Prop.(GAN) が最も⾼い Method F0 RMSE (F0 ×0.75) F0 RMSE (F0 ×1.5) Base.(WORLD) 48.39 143.4 Prop.(GAN) 47.95 143.2 3-Q-25 微分可能な⾳声分析合成システム ⽐較対象