[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Di
ff
usion-based Voice Conversion with Fast
Maximum Likelihood Sampling Scheme
発表者: 阿久澤圭 (松尾研D3)

書誌情報
• タイトル：Di
ff
usion-based Voice Conversion with Fast Maximum
Likelihood Sampling Scheme
• 著者：Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima
Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei（所属：
Huawei Noah s Ark Lab）
• 発表：ICLR2022 (oral)
• 概要：深層生成モデルの一種であるDi
ff
usion Modelを音声変換に利用
• 発表理由：Di
ff
usion-based 生成モデルの勉強，VCへの興味

研究背景：音声変換（Voice Conversion, VC）
• Voice conversion (VC): ある発話の言語内容を保ったまま，声質を特定の人物に変換する
• One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない
=> モデルが特定の話者に依存してはいけない
=> 既存研究は入力から話者非依存の特徴量を抽出（VAE，Vector Quantization，PPG）
Model (e.g., DNN)
ソース話者ターゲット話者

論文の概要
• 現状のVCの課題：品質と高速化
• 本研究の提案：
• 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案
• エンコーダー：「平均声」を出力する（新たな話者非依存の特徴量の提案）
• デコーダー：Di
ff
usion Probabilistic Model （DPM）を採用
• 加えて，DPMの推論の高速化のための新しい手法を提案
• VC以外でも利用できる，汎用的な手法
≈

手法の全体像
• 図の見方：実線がVC時のデータフロー，破線が訓練時のデータフロー
• VC時のデータフローは普通のエンコーダー・デコーダーモデルと大体同じ

エンコーダー
• エンコーダーは「平均声」を予測するようにMSEで訓練
• 「平均声」：特定の音素（a, i, u, e, oなど）に対応する音声データをたくさん集めて，それらの
音声データを平均化したもの．平均化しているので話者に非依存
• この枠組の新規性について：
• 従来手法：音素予測タスクや情報ボトルネック等を利用して，話者非依存の特徴量を抽出
• 提案手法：平均声は，音素（ PPG）よりもリッチな情報を持つ表現
≈

デコーダー
• Di
ff
usion Probabilistic Model (DPM) のReverse Processを利用

デコーダーの理解に必要な知識
Song. et. al. 2019
Score-matching with Langevin
dynamics
Score-based 生成モデル
Sohl-Dickstein+2015, Ho+2020
Denoting di
ff
usion probabilistic
modeling
Song. et. al. 2021
Score-based 生成モデルの
連続時間化（ Neural ODE化）
≈
Popov. et. al. 2022
本論文

離散版 Di
ff
usion Probabilistic Model (DPM)
• Forward Process：データからノイズを生成．既知・簡単．
• Reverse Process：ノイズからデータを生成．未知・扱うのが困難
=> DNNで近似する
Ho et al. 2020

連続版のDPM
• Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張
• メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能
• メリット2: パラメータの効率性が良い（論文中に記載はないがNeural ODE一般にメリット）
• しかし，Reverse SDE に登場するスコア関数が未知なので，Reverse SDEの計算はナイーブには困難
=> DNN で近似する（時刻を入力にとる関数であり，Neural ODEとアイデアを共有）
∇log pt(x)
sθ(x(t), t) t
Song et al. 2021

本研究のデコーダー
• 基本的にSong et. al. 2021と同じ
• 特殊な点：PriorがData dependentである
• エンコーダーの出力を，終端分布の平均として採用（普通は標準ガウス分布）
=> ソース音声による条件付き生成を可能に
X̄ p(XT)

サンプリング手法の提案
• 背景：
• VCではリアルタイム性が重視される
• しかしSDEの数値計算に利用される手法（Euler-Maruyama Solver
等）は反復計算を必要とするため，そのIteration数がボトルネック
• 提案手法：Maximum Likelihood SDE solver
• 更新式：
• NOTE: Euler-Maruyama法の一般化（）
• ざっくりとしたメリット：提案手法で得たパスは任意のス
テップ数において尤度を最大化
̂
κt,h = 0, ̂
ωt,h = 0, ̂
σt,h = βth
X = {Xkh}N
k=0
N

実験既存手法との比較
• 提案手法：Di
ff
-VCTK-ML-N（Nは推論時のIterationの数）
• 評価基準：Naturalness（自然さ），Similarity（ターゲット話者っぽく聞こえるか）
• 評価指標：MOS; Mean Opinion Score （人間による1 5点の評価）
• 音声デモあり：https://di
ff
vc-fast-ml-solver.github.io

実験推論手法の比較
• 推論手法：EM（Euler-Maruyama）, PF（Song+2021），ML（提案）
• EMはiteration数6だとほとんど性能が出ない

まとめと発表者感想
• まとめ
• Di
ff
usion-modelを利用したVC手法の提案
• 高速化のための推論手法も同時に提案
• 実験ではかなり高いMOSを達成（3.5以上は自分の知る限りSoTA）
• 発表者感想
• サーベイ中Di
ff
usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた
• エンコーダーとデコーダーの貢献，どちらが大きいのか知りたい
• エンコーダーの出力を音素事後確率（PPG）にしたらどうなる？

References
• Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep
unsupervised learning using nonequilibrium thermodynamics. In International
Conference on Machine Learning, pp. 2256‒2265, 2015.
• Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di
ff
usion probabilistic models.
Advances in Neural Information Processing Systems, 33, 2020.
• Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the
data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒
11907, 2019.
• Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon,
and Ben Poole. Score-Based Generative Modeling through Stochastic Di
ff
erential
Equations. In International Conference on Learning Representations, 2021.

[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a [DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

Semelhante a [DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme (16)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (8)

[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme