O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

ICASSP読み会2020

https://connpass.com/event/176798/

  • Seja o primeiro a comentar

ICASSP読み会2020

  1. 1. ©Yuki Saito, June 19, 2020. BOFFIN TTS: Few-show Speaker Adaptation by Bayesian Optimization 東京大学 D3 齋藤 佑樹 ICASSP2020 論文読み会 (オンライン)
  2. 2. /181 自己紹介  齋藤 佑樹 (SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研) – 個人 HP: http://sython.org/  研究分野: 音声合成・声質変換 – + 統計的機械学習理論 • GAN 音声合成 • VAE 声質変換 – + ヒューマン・コンピュテーション • 人間の話者知覚に基づく表現学習 • 人間 GAN (共著) https://twitter.com/DeNAxAI_NEWS/status/1270543762092154880
  3. 3. /182 本日紹介する論文  BOFFIN TTS: Few-shot Speaker Adaptation by Bayesian Optimization – H. Moss (Lancaster Univ., UK), V. Aggarwal, N. Prateek, J. Gonzalez, R. Barra-Chicote (Amazon, Inc., UK)  3行まとめ – DNN ベースの多話者音声合成における話者適応手法 – ベイズ最適化で, 適応時のハイパラ設定をチューニング – 目的話者の少数データ (~ 10 min)で, 高品質な話者適応を実現  選んだ動機 – ニューラル波形生成モデル以外の論文が読みたかった – ベイズ最適化に興味があった
  4. 4. /183 背景  多話者音声合成 (Multi-speaker TTS: MS-TTS) – 多様な話者性の音声を生成できるテキスト音声合成 – 話者共通の特徴 (音韻) と, 話者固有の特徴 (話者性) を学習  話者適応 (speaker adaptation) – 学習済み MS-TTS モデルの finetuning で, 少量のデータしかない目的話者の音声を生成する技術 – 音韻は学習済みであると仮定し, 話者性だけを適応 Speaker encoder Text encoder 話者 ID テキスト 1 0 話者埋め込み テキスト埋め込み Decoder 合成音声 Text encoder Decoder 学習 適応
  5. 5. /184 研究概要  話者適応の難しさ: ハイパラ設定に性能が大きく依存 – Finetuning の学習率, バッチサイズ, 正則化重み, etc... – 目的話者のデータ量・品質に依存して適切に調整する必要あり  提案法: BOFFIN TTS – Bayesian Optimization For FInetuning Neural Text To Speech – 話者適応のハイパラ探索をベイズ最適化で定式化 – ベイズ最適化の有効性は, TTS では未検討 (未だに grid search 等が主流らしい?)  結果 – 種々の実験条件 (学習データの量や質) において, random search を上回る性能を達成 Boffin: イギリス英語で「科学者, 狭い専門的な分野の技術者」を意味するスラング
  6. 6. /185 Base model *74話者, 17言語, 149134発話で学習 (https://bshall.github.io/UniversalVocoding/)  Tacotron2 [Shen+, 2018] ベースの MS-TTS モデル – Attention モジュールを話者埋め込みで条件付け – 波形生成: robust universal neural vocoding* [Lorenzo-Trueba+, 2019]
  7. 7. /186 BOFFIN TTS: 目的とタスク設定  目的: 高品質な話者適応 & 適応における overfitting の防止 – これらを両立するようなハイパラ設定を見つけたい  本研究で対象とするハイパラ設定 – DNN の学習ダイナミクスに関するもの (7つ) • 学習率, バッチサイズ, 学習率のスケジューリング, gradient- clipping の閾値, dropout rate, zoneout rate (2つ) – Overfitting の防止に関するもの (2つ, 本研究で新たに導入) • リハーサル学習 [Robins+, 1995] のパラメータ  適応前の事前学習に用いたデータを一定の割合で混ぜる • 適応を開始する事前学習エポック数  収束する前のベースモデルのほうが良い可能性がある (?) 高次元のハイパラ探索は困難 → ベイズ最適化を導入
  8. 8. /187 (参考) ベイズ最適化のざっくりとしたイメージ  ベイズ最適化: 高コストな black-box 関数の効率的な最適化 – これまでに得られた情報から, どの点を探索すべきかを決定 – 機械学習におけるハイパラ設定の探索などに適用可能 図は https://book.mynavi.jp/manatee/detail/id=59393 より引用 グリッドサーチ ベイズ最適化
  9. 9. /188 BOFFIN TTS のハイパラ探索  Notation – 𝒟𝑡 = 𝐱 𝑖, 𝑦𝑖 𝑖=1,…,𝑡 : ステップ 𝑡 までに得られた解-評価値の対 • 𝐱 𝑖 ∈ 𝒳 : 探索空間 𝒳 の解 (ハイパラ設定) • 𝑦𝑖 = 𝑦(𝐱 𝑖) : 解 𝐱 𝑖 の評価値 (目的話者の mel-spec. 生成誤差) – 𝑦𝑡 ′ = min 𝑖=1,…,𝑡 𝑦𝑖 : ステップ 𝑡 における最良の評価値  獲得関数 (acquisition function) – 本研究では, Expected Improvement (EI) 戦略を採用 – 目的関数 𝑦 𝐱 がガウス過程に従うと仮定すれば, 期待値 𝔼 𝑦 𝐱 |𝒟 𝑡 ⋅ は解析的に計算可能 𝐱 𝑡+1 = arg max 𝔼 𝑦 𝐱 |𝒟 𝑡 max 𝑦𝑡 ′ − 𝑦 𝐱 , 0 |𝒟𝑡 𝐱 ∈ 𝒳 実験では, Python Emukit ライブラリ (https://github.com/amzn/emukit) を使用
  10. 10. /189 実験条件  データ量・品質の異なる3つのコーパスで実験  話者適応の目的話者: 各コーパスから4名ランダムに抽出 – 1話者につき100発話をランダム抽出し, そのうちの20%を validation set として使用 (ベイズ最適化の獲得関数計算用)  評価指標 – (1) 目的話者に適したハイパラ設定を探索できたか? – (2) 高品質な話者適応は実現できたか? VCTK: [Veaux+, 2017], LibriTTS: [Zen+, 2019] コーパス 学習話者数 発話数/1話者 録音品質など INTERNAL 8 2500 スタジオ録音 VCTK 14 (+ 8 INTERNAL) 400 ばらつき大 LibriTTS 200 200 オーディオブック
  11. 11. /1810 結果1: 話者適応の validation loss (mel-spec. の L1 loss)  比較手法 – (1) Base-line: 適応前のベースモデル – (2) Random Search: ランダムサーチ – (3) BOFFIN: 提案法 (10個の異なるハイパラ設定で初期化) エラーバーは異なる5つの random seed での試行の standard error 良 提案法により, 各目的話者に適したハイパラが設定可能に!
  12. 12. /1811 結果2: 提案法により実際に得られたハイパラ設定 (特に分散が大きかった6つ, 図中の1点 = 1話者) 最適なハイパラ設定は, コーパス・話者の違いによって異なる
  13. 13. /1812 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08
  14. 14. /1813 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08 提案法により, ベースモデルと同程度に自然な音声を生成!
  15. 15. /1814 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08 合成音声の自然性が大幅に劣化 → ベースモデル学習の困難性?
  16. 16. /1815 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (INTERNAL コーパスを用いた実験) 提案法により, ランダムサーチよりも高品質な話者適応を達成! 良
  17. 17. /1816 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (VCTK コーパスを用いた実験) 良 提案法により, ランダムサーチよりも高品質な話者適応を達成!
  18. 18. /1817 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (LibriTTS コーパスを用いた実験) 良 全体的に自然性が劣化 → ベースモデルの性能が悪い?
  19. 19. /1818 まとめ  話者適応の難しさ: ハイパラ設定に性能が大きく依存 – Finetuning の学習率, バッチサイズ, 正則化重み, etc... – 目的話者のデータ量・品質に依存して適切に調整する必要あり  提案法: BOFFIN TTS – Bayesian Optimization For FInetuning Neural Text To Speech – 話者適応のハイパラ探索をベイズ最適化で定式化  結果 – 目的話者の少数データ (~ 10 min)で, 高品質な話者適応を実現  感想 – 他の few-shot adaptation 手法との比較もあると better – 計算コストがヤバそう

×