O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Interspeech2022 参加報告

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
Jacet2014ykondo_final
Jacet2014ykondo_final
Carregando em…3
×

Confira estes a seguir

1 de 52 Anúncio

Mais Conteúdo rRelacionado

Semelhante a Interspeech2022 参加報告 (20)

Mais de Yuki Saito (20)

Anúncio

Mais recentes (20)

Interspeech2022 参加報告

  1. 1. 国際会議 Interspeech2022参加報告 第254回自然言語処理・第144回音声言語情報処理合同研究発表会 佐藤 宏1*, 齋藤 佑樹2* 1日本電信電話株式会社 NTT 人間情報研究所 2東京大学 猿渡・小山研究室
  2. 2. 1 発表者自己紹介  名前 ◼ 佐藤 宏(さとう ひろし)  所属 ◼ 日本電信電話株式会社(NTT)  研究分野 ◼ 音声強調、パラ言語認識  名前 ◼ 齋藤 佑樹(さいとう ゆうき)  所属 ◼ 東京大学 猿渡・小山研究室  研究分野 ◼ 音声合成、声質変換
  3. 3. 2 Interspeech2022  会議の概要 ◼主催: ISCA (International Speech Communication Association) ◼対象分野: 音声を扱う研究全般  今年の開催形態 ◼ハイブリッド (韓国・仁川会場 & オンライン会場)  開催日程 ◼ 2022年9月18日 - 2022年9月22日  採択率 ◼ 52.4 % (1,121 / 2,140)  投稿論文 ◼ オンラインで無償公開(https://www.isca-speech.org/archive/) https://www.interspeech2022.org/general/
  4. 4. 3 カバーする技術分野の全体像 https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より 音声認識 24% 音声合成 15% 話者・ パラ言語 15% 音声分析・ 表現抽出 15% 対話・言語 処理 11% 音声強調・ 符号化 9% その他 (計測・ 聴覚等) 11% +113% 各Topic Areaの投稿数推移
  5. 5. 4 現地 or リモート? https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より  現地参加者は全体の68%, リモート参加が少数派となった ◼ 昨年のInterspeech2021では現地参加は18%
  6. 6. 5 国別の投稿数&採択数 日本 https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より  採録数1位と2位がInterspeech2021年から逆転, 中国が最多に  日本は中国・アメリカに次いで3番目 中国 > アメリカ > 日本 > インド > 韓国 Reject Accept
  7. 7. 6 音声認識・強調・パラ言語(佐藤 宏,NTT)
  8. 8. 7 所感  自身の発表について ◼ オンライン・ポスター形式 ◼ 15分の発表動画を作成 + 2時間オンラインポスター ◼ オンラインはいずれのセッションも人が少なかった  トレンド ◼ 音声の教師なし事前学習(self-supervised learning: SSL)とその活用に関する研究が多数 ◼ ストリーミング (オンライン) 動作を対象としたRNN-Transducer型の音声認識の検討が比較的 多数. 機能を拡張する系の研究は多岐にわたり, 軽量化も盛ん ◼ マルチモーダル, ゼロリソース, 多言語音声認識, 音声翻訳も多数発表されている  本日の内容 ◼ Interspeech2022の発表紹介 » 音声の教師なし事前学習 x2 » 音声認識 » 音声強調 (自身の発表内容) virtual poster
  9. 9. 8 教師なし事前学習 (SSL) とは?  音声の教師なし事前学習とは? ◼ ラベルなし音声データを用いて, 音声から良い潜在表現を得るモデルを構築する技術 ◼ ラベルのあるペアデータが少量でも, 精度よく各タスクの学習を行うことが可能 ◼ Tutorial: https://sites.google.com/view/tutorial-ssl-speech  近年の有力な枠組み ◼ Wav2vec 2.0: [Baevski+ 2020/6] ◼ HuBERT: [Hsu+ 2021/6] ◼ WavLM: [Chen+ 2021/10]  Interspeech2022の関連発表 (抜粋) ◼ SSLモデル自体の改良 » 多言語化・データ大規模化: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale » モデルの小型化: TRILLsson: Distilled Universal Paralinguistic Speech Representations ◼ 各ダウンストリームタスクへの活用 » 音声認識: End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation » 音声強調: Boosting Self-Supervised Embeddings for Speech Enhancement » パラ言語: Improving Speech Emotion Recognition Using Self-Supervised Learning with Domain-Specific Audiovisual Tasks 従来の枠組み 教師なし事前学習の活用 STEP1: pretrain STEP2: finetune ペアデータ ペアデータ 教師なし音声データ 事前学習 モデル 各タスクの モデル 事前学習 モデル 各タスクの モデル Tutorial SSL for Speech Processing
  10. 10. 9 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (1/4)  概要 ◼ 著者: Arun Babu, Changhan Wang, 他 (Meta, Google, Outreach, Hugging Face) ◼ SSLモデルそのものの改良 ◼ 多言語化・データとモデルの大規模化  モチベーション ◼ SSLモデルは, あらゆるタスク/ドメインに対する良い表現を獲得していてほしい » SSLモデルがこれ1個あれば, どんな言語のどんなタスクに適応してもうまく行く, というのが理想 ◼ この研究は特に言語依存性を解決しようとするもの  ポイント ◼ 大規模な多言語データの活用 » 128言語のパブリックデータ ◼ 大規模なモデルの導入 » パラメータ数は2B ◼ 様々なダウンストリームタスクでベンチマーク STEP1: pretrain STEP2: finetune ペアデータ 教師なし音声データ 事前学習 モデル 事前学習 モデル 各タスクの モデル
  11. 11. 10 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (2/4)  事前学習手法はWav2Vec 2.0と同じ ◼ 音声の量子化と音声からの潜在表現を同時に学習する » ① 量子化: 音声の各フレームをグループに分類する (直積量子化) » ② 潜在表現抽出:音声の各フレームからマスクされた部分を補うように潜在表現を抽出する ◼ Contrastive lossで学習 » マスクされたフレームの潜在表現が, 同じフレームの量子化表現に近く, 別のフレームの量子化表現 と遠くなるように学習 Mask CNNベースのEncoder ①量子化 ②潜在表現の抽出 入力はRaw waveform
  12. 12. 11 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (3/4)  大規模多言語データを用いた事前学習 ◼ 436,000 h, 128言語の音声データ (↔ wav2vec 2.0: 53,200 h ほぼ英語) » VoxPopuli: 372kh, 欧州23か国の議会データ » Multilingual Librispeech: 50kh. 主に英語, 欧州言語も含む » Common Voice: 7kh, 60言語 » VoxLingua107: 6.6kh, 107言語, YouTube » BABEL: 1kh, アフリカアジア17か国, 電話対話 >1k時間: 24言語 >100時間: 17言語 ≤100時間: 88言語
  13. 13. 12 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (4/4)  結果 (抜粋) ◼ 音声認識 (BABEL) (↓) 言語 ペアデータ量 SSL ◼ 言語識別 (VoxLingua107) (↓)  ペアデータの限られた条件で大幅な性能向上を実現 → 言語にまたがる共通知識をうまく活用することで, リソースの少ない言語でも高精度  一方, 英語音声認識のようなペアデータの多いタスクでは, 多言語の事前学習が効果的でない場合があるという結果も示されている SSL データのバリエーション が少ない既存研究 as: アッサム語 tl: タガログ語 sw: スワヒリ語 lo: ラオ語 ka: ジョージア語 ※ ※
  14. 14. 13 TRILLsson: Distilled Universal Paralinguistic Speech Representations (1/4)  基本情報 ◼ 著者: Joel Shor (Verily Life Science), Subhashini Venugopalan (Google Research)  モチベーション ◼ 有力なSSLモデルはいずれも巨大。例えばオンデバイス動作への適用が困難 » 例: wav2vec 2.0 (HuggingFace) は1.2 GB ◼ SSLモデルをできるだけ性能を保ったまま小型化したい  ポイント ◼ パラ言語タスクで有力なCAPモデルを, 軽量な他のモデルアーキテクチャに知識蒸留 ◼ 知識蒸留にはpublic dataのみを用いて, モデルを公開  結果 ◼ 15%のモデルサイズで元のモデルの96%の精度 ◼ 1%のモデルサイズで元のモデルの90%の精度
  15. 15. 14 TRILLsson: Distilled Universal Paralinguistic Speech Representations (2/4)  知識蒸留 (knowledge distilation) ◼ 性能をできるだけ損なわずにモデルを小型化する手法 » 教師モデル (大型) の出力に, 生徒モデル (小型) の出力が近づくように学習 ◼ 58 khのpublic dataで知識蒸留  教師モデル: CAP (Conformer applied to Paralinguistics) [J. Shor+, ICASSP 2022] ◼ Wav2vec2.0の損失で学習, Conformerベースのモデル構造, 入力はFbank特徴量 ◼ 960 khのYoutube等の音声データを用いて構築  生徒モデル: 3つのアーキテクチャ・異なる5サイズ ◼ Audio Spectrogram Transformer (AST) [Y. Gong+, Interspeech 2021] » 音声のスペクトログラムを画像として扱う, Transformerベースのモデル ◼ EfficientNetv2 [M. Tan+, 2021] » 画像処理分野で用いられる高速・軽量なモデル ◼ Resnetish [S, Hershey+, 2017] » ResNet-50 をベースとしたモデル
  16. 16. 15 TRILLsson: Distilled Universal Paralinguistic Speech Representations (3/4)  各手法のモデルサイズと性能 ◼ 15%のモデルサイズで元のモデルの96%の精度 ◼ 1%のモデルサイズで元のモデルの90%の精度 14.2 % 10.2 % 4.5 % 1.9 % 1.0 % 圧縮率 提案法 生徒モデル 教師モデル 従来の SSLモデル ※評価指標: NOSS (non-semantic speech) benchmark ・Voxceleb1: 話者識別 (1251クラス) ・Voxforge: 言語識別 (6クラス) ・Speech Commands: コマンド識別 (12クラス) ・ASVSpoof: 合成 or not (2クラス) ・Euphonia-QC: 音声の了解度 (5クラス) ・CREMA-D: 感情識別 (6クラス) ・IEMOCAP: 感情識別 (4クラス)
  17. 17. 16 TRILLsson: Distilled Universal Paralinguistic Speech Representations (4/4)  精度とモデルサイズのトレードオフ ◼ 従来法 (点) と比較して, 提案法 (線) は同じモデルサイズで高い性能が得られている 7タスクのスコアを 統合した評価尺度 teacher
  18. 18. 17 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (1/5)  基本情報 ◼ 著者: Xuankai Chang, et al (CMU, Yahoo Japan)  タスク ◼ ノイズロバスト音声認識  ポイント ◼ 頑健性を高めるためにend2end音声認識とSSL、音声強調の組み合わせを検討  結果 ◼ CHiME-4 データセット (single channel) でSoTA
  19. 19. 18 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (2/5)  データセット (CHiME4) ◼ 雑音環境下で収録したWSJ0コーパスの読み上げ音声 ◼ タブレット型の端末で収録  関連研究 ◼ 雑音に対する頑健性を向上する方式は大きく2つ 1. 雑音を重畳した音声で音声認識モデルを学習する (データ拡張) 2. 音声認識のフロントエンドとして音声強調を導入する » 音声強調による処理歪みが認識に悪影響を与えるため, 1chではデータ拡張の方が有効とされてきた ◼ SSLを用いた音声認識 » Wav2vec 2.0, HuBERTの公開モデルは低雑音のデータで学習されており, 雑音下音声に対する頑健性が不十分 » 一方教師なし事前学習モデルの再学習は計算リソースのコストが高い https://spandh.dcs.shef.ac.uk/chime_chall enge/chime2015/data.html
  20. 20. 19 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (3/5)  提案法 IRIS: 音声強調, SSLモデル, 音声認識のパイプライン  各モジュールのモデル ◼ 音声強調: Conv-TasNet ◼ SSL: WavLM » 雑音を含む音声でも学習されているため, 配布されているモデルの時点で雑音に頑健 ◼ 音声認識: Joint CTC / attention-based encoder-decoder framework  学習方法 ◼ STEP1: SE, SSLを個別に学習, SSLモデルの出力を用いたASRを学習 ◼ STEP2: SSLモジュールのパラメータは固定して, 他のモジュールをjointで学習 » 損失は音声認識と音声強調のマルチタスク損失
  21. 21. 20 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (4/5) System Model Dev Real WER [%] (↓) Test Real WER [%] (↓) Yang et al. (Previous SoTA) Hybrid 3.35 6.25 Wav2Vec-Switch E2E 3.5 6.6 IRIS (提案法) E2E 2.03 3.92  CHiME4データでSoTAを更新
  22. 22. 21 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (5/5) SE SSL/ Feature Finetune SE Finetune ASR Dev Real WER [%] (↓) Test Real WER [%] (↓) ✘ HuBERT - - 9.13 20.41 ✘ WavLM - - 4.03 4.47 ✓ WavLM ✘ ✘ 4.37 12.11 ✓ WavLM ✓ ✘ 2.27 4.90 ✓ WavLM ✓ ✓ 2.03 3.92  WavLMの雑音頑健性の高さにより, HuBERTに対して大幅に性能改善  音声強調 (SE) の導入により, さらに性能が改善  ただしモデルのミスマッチを防ぐために, finetuningが必須
  23. 23. 22 Copyright 2022 NTT CORPORATION Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (1/3)  基本情報 ◼ 著者: Hiroshi Sato (私). et al (NTT)  タスク ◼ 目的話者抽出(音声強調)  ポイント ◼ 事前登録発話の選び方によって強調の成否が左右される場合が多数ある ◼ 事前登録発話の選択に対する頑健性を向上させる学習方法を提案  結果 ◼ 抽出の失敗率を相対で35%削減
  24. 24. 23 Copyright 2022 NTT CORPORATION  タスク: 目的話者抽出 (音声強調) ◼ 干渉発話, ノイズを含む観測信号から事前登録した目的話者の音声を抽出  課題 ◼ 事前登録発話の選び方によって 抽出の成否が左右される » 平均性能は良くても, “難しい”事前 登録発話に対して著しく性能が劣化 ◼ どんな事前登録発話でもある程度 抽出に成功してほしい Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (2/3)
  25. 25. 24 Copyright 2022 NTT CORPORATION  提案法のポイント ◼ (1) WE-SDR基準学習の提案: » 抽出の最低性能を重視した学習方法を提案 » K個の事前登録発話集合に対する, 抽出の最低性能を損失として採用 ◼ (2) 話者識別補助タスクの導入: » 補助タスクとして話者識別を導入し, 話者境界に近い難しい事前登録発話への頑健性を高める  結果 ◼ K=10発話の事前登録発話候補に対する抽出性能の最悪値を提案法によって改善 ◼ 困難なケースを重視する学習により 平均的な失敗率も相対35%削減 ◼ 2手法の組み合わせが最も高性能 手法 SDRi[dB] (↑) 失敗率 (SDRi<5dB) [%] (↓) (1) (2) 最悪値 最悪値 平均値 13.3 7.7 2.0 ✓ 14.0 4.8 1.4 ✓ 14.1 4.7 1.3 ✓ ✓ 14.2 4.4 1.3 Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (3/3)
  26. 26. 音声合成分野の研究潮流 (齋藤 佑樹, 東京大学)
  27. 27. 26 INTERSPEECH (IS) 2022 ⚫ 音声言語情報処理研究の最高峰国際会議 • 今年の採択率: 1,102/2,140 = 51.5% - c.f.) IS2021の採択率: 963/1,990 = 48.4% - 国ごとの投稿数の上位5件: CN > US > JP > IN > KR ⚫ 開催形態: 現地 (仁川, 韓国) & バーチャルのハイブリッド • オンサイト議論の充実 バーチャル参加者の軽視?
  28. 28. 27 ⚫ IS2021から音声合成系の論文投稿数が大幅増加 分野ごとの投稿数 (Opening Ceremony より引用) https://www.youtube.com/watch?v=OjiX57c5l3E
  29. 29. 28 本日紹介するトピック ⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 • テキスト書き起こしがないデータを活用して音声合成を学習 ⚫ 拡散モデル (diffusion model) に基づく音声合成 • Lengevin 動力学を用いて音声波形の生成過程を定式化 注: 齋藤の個人的な主観・解釈を大いに含みます.
  30. 30. 29 音声合成 (speech synthesis) ⚫ コンピュータで人間の声を合成・変換する技術 ⚫ 近年の主流: DNN を用いた音声合成の統計モデリング • 高品質な合成音声 大量の (text, speech) データが必要 - 音声合成の zero-shot 適応 (少数発話からの合成) では特に深刻 テキスト音声合成 (TTS) Text Speech 音声変換 (VC) Output speech Input speech Hello Hello
  31. 31. 30 One approach: テキスト書き起こしなしデータの活用 ⚫ 音声合成のためのデータセットに要求されること • 高品質 (スタジオ録音程度) & 書き起こしあり → 高コスト ⚫ Core idea: 疑似書き起こしデータを用いた学習 • c.f. 教師なし音声認識 (wav2vec-U) • 同様のアイデアを TTS にも使えないか? A. Baevski et al., Unsupervised Speech Recognition
  32. 32. 31 書き起こしなし大規模音声データを活用した転移学習 ⚫ IS2022 の Best Student Paper Award M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  33. 33. 32 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 1: 音声データのみを用いた事前学習 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  34. 34. 33 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 2: テキストと音声のペアデータで fine-tuning (FT) M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  35. 35. 34 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 3: 推論 or zero-shot TTS 話者情報の 抽出 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  36. 36. 35 書き起こしなし大規模音声データを活用した転移学習 ⚫ 実験1: 単一話者 TTS • データ: LJSpeech (24h) - 事前学習: 23h, FT / 評価: 残りデータ - Proposed 以外は残りデータだけで学習 • 結果: すべてのケースで提案法が最良 - FT データが少なくなるにつれて, 手法間の違いが明確に (データ量がそもそも違うので unfair?) M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  37. 37. 36 書き起こしなし大規模音声データを活用した転移学習 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus ⚫ 実験2: Zero-shot 多話者 TTS • データ - 事前学習: LibriTTS (245h, 1,151話者) - FT / 評価: LJSpeech & VCTK - 評価では, VCTK の未知話者音声を使用 • 結果: 未知話者の音声も高品質に合成 - LJSpeech 30分データのみ の FT で, それなりの品質の zero-shot TTS - 音声だけでも話者を十分にカバーすれば そこそこ汎化性能がある TTS が可能
  38. 38. 37 類似アイデアを用いた研究 A. H. Liu et al., Simple & Effective Unsupervised Speech Synthesis J. Ni et al., Unsupervised TTS Synthesis by Unsupervised ASR H. Siuzdak et al., WavThuVec C. Du et al., VQTTS
  39. 39. 38 本日紹介するトピック ⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 • テキスト書き起こしがないデータを活用して音声合成を学習 ⚫ 拡散モデル (diffusion model) に基づく音声合成 • Lengevin 動力学を用いて音声波形の生成過程を定式化 注: 齋藤の個人的な主観・解釈を大いに含みます.
  40. 40. 39 拡散モデル (diffusion model) ⚫ 雑音 ⇔ データの相互変換を表現する生成モデル • Forward (diffusion) process: データに Gaussian 雑音を付加 - 数式で書くと: • Reverse process: 雑音からデータを復元 - 数式で書くと: - 𝜃: DNN のモデルパラメータ J. Ho et al., Denoising Diffusion Probabilistic Models 𝑡 に対して単調増加 𝛽𝑡 に依存する 対角等分散行列で表現
  41. 41. 40 メディア生成における拡散モデルのアプリケーション ⚫ Prompt からの画像生成: ここ数年で目覚ましい進歩 ⚫ 音声合成: 未だ発展途上? • 波形生成モデル: WaveGrad [N. Chen+21], DiffWave [Z. Kong+21] • TTS/VC モデル: Grad-TTS [V. Popov+21], Diff-VC [V. Popov+22] C. Saharia et al., Imagen R. Rombach et al., Stable Diffusion A. Ramesh et al., DaLL-E2
  42. 42. 41 拡散モデルにおけるコアとなる数式 (導出は省略) ⚫ 時刻 𝒕 での diffusion process: 𝐱𝑡 = ത 𝛼𝑡𝐱0 + 1 − ത 𝛼𝑡𝝐 • クリーンなデータ 𝐱0 から生成可能 ( ത 𝛼𝑡 は 𝛽𝑡 から計算可能) ⚫ 時刻 𝒕 での reverse process: 𝝁𝜃 𝐱𝑡, 𝑡 = 1 ഥ 𝛼𝑡 𝐱𝑡 − 𝛽𝑡 1−ഥ 𝛼𝑡 𝝐 • 雑音 𝝐 がわかれば, 復元のための平均ベクトルを計算可能 ノイジーなデータ 𝐱𝑡 と時刻 𝑡 から 𝝐 を予測する DNN を用意 ⚫ 学習時の損失関数: ℒ = 𝝐 − 𝝐𝜃 𝐱𝑡, 𝑡 1 (注: 大幅な簡略化あり) ⚫ 推論 (サンプリング): 𝐱𝑡−1 = 1 ഥ 𝛼𝑡 𝐱𝑡 − 𝛽𝑡 1−ഥ 𝛼𝑡 𝝐𝜃 𝐱𝑡, 𝑡 + 𝜎𝑡𝒛 • 𝜎𝑡 は 𝛽𝑡 から計算可能, 𝒛 ∼ 𝒩(𝟎, 𝑰) 𝝐𝜽 𝐱𝑡, 𝑡
  43. 43. 42 {Wave, Prior, Spec}Grad: 拡散モデルによる波形生成 ⚫ 共通アイデア: reverse process を音響特徴量で条件付け • 音響特徴量 = 対数メルスペクトログラム (log-mel sp) ⚫ 手法間の違い: 雑音の事前分布をどう定義するか Y. Koizumi et al., SpecGrad • 雑音のスペクトル包絡を log-mel sp から制御 • Gaussian 雑音への フィルタリング & 推定雑音への 逆フィルタリング - 実装上は (I)STFT で計算
  44. 44. 43 SpecGrad: 実験と結果 ⚫ データ • 学習: 21名 (男性10, 女性11), En, 184h, 24kHz sampled • 評価:↑から holdout した1,000サンプル ⚫ 結果: {Wave, Prior}Grad よりも高品質な音声を合成 • 推論時の反復回数が6でも それなりの合成音声品質 • 高域での位相歪み軽減に 起因? • 音声強調実験でも有効 Y. Koizumi et al., SpecGrad
  45. 45. 44 連続時間表現における拡散モデル ⚫ Diffusion/Reverse process を連続時間に拡張 • 確率微分方程式 (SDE) で定式化 → 任意のソルバで計算可能 • スコア関数 𝛁𝐱 log 𝑝𝑡 𝐱 は未知なので, DNN で近似 - 雑音 𝝐 の推定 ≃ 対数尤度関数の勾配の推定 Y. Song et al., Score-Based Generative Modeling through Stochastic Differential Equations
  46. 46. 45 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 定式化 (導出等の詳細は省略) • Forward SDE: 𝑑𝐱𝑡 = 1 2 𝛽𝑡 𝝁 − 𝐱𝑡 𝑑𝑡 + 𝛽𝑡𝑑𝐰𝑡 • Reverse SDE: 𝑑𝐱𝑡 = 1 2 𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech 学習の対象
  47. 47. 46 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 各モジュールの役割 • Encoder: テキストから雑音事前分布の平均 𝝁 を予測 - Duration Predictor (DP) の予測をもとにテキスト-音声を alignment - Alignment の尤度に基づく損失関数を定義して学習 • Aligner: Encoder 出力を DP の予測結果分だけ複製 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
  48. 48. 47 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 各モジュールの役割 • Decoder: 平均 𝝁, 時刻 𝑡, データ 𝐱𝑡 からスコア関数を推定 - 𝐱𝑡 = 𝐱0𝑒− 1 2 ‫׬‬0 𝑡 𝛽𝑠𝑑𝑠 + 𝝁 1 − 𝑒− 1 2 ‫׬‬ 0 𝑡 𝛽𝑠𝑑𝑠 + 𝜆𝑡𝝃 (𝜆𝑡 は 𝛽𝑠 から計算可能) - Score Matching loss: ℒsm = ‫׬‬ 0 1 𝔼𝐱0,𝝃 𝜆𝑡𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 + 𝝃 2 2 𝑑𝑡 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Gaussian 雑音
  49. 49. 48 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 推論: Reverse SDE を ODE にして solver で解く • ODE: 𝑑𝐱𝑡 = 1 2 𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡 ⚫ Limitations • Euler-丸山ソルバ → 低速, 単一話者 TTS のみでの評価 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech omitted
  50. 50. 49 Grad-TTS の改良版・亜種に関する研究 (1/2) ⚫ Fast Grad-TTS [V. Popov+22] • 推論時のサンプリングが遅い問題を 解決するアプローチをいくつか提案 - 最尤 SDE ソルバ, 漸進的モデル蒸留, 敵対学習に基づく中間状態分布整合 ⚫ TTS と VC の joint modeling [T. Sadekova+22] • Text/mel から平均声の雑音事前分布を予測し, 話者情報を考慮して復元 • VC を学習してから TTS 向けに適応 話者情報の抽出
  51. 51. 50 Grad-TTS の改良版・亜種に関する研究 (2/2) ⚫ EdiTTS [J. Tae+22] • ピッチシフト & 音声発話内容の修正が可能な Grad-TTS • 基本的に, - 編集しない領域のマスキング - 領域を分割し, 領域ごとの勾配を soft weighting して加算
  52. 52. 51 まとめ ⚫ 本発表 • IS2022 における音声合成研究のホットトピックを紹介 - 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 - 拡散モデル (diffusion model) に基づく音声合成 ⚫ その他, アクティブな (気がする) 研究分野 • 合成音声の表現力向上, 低品質データを用いた学習, TTS/VC モデルの制御性向上・軽量化, コーパス構築・整備

×