Enviar pesquisa
Carregar
saito2017asj_vc
•
2 gostaram
•
699 visualizações
Y
Yuki Saito
Seguir
ASJ 2017 Voice Conversion
Leia menos
Leia mais
Ciências
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 13
Baixar agora
Baixar para ler offline
Recomendados
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Recomendados
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
saito2017asj_tts
saito2017asj_tts
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
Saito19asj_s
Saito19asj_s
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
miyoshi2017asj
miyoshi2017asj
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
音声認識の基礎
音声認識の基礎
Akinori Ito
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Slp201702
Slp201702
Yuki Saito
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
Mais conteúdo relacionado
Mais procurados
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
Saito19asj_s
Saito19asj_s
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
miyoshi2017asj
miyoshi2017asj
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
音声認識の基礎
音声認識の基礎
Akinori Ito
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Mais procurados
(20)
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Saito19asj_s
Saito19asj_s
Saito20asj_autumn
Saito20asj_autumn
miyoshi17sp07
miyoshi17sp07
Saito18sp03
Saito18sp03
音情報処理における特徴表現
音情報処理における特徴表現
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP読み会2020
ICASSP読み会2020
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
miyoshi2017asj
miyoshi2017asj
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
音声認識の基礎
音声認識の基礎
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Semelhante a saito2017asj_vc
Slp201702
Slp201702
Yuki Saito
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
Semelhante a saito2017asj_vc
(7)
Slp201702
Slp201702
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Interspeech2022 参加報告
Interspeech2022 参加報告
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Mais de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
Saito2017icassp
Saito2017icassp
Yuki Saito
Mais de Yuki Saito
(15)
hirai23slp03.pdf
hirai23slp03.pdf
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
Saito20asj s slide_published
Saito20asj s slide_published
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Une18apsipa
Une18apsipa
Saito18asj_s
Saito18asj_s
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Saito2017icassp
Saito2017icassp
saito2017asj_vc
1.
©Yuki Saito, 2017/03/15 Highway
network を用いた 差分スペクトル法に基づく敵対的DNN音声変換 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 1-6-14
2.
/12 ➢ 問題点: 統計的パラメトリック音声変換の音質劣化 •
生成される音声特徴量系列の過剰な平滑化が一因 ➢ 改善案: – (1) 入力音声特徴量の直接的な利用 • 入出力のドメインが同じ → 入力音声特徴量の自然性を利用可能 – (2) Anti-spoofing に敵対する音響モデル学習 自然 / 合成音声特徴量の分布の違いを補償 テキスト音声合成において有効性を確認 ➢ 本発表: – (1) Input-to-output highway net を用いた差分スペクトル推定 – (2) 音声変換のための anti-spoofing に敵対する音響モデル学習 ➢ 結果: 提案手法による品質改善効果を確認 1 本発表の概要 [Saito et al., 2017.]
3.
/12 従来の枠組み: 特徴量変換に基づくDNN音声変換 2 𝒙, 𝒚,
ෝ𝒚: { input, output, converted } speech features 𝑿, 𝒀: { input, converted } static-dynamic speech features Delta calculation 𝑾 ⋯ 𝑿 ⋯ ⋯ 𝒀 ML-based parameter gen. ⋯ ⋯ ⋯ ⋯ Acoustic models 𝑮 ⋅ ⋯ ⋯ ⋯ ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize Minimum Generation Error (MGE) 学習 [Wu et al., 2016.] Generation error 𝐿G 𝒚, ෝ𝒚 𝒚1 𝒚 𝑇 𝒚 ⋯ ෝ𝒚 ⋯
4.
/123 従来手法の問題点: 自然音声と異なる特徴量分布 分布の違いを緩和・補償する DNNアーキテクチャと音響モデル学習法を提案 分布が縮小 Natural Feed-Forward w/ MGE 11th
mel-cepstral coefficient 13thmel-cepstral coefficient 分布が縮小
5.
/124 提案手法: 重み付き差分スペクトルを推定する Input-to-Output Highway Net + Anti-spoofing
に敵対する音響モデル学習 (敵対的DNN音声変換)
6.
/125 重み付き差分スペクトルを推定する Input-to-Output Highway Net Spectral differentials estimation Transform gate 𝑻
⋅ 𝑮 ⋅𝒙 ⋯ 𝑮 𝒙 ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ ෝ𝒚 ෝ𝒚1 ෝ𝒚 𝑇 ⋯ 𝒙 ⋯ 𝑻 𝒙 ⋯ ෝ𝒚 = 𝒙 + 𝑻 𝒙 ∘ 𝑮 𝒙 入力特徴量に応じて 推定結果を重み付け (0 ~ 1) 入力特徴量を 直接的に利用 [Srivastava et al., 2015.]
7.
/126 Transform Gate の値の例 (男性話者
→ 男性話者への変換) 入力特徴量に応じた柔軟な特徴量変換を実現! Frame index Indexofmel-cepstral coefficient Indexofmel-filterbank 100 200 300 400 10 20 30 40 50 100 200 300 400 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0
8.
/12 Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声変換) 7 𝜔D: 重み,
𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 Anti-spoofing に 自然音声と識別させる損失 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 入力音声特徴量に基づき 自然音声と合成音声を識別 𝐿G 𝒚, ෝ𝒚 𝒚 Acoustic models & parameter generation ෝ𝒚𝒙 ⋯ 𝒙1 𝒙 𝑇 1: natural 0: generated Anti-spoofing Cross-entropy or 𝑮 ⋅
9.
/12 HW w/ MGE 8 合成音声特徴量の分布 Natural 11th
mel-cepstral coefficient 13thmel-cepstral coefficient 分布の縮小を緩和し, 自然音声との違いも補償! HW w/ ADVFF w/ MGE FF: Feed-Forward, HW: Input-to-output highway net MGE: Minimum Generation Error, ADV: Adversarial training
10.
/129 実験的評価
11.
/12 実験条件 データセット ATR 音素バランス503文
(16 kHz サンプリング) 入出力話者 男性 → 男性 学習 / 評価データ A-I セット 450文 / Jセット 53文 波形生成 差分スペクトル法 [Kobayashi et al., 2014.] 音声パラメータ 60次元のメルケプストラム (0次のメルケプストラムは入力話者のものを利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 118 – 3x512 (ReLU) – 118 (linear) Anti-spoofing Feed-Forward 59 – 3x256 (ReLU) – 1 (sigmoid) 重み 𝜔D 1.0 比較手法 MGE: 提案アーキテクチャ w/ MGE学習 ADV: 提案アーキテクチャ w/ 敵対的DNN音声変換 10
12.
/12 音質・話者性に関する主観評価結果 ➢ プリファレンススコア (評価者数8名) 11 敵対的DNN音声変換による音質・話者性の改善を確認 MGE ADV 0.0
0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 (a) 音質 (b) 話者性 MGE ADV 改善 改善 0.0 0.2 0.4 0.6 1.00.8
13.
/12 まとめ ➢ 目的: 統計的パラメトリック音声変換の品質改善 ➢
提案手法: – (1) Input-to-output highway net による差分スペクトル推定 • 入力特徴量の直接的な利用 & 柔軟な特徴量変換 – (2) 敵対的DNN音声変換 • 自然 / 合成音声特徴量の分布の違いを補償 ➢ 今後の予定: • Input-to-output highway net の話者対への依存性の調査 12
Baixar agora