SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
サブバンドフィルタリングに基づく
リアルタイム広帯域DNN声質変換の実装と評価
☆佐伯高明,齋藤佑樹,高道慎之介,猿渡洋
(東大院・情報理工)
SLP研究会 2020/02/13
日本音響学会2020年 秋季講演発表会 1-2-11
/16本発表の概要
❑ 背景
▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要
▪ 従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能
▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的
❑ 手法
▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20]
▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20]
▪ リアルタイム・オンライン処理のための実装 & F0変換機構
❑ 評価結果
▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認
▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性
2
/16既存のリアルタイム声質変換の課題
❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19]
▪ 変換された音響特徴量から信号処理に基づくボコーダで波形生成
▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能
▪ 信号処理に基づくボコーダによるアーティファクト
▪ 変換可能な帯域幅が狭く,変換音声が低音質
3
ConversionAnalysis Synthesis
Source feature Converted feature
Narrow-band
source speech
Narrow-band
converted speech
/16本研究でのアプローチ
❑ 差分スペクトル法に基づく声質変換 [Kobayashi18]
▪ ボコーダを用いず,波形領域でのフィルタリングにより変換
▪ 帯域拡張すると品質・計算量面で問題
➢ サブバンドフィルタリングによる解決法を提案 [Saeki20]
4
⊗
Full-band
source speech
Full-band converted
speech
DNN
Convolution
Analysis
𝐶(𝑋)
𝐶(𝐷) 𝑓(𝐷)
Real cepstrum of
source speech
Real cepstrum of
Differential filter
Differential filter in
time domain
/16サブバンドフィルタリングによる広帯域声質変換 [佐伯20]
❑ サブバンド処理により,0-8 kHzのみをモデル化・変換 [佐伯20]
▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上
▪ フィルタをかける波形のサンプル数が減り,計算量を削減
❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20]
5
Pass through
⊗
0-8 kHz
8-24 kHz
DNN
Short-tap
truncated filter
Convolution
0-24 kHz 0-24 kHz
𝑪(𝑿)
𝑪(𝐷) 𝒇(𝑙)
/16リアルタイム・オンライン広帯域声質変換 6
Offline変換 (発話ごとに処理) [佐伯20] Online変換 (フレームごとに処理)
❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定
❑ リアルタイムフルバンド声質変換のためのオンライン実装
Sub-band analysis
Conversion
0 -8 kHz 8 -2 4 kHz
Pass throug h
Sub-band synthesis
Sub-band analysis
Pass throug hConversion
0 -8 kHz 8 -2 4 kHz
Sub-band synthesis
/16提案するシステムの主要部 7
❑ 分析部: 変換元話者の音声をサブバンド処理し,低域から特徴量抽出
❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定
❑ 合成部: 変換先話者の音声波形を得る
� ( ) � ( )
0 -8 kHz
8 -2 4 kHz
Processing each fram e within 5 m s
DNN
Pass throug h
⊗
� ( )
Filtering
wind ow
shift
/16その他の部分 8
❑ F0変換: 入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト
❑ 特徴量分析時にプリエンファシスを適用
� ( )
� ( )
0 -8 kHz
8 -2 4 kHz
Processing each fram e within 5 m s
DNN
Pass throug h
⊗
� ( )
Filtering
window
shift
F0 transform ation.
Pre-em p hasis De-em p hasis
実験的評価
/16評価の概要 10
Evaluation cases male-to-male (m2m), female-to-female (f2f)
female-to-male (f2m), male-to-female (m2f)
Dataset f2f: JSUTcorpus [Sonobe17]
Voice Actress corpus [y_benjo17]
m2m, f2m, m2f: JVS corpus [Takamichi19]
Train / Valid / Test 80 sentences / 10 sentences / 10 sentences
DFT length Proposed: 512 samples
Benchmark: 2048 samples
DNN architecture Multi layer perceptron with 2 hidden layers
CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz
❑ Proposed methodとBenchmarkを比較
▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用
❑ 評価内容
▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測
▪ 変換音声品質: 主観評価実験
/16計算量の評価 11
❑ FLOPS: 1秒間に浮動小数点演算が何回行えるかという指標
❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算
❑ 理論上はモバイル端末でもリアルタイム変換が可能
➢ Iphone6 single CPU: 2.8 GFLOPS (理論値)
➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値)
Analysis Conversion Synthesis Other Total
Benchmark 0.21 3.04 16.80 0.30 20.4
Proposed 0.74 0.37 1.05 0.30 2.5
単位はGFLOPS
350 % 12 % 6% 12 %
/16処理時間の計測 12
1CPUでRTF < 1 を達成し,リアルタイム動作を確認
❑ RTFによる評価
▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算
▪ 全フレームでのRTFの平均値を算出
Analysis Conversion Synthesis Other Total
Benchmark 0.02 0.33 2.82 0.06 3.23
Proposed 0.16 0.14 0.22 0.06 0.58
800 % 42 % 8% 18 %
/16オンライン・オフラインの品質比較 13
Online Score Offline [佐伯20]
m2m 0.493 0.507 m2m
f2f 0.487 0.513 f2f
Online Score Offline [佐伯20]
m2m 0.483 0.517 m2m
f2f 0.510 0.490 f2f
Speaker similarity
Speech quality
❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較
▪ 各ケース30人の評価者
• 話者性についてのXABテスト,音質についてのABテスト
オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
/16変換音声品質の絶対評価 14
❑ 自然性をmean opinion score (MOS) により評価
▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価
提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度
Error bar: 95 % confidence interval
/16デモ 15
Source Target
Narrow
band
Benchmark Proposed
Intra-gender
(f2f)
Cross-gender
(m2f)
/16まとめ 16
❑ 研究目的
▪ 高音質なリアルタイム広帯域DNN声質変換の実現
❑ 手法
▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20]
▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20]
▪ リアルタイム・オンライン処理のための実装 & F0変換機構
❑ 評価結果
▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能
▪ RTF計測の結果,1CPUでのリアルタイム動作を確認
▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能
▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性
❑ 今後の課題
▪ 実環境での頑健性の検討
▪ さらなる変換音声品質の改善

Mais conteúdo relacionado

Mais procurados

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

Mais procurados (20)

深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
 
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 

Semelhante a サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価

多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発
Takashi Kishida
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
TaikiNakamura
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
Takashi Kishida
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 

Semelhante a サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 (13)

高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
多目的な音声伝送システム MRATの開発
多目的な音声伝送システムMRATの開発多目的な音声伝送システムMRATの開発
多目的な音声伝送システム MRATの開発
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
MPSoCのPLの性能について
MPSoCのPLの性能についてMPSoCのPLの性能について
MPSoCのPLの性能について
 
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
 
M1 gpプレゼン
M1 gpプレゼンM1 gpプレゼン
M1 gpプレゼン
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
Agreement for rnn
Agreement for rnnAgreement for rnn
Agreement for rnn
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
 
A convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translationA convolutional encoder model for neural machine translation
A convolutional encoder model for neural machine translation
 
NSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow LoggingNSG フローログを支える技術 - NVF Advanced Flow Logging
NSG フローログを支える技術 - NVF Advanced Flow Logging
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 

Mais de Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 

Mais de Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 

Último

Último (11)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価

  • 2. /16本発表の概要 ❑ 背景 ▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要 ▪ 従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能 ▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認 ▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性 2
  • 3. /16既存のリアルタイム声質変換の課題 ❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19] ▪ 変換された音響特徴量から信号処理に基づくボコーダで波形生成 ▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能 ▪ 信号処理に基づくボコーダによるアーティファクト ▪ 変換可能な帯域幅が狭く,変換音声が低音質 3 ConversionAnalysis Synthesis Source feature Converted feature Narrow-band source speech Narrow-band converted speech
  • 4. /16本研究でのアプローチ ❑ 差分スペクトル法に基づく声質変換 [Kobayashi18] ▪ ボコーダを用いず,波形領域でのフィルタリングにより変換 ▪ 帯域拡張すると品質・計算量面で問題 ➢ サブバンドフィルタリングによる解決法を提案 [Saeki20] 4 ⊗ Full-band source speech Full-band converted speech DNN Convolution Analysis 𝐶(𝑋) 𝐶(𝐷) 𝑓(𝐷) Real cepstrum of source speech Real cepstrum of Differential filter Differential filter in time domain
  • 5. /16サブバンドフィルタリングによる広帯域声質変換 [佐伯20] ❑ サブバンド処理により,0-8 kHzのみをモデル化・変換 [佐伯20] ▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上 ▪ フィルタをかける波形のサンプル数が減り,計算量を削減 ❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20] 5 Pass through ⊗ 0-8 kHz 8-24 kHz DNN Short-tap truncated filter Convolution 0-24 kHz 0-24 kHz 𝑪(𝑿) 𝑪(𝐷) 𝒇(𝑙)
  • 6. /16リアルタイム・オンライン広帯域声質変換 6 Offline変換 (発話ごとに処理) [佐伯20] Online変換 (フレームごとに処理) ❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定 ❑ リアルタイムフルバンド声質変換のためのオンライン実装 Sub-band analysis Conversion 0 -8 kHz 8 -2 4 kHz Pass throug h Sub-band synthesis Sub-band analysis Pass throug hConversion 0 -8 kHz 8 -2 4 kHz Sub-band synthesis
  • 7. /16提案するシステムの主要部 7 ❑ 分析部: 変換元話者の音声をサブバンド処理し,低域から特徴量抽出 ❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定 ❑ 合成部: 変換先話者の音声波形を得る � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering wind ow shift
  • 8. /16その他の部分 8 ❑ F0変換: 入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト ❑ 特徴量分析時にプリエンファシスを適用 � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering window shift F0 transform ation. Pre-em p hasis De-em p hasis
  • 10. /16評価の概要 10 Evaluation cases male-to-male (m2m), female-to-female (f2f) female-to-male (f2m), male-to-female (m2f) Dataset f2f: JSUTcorpus [Sonobe17] Voice Actress corpus [y_benjo17] m2m, f2m, m2f: JVS corpus [Takamichi19] Train / Valid / Test 80 sentences / 10 sentences / 10 sentences DFT length Proposed: 512 samples Benchmark: 2048 samples DNN architecture Multi layer perceptron with 2 hidden layers CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz ❑ Proposed methodとBenchmarkを比較 ▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用 ❑ 評価内容 ▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測 ▪ 変換音声品質: 主観評価実験
  • 11. /16計算量の評価 11 ❑ FLOPS: 1秒間に浮動小数点演算が何回行えるかという指標 ❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算 ❑ 理論上はモバイル端末でもリアルタイム変換が可能 ➢ Iphone6 single CPU: 2.8 GFLOPS (理論値) ➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値) Analysis Conversion Synthesis Other Total Benchmark 0.21 3.04 16.80 0.30 20.4 Proposed 0.74 0.37 1.05 0.30 2.5 単位はGFLOPS 350 % 12 % 6% 12 %
  • 12. /16処理時間の計測 12 1CPUでRTF < 1 を達成し,リアルタイム動作を確認 ❑ RTFによる評価 ▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算 ▪ 全フレームでのRTFの平均値を算出 Analysis Conversion Synthesis Other Total Benchmark 0.02 0.33 2.82 0.06 3.23 Proposed 0.16 0.14 0.22 0.06 0.58 800 % 42 % 8% 18 %
  • 13. /16オンライン・オフラインの品質比較 13 Online Score Offline [佐伯20] m2m 0.493 0.507 m2m f2f 0.487 0.513 f2f Online Score Offline [佐伯20] m2m 0.483 0.517 m2m f2f 0.510 0.490 f2f Speaker similarity Speech quality ❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較 ▪ 各ケース30人の評価者 • 話者性についてのXABテスト,音質についてのABテスト オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
  • 14. /16変換音声品質の絶対評価 14 ❑ 自然性をmean opinion score (MOS) により評価 ▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価 提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度 Error bar: 95 % confidence interval
  • 15. /16デモ 15 Source Target Narrow band Benchmark Proposed Intra-gender (f2f) Cross-gender (m2f)
  • 16. /16まとめ 16 ❑ 研究目的 ▪ 高音質なリアルタイム広帯域DNN声質変換の実現 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能 ▪ RTF計測の結果,1CPUでのリアルタイム動作を確認 ▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能 ▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性 ❑ 今後の課題 ▪ 実環境での頑健性の検討 ▪ さらなる変換音声品質の改善