SlideShare uma empresa Scribd logo
1 de 17
時間領域低ランクスペクトログラム近似法に基づく
マスキング⾳声の⽋損成分復元
◎関翔悟† ⻲岡弘和†† ⼾⽥智基† 武⽥⼀哉†
†名古屋⼤学
††⽇本電信電話株式会社NTTコミュニケーション科学基礎研究所
2017/03/15⽇本⾳響学会2017年春季研究発表会
はじめに
 ⾳声強調
‐ 雑⾳が重畳した混合⾳から⽬的⾳声を推定・抽出する技術︓
e.g. ⾳声認識の前処理など
 時間周波数マスキングに基づく⾳声強調
‐ 時間周波数領域での⾳声強調
‐ マスク︓
⽬的⾳声とみなされる時間周波数成分のみを通過
‐ 混合⾳に対してマスキング→⽬的⾳声を強調
‐ 深層学習を⽤いたマスク推定⼿法︓
e.g. Deep Clustering[Hershey+16]
⾼い信号対雑⾳⽐(SNR)を実現
⽇本⾳響学会2017年春季研究発表会 2017/03/15
1
研究⽬標
 時間周波数マスキングに起因する問題︓
⽋損成分の発⽣
‐ 雑⾳とみなされる成分は不通過 → ⾳声成分の⽋損
‐ e.g. バイナリマスキング
‐ ⽋損成分により後段処理(⾳声認識)の性能劣化
マスキング⾳声の⽋損成分復元
⽇本⾳響学会2017年春季研究発表会 2017/03/15
時間周波数
マスキング
Noisy Enhanced
Clean
2
問題設定
 ⽋損成分を含む複素スペクトログラム︓
各要素︓
‐ ︓周波数インデックス
‐ ︓フレームインデックス
 ⾮⽋損成分集合︓
 の⽋損成分を以下と仮定(⽋損成分はゼロ)
 ⽋損成分の復元︓
から⽋損成分が復元された時間領域信号 を推定
⽇本⾳響学会2017年春季研究発表会 2017/03/15
`
Frequency
Time
Missing
3
本研究での提案︓3つの⼿がかり
1. 振幅スペクトログラムの⼤域的構造
2. スペクトログラムの局所的な依存関係
3. ⽬的⾳源がもつ特徴量上での事前情報
2017/03/15⽇本⾳響学会2017年春季研究発表会
Frequency
Time
1. Frequency
Time
2.
New
Frequency
Time
特徴量
3.
従来法︓NMFに基づく⽋損成分復元
提案法︓TSFに基づく⽋損成分復元
4
本研究での提案︓3つの⼿がかり
1. 振幅スペクトログラムの⼤域的構造
2. スペクトログラムの局所的な依存関係
3. ⽬的⾳源がもつ特徴量上での事前情報
2017/03/15⽇本⾳響学会2017年春季研究発表会
Frequency
Time
1.
New
従来法︓NMFに基づく⽋損成分復元
5
既存研究① - NMF[Smaragdis+03]
 ⾏列の低ランク表現
 振幅/パワースペクトログラムを2つの⾏列へと分解
‐ ︓少数のスペクトルパターン集合(基底⾏列)
‐ ︓時変の励起変化(アクティベーション⾏列)
スペクトログラム
2017/03/15⽇本⾳響学会2017年春季研究発表会
6
従来法︓NMFに基づく⽋損成分復元
 アルゴリズム
1. 振幅スペクトログラム に対してNMF
‐ ⾮⽋損集合 を⽤いて(⽋損した)振幅成分を復元
‐ ⽬的関数
‐ ︓誤差関数
2. 位相復元[Griffin+84] → ⽋損成分復元
 NMFにより振幅スペクトログラムが低ランク表現
‐ 基底スペクトル︓観測全体の⼤まかな特徴
→⽋損成分︓観測(振幅)スペクトログラムの⼤域的な構造
⽇本⾳響学会2017年春季研究発表会 2017/03/15
[Smaragdis+10]
7
本研究での提案︓3つの⼿がかり
1. 振幅スペクトログラムの⼤域的構造
2. スペクトログラムの局所的な依存関係
3. ⽬的⾳源がもつ特徴量上での事前情報
2017/03/15⽇本⾳響学会2017年春季研究発表会
Frequency
Time
Frequency
Time
Frequency
Time
特徴量
1. 2. 3.
New
提案法︓TSFに基づく⽋損成分復元
8
 時間領域信号の加法性&低ランク表現
 推定される時間領域(基底)信号
‐ 時間周波数表現︓時間領域信号の冗⻑表現
‐ 各時間周波数成分は周囲の成分により制約
→スペクトログラムにおける局所的な依存関係が考慮
既存⼿法② - TSF[Kameoka15]
⽇本⾳響学会2017年春季研究発表会 2017/03/15
(Rank-1) (Rank-1) (Rank-1)
振幅スペクトログラム
表現
9
提案法︓TSFに基づく⽋損成分復元
 概略図
⽇本⾳響学会2017年春季研究発表会 2017/03/15
時間波形 振幅スペクトログラム 特徴量複素スペクトログラム
推定信号
⽋損
観測(⽋損成分含)
|・|
STFT
ISTFT
|・|
①
③
②
④
10
⽋損成分周辺の
局所的な依存関係
定式化
 以下の⽬的関数を最⼩化する最適化問題に帰着
‐ 未知パラメータ︓
‐ ︓重み
‐ ︓誤差関数(Euclid距離またはKL-divergence)
 補助関数法によりパラメータを反復更新
⽇本⾳響学会2017年春季研究発表会 2017/03/15
振幅スペクトログラムの
⼤域的な構造
(KL-divergenceのみ)
ケプストラム距離正則化項
[Li+16]
と を関連付ける項
①
②
③
④
時間周波数成分を表す基底関数
11
実験的評価
 マスキングされたスペクトログラムに対して性能評価
‐ 雑⾳重畳⾳声に理想的バイナリマスク(IBM)を適⽤
 以下の⼿法を⽐較
‐ EU-NMF
‐ KL-NMF w/ Reg.
‐ KL-NMF w/o Reg.
‐ EU-TSF
‐ KL-TSF w/ Reg.
‐ KL-TSF w/o Reg.
 評価指標
‐ SNR ︓⼤きいほど⾼性能
‐ MFCC距離(歪み) ︓⼩さいほど⾼性能
⽇本⾳響学会2017年春季研究発表会 2017/03/15
従来法︓NMFに基づく⽋損成分復元
提案法︓TSFに基づく⽋損成分復元
12
実験データ
 クリーン⾳声
‐ ATR⾳素バランス503⽂Aセット
‐ 男性話者1名
‐ 計10発話
 ノイズ
‐ Babble
‐ SNRを変化させて重畳(-20 dB - 20 dB︔5 dB間隔)
⽇本⾳響学会2017年春季研究発表会 2017/03/15
13
従来法
実験結果
 SNR  MFCC距離
2017/03/15⽇本⾳響学会2017年春季研究発表会
Better
Better
提案法
未処理
14
従来法
実験結果
 SNR  MFCC距離
2017/03/15⽇本⾳響学会2017年春季研究発表会
Better
Better
提案法
未処理
従来法と⽐較して⾼い性能
IBMと同程度の性能が確認
IBMと⽐較して
⼩さい特徴量歪みが確認
15
おわりに
 TSFに基づく⽋損成分復元⼿法を提案
1. 振幅スペクトログラムの⼤域的構造
2. ⽋損成分周辺の局所的な依存関係
3. ⽬的⾳声がもつ特徴量上での事前情報
 理想バイナリマスクを⽤いた実験的評価
‐ 従来法(NMFベース)に⽐べて⾼い性能
‐ 理想バイナリマスクと同等のSNRを維持&低い特徴量歪み
 今後の課題
‐ 重みパラメータ最適化の検討
‐ 従来のマスキング⼿法に対する復元性能の調査
⽇本⾳響学会2017年春季研究発表会 2017/03/15
16

Mais conteúdo relacionado

Mais procurados

実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解Hiroki_Tanji
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 

Mais procurados (20)

実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
Slp201702
Slp201702Slp201702
Slp201702
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解複素ラプラス分布に基づく非負値行列因子分解
複素ラプラス分布に基づく非負値行列因子分解
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 

Mais de NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 

Mais de NU_I_TODALAB (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元