SlideShare uma empresa Scribd logo
1 de 20
ヘビーテイルな分布に基づく非負値行列因子分解
を用いたスパース雑音除去
Sparse noise reduction using nonnegative matrix
factorization based on heavy-tailed distributions
〇北村大地, 高宗典玄, 最上伸一, 三井祥幹, 猿渡洋(東大)
高橋祐,近藤多伸(ヤマハ)
日本音響学会2018年春季研究発表会
2018年3月13日午後-後半B(16:45~18:00)[エンハンスメント]
1-4-14
• 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee+, 1999]
– 非負行列の低ランク近似
– 教師無し学習
– 音源分離等に応用可能
• NMFの最適化基準
– 非負観測 とモデル 間のダイバージェンスの最小化
– 非負観測 またはその背後にある複素データ の生成モデル
を仮定した最尤推定
背景
2
Amplitude
Amplitude
Time
Time
Frequency
Frequency
二乗Euclid距離
一般化KLダイバージェンス
板倉斎藤擬距離 etc.
がGauss分布に従う
がPoisson分布に従う
が指数分布に従う
生成モデルの仮定
が分散変動複素Gauss分布に従う
ダイバージェンス最小化(等価)
二乗Euclid距離最小化
一般化KLダイバージェンス最小化
板倉斎藤擬距離最小化
板倉斎藤擬距離最小化
最尤推定
( 等)
• ヘビーテイルな分布のNMF
– 尖度(カートシス)が高い
– 裾が重く外れ値を容易に生成
– Cauchy分布NMF [Liutkus+, 2015],
安定分布NMF [Şimşekli+, 2015],
t分布NMF [Yoshii+, 2016],Lévy分布NMF [Magron+, 2017]
– 「外れ値」に頑健な非負低ランク近似が可能
• ロバストPCAのような低ランク成分とスパース成分の分解
• 一般化Gauss分布(generalized Gaussian dist.: GGD)に基づくNMF
– 既存のNMF( ダイバージェンスNMF)との関連性を明らかに
し,新たな複素生成モデルとしての解釈を与える
– t分布NMFと興味深い数学的な対応関係が存在
• 各種NMFのスパース雑音除去性能を実験的に比較
本発表の概要
3
Gauss分布 ヘビーテイル
な分布
• 短時間フーリエ変換(short-time Fourier transform: STFT)
– 時間信号から複素時間周波数行列への変換
• NMFの適用
– 複素スペクトログラムを非負化
– 非負化された行列 を に分解
• 板倉斎藤擬距離に基づくNMFの複素生成モデル
– 各時間周波数の複素成分 が平均0で分散 の複素Gauss
分布に従う
複素スペクトログラムの生成モデル
4
時間波形
STFT
複素スペクトログラム
周波数 時間
非負化
:振幅スペクトログラム
:パワースペクトログラム
要素毎の絶対値と指数演算
板倉斎藤擬距離NMF[Févotte+, 2009]
5
Frequencybin
Time frame
: パワースペクトログラム
パワーが小=分散が小
殆ど0付近の複素数しか
生成しない
パワーが大=分散が大
大きな振幅の複素数も
生成しうる
濃淡がパワーを示す
• 板倉斎藤擬距離NMF(IS-NMF)の複素生成モデル
– 各時間周波数の複素成分 が平均0で分散 の原点対称な
複素Gauss分布に従う
• 安定性を保証した分布によるヘビーテイル拡張
– 複素数混合を振幅やパワーで分解する妥当性を保証したNMF
– 安定分布の生成モデルに基づくNMF
• IS-NMF(複素Gauss分布, )[Févotte+, 2009]
• Cauchy NMF(複素Cauchy分布, )[Liutkus+, 2015]
• Lévy NMF(複素Lévy分布, )[Magron+, 2017]
• 安定性を捨てたヘビーテイル拡張
– t-NMF [Yoshii+, 2016]
• 複素t分布を生成モデルとしたNMF,自由度パラメタ を持つ
– IS-NMF( )とCauchy NMF( )を特殊形に含む
– 複素GGDに基づくNMF(GGD-NMF,本発表内容)
• 複素GGDを生成モデルとしたNMF,形状母数パラメタ を持つ
– IS-NMF( )とLaplace NMF( )※を特殊形に含む
IS-NMFのヘビーテイル拡張
6
※複素Laplace分布は2種類存在,いずれの種類もNMFへの応用
は[丹治ら, 2017]で提案済
が小さい程
ヘビーテイル
が小さい程
ヘビーテイル
が小さい程
ヘビーテイル
• 安定性を保証したNMF
– NMFの疑問:「複素数の振幅やパワーを分解していいの?」
– 「複素成分の混合の分解」を「非負行列の分解」で扱う妥当性
– 生成モデルに安定性があれば妥当性を保証
• 複素数の和 の生成モデルを期待値の和で表現可能
• 分散( )のように非負期待値をNMFで分解していると解釈
– 安定性を保証した分布: 安定分布 [Samorodnitsky+, 1994]
• Cauchy NMF[Liutkus+, 2015]
• Lévy NMF[Magron+, 2017]
IS-NMFのヘビーテイル拡張の動機
7
…
複素行列
…
複素混合行列 非負ランク1行列非負行列
が安定
• 原点対称複素GGD
– :形状母数, :尺度母数(時間周波数依存)
• のとき複素Laplace分布(特殊関数を含まない種類)
• のとき複素Gauss分布
– ドメインパラメタ を導入
• のとき振幅スペクトログラム を低ランク近似
• のときパワースペクトログラム を低ランク近似
GGD-NMFの生成モデル
8
• GGDとt分布の裾の重さを比較
GGDとt分布の比較
9
複素GDDの裾の重さ 複素t分布の裾の重さ
Gauss
Laplace
Cauchy
• 複素GGD生成モデルの対数尤度差(deviance)を導出
• ダイバージェンス
– GGDの対数尤度差は ダイバージェンスの に一致
GGDと ダイバージェンス
10
GGDの対数尤度差
板倉斎藤擬距離( )
• GGD-NMFは ダイバージェンスにおいて かつ
の領域に複素生成モデルの解釈を与えるもの
GGDと ダイバージェンス
11
0
line
1
-div.
Eu-dist.
KL-div.
IS-div.
Dual
KL-div.
-1
Dual IS-div.
(corr. with Lévy model)
-1
line
Dual -div.
1
GGD-based div.に一致
複素GGD生成モデルに
基づく最尤推定と等価
GGDの形状母数
は正値よりグラフ
の中心から左側は
未定義
[Cichocki+, 2009]より図引用
• GGD-NMFの乗算更新測(導出は原稿参照)
– 「観測 とモデル の の重み付き幾何平均 」
を仮想的な観測としたIS-NMFと等しい
– t-NMFは「観測とモデルの重み付き調和平均 」を仮想的な観
測としたIS-NMFと等しい
[Yoshii+, 2016]
補助関数法に基づく最適化アルゴリズム
12
参考:IS-NMFの更新式
:速度パラメタ [Mitsui+, 2017]
GGD-NMFの更新式
重み付き幾何平均
重み付き調和平均
• 対数正規分布から生成したスパース雑音の除去
– IDMT-SMT-GUITARデータセット [Kehling+, 2014]
• “AR_Lick1_KN.wav” から “AR_Lick6_KN.wav” までの6曲
スパース雑音除去性能評価実験:条件
13
雑音の種類 対数正規分布(mu=0, sigma=4)で生成した
スパース雑音(SNR=-10 dB)
比較手法 パワースペクトログラム: RPCA, IS-NMF, KL-NMF, Euclid NMF
振幅スペクトログラム: Cauchy NMF
ルートスペクトログラム: Lévy NMF
任意ドメインのスペクトログラム: t-NMF, GGD-NMF
基底数 30
反復回数 500
サンプル周波数 8000 Hz
短時間Fourier変換 125 msのHann窓を窓長の1/4でシフト
初期値 開区間(0,1)の一様乱数
試行回数 5
評価指標 信号対歪み比(SDR)改善量
スパース雑音除去性能評価実験:データ
14
Clean signal
(AR_Lick1_KN.wav)
Noisy signal
(SNR = -10 dB)
音量は
正規化済
スパース雑音除去性能評価実験:結果
15
• IS-, KL-, 及びEU-NMFは全く除去できず
IS-NMF
(-13.42 dB)
KL-NMF
(-10.89 dB)
EU-NMF
(-5.58 dB)
Noisy
signal
音量は
正規化済
スパース雑音除去性能評価実験:結果
16
• RPCAは除去できず,Ca-及びLé-NMFは分離達成
RPCA
(-7.78 dB)
Noisy
signal
音量は
正規化済
Cauchy
NMF
(3.77 dB)
Lévy
NMF
(5.38 dB)
スパース雑音除去性能評価実験:結果
17
• t-及びGGD-NMFはより良い分離を達成
Noisy
signal
音量は
正規化済
t-NMF
(7.26 dB)
GGD-NMF
(7.38 dB)
スパース雑音除去性能評価実験:結果
18
• 全6曲,各5回試行の合計30回の平均性能
– 仮定すべき最適な
分布の裾の重さは
ドメインによって変化
• 観測スペクトログラム
の何乗を分解するか
によって,雑音の
スパース性が変化
するため
– スパース雑音の抑圧
性能は同程度
• いずれのNMFも
付近で最良
性能を記録
t-NMF
GGD-NMF
スパース雑音除去性能評価実験:結果
19
• 全6曲,各5回試行の合計30回の平均性能
– t-NMFとGGD-NMFについては最良のドメイン及びパラメタの
結果を掲載
手法とパラメタ 平均SDR改善量
RPCA( ) -8.71
IS-NMF( ) -14.83
KL-NMF( ) -11.00
Euclid NMF( ) -7.48
Cauchy NMF( ) 4.11
Lévy NMF( ) 2.63
t-NMF( ) 5.20
GGD-NMF( ) 5.47
まとめ
• 原点対象複素GGD生成モデルに基づくNMF
– ダイバージェンスに基づくNMFの特殊形
• の領域に新たな複素生成モデル解釈を与える
• 複素生成モデルは独立低ランク行列分析(ILRMA)や多チャネルNMF
などに応用可能
– t-NMFは観測とモデルの調和平均を観測とおいたIS-NMF
– GGD-NMFは観測とモデルの幾何平均を観測とおいたIS-NMF
• GGD-NMFとt-NMFのスパース雑音除去性能は同程度
– ドメインパラメタに応じて最適な裾の重さが変動
– 計算量はいずれもそれなりに重い(IS-NMFの1.5倍程度)
20

Mais conteúdo relacionado

Mais de Daichi Kitamura

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 

Mais de Daichi Kitamura (20)

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 

ヘビーテイルな分布に基づく⾮負値⾏列因⼦分解を⽤いたスパース雑⾳除去(Sparse noise reduction using nonnegative matrix factorization based on heavy-tailed distributions)

Notas do Editor

  1. 本研究の背景です.非負値行列因子分解,通称NMFは,非負の行列Dを別の二つの非負行列の積WHで分解する低ランク近似です.例えばDをパワースペクトログラムとして分解すると,その中で頻出するスペクトルパターンと,それらの時間的な変化がそれぞれWとHとして得られます.このようなパーツを得ることで,音源分離や様々な技術への応用ができます. このNMFの最適化基準,即ちどうやってWとHを求めるかという基準には,非負観測DとモデルWHのダイバージェンスを最小化することが一般的です.例えば音響信号ではKLダイバージェンスや板倉斎藤擬距離などがよく利用されます. このような問題は,実は非負観測Dや,その背後にある複素データXの生成モデルを仮定した最尤推定と等価であることが知られています.つまり,DやXに生成モデルを仮定して最尤推定を行うことが,実は何らかのダイバージェンスの最小化と等価である,ということです.
  2. 本発表の概要です.先ほどのようにNMFでは何らかの生成モデルを仮定した最尤推定という解釈があり,近年はこの生成モデルをヘビーテイルな分布へと拡張したものが次々と登場しています. 例えばCauchy分布やスチューデントのt分布などが提案されており,これらはすべてGauss分布よりもヘビーテイルなものです. 仮定する分布がヘビーテイルになると,外れ値に頑健な低ランク近似ができますので,ロバストPCAのような低ランク・スパース分解が可能になります. 本発表では,一般化ガウス分布,GGDに基づくNMFを調査し,実はこれが既存のαβダイバージェンスに基づくNMFと関連していることを明らかにします.また,GGDに基づくNMFはスチューデントt分布に基づくNMFと数学的な面白い対応関係が存在することも明らかにします.実験では,これらのヘビーテイルなNMFの応用として,スパース雑音の除去性能を比較し,どれが良いのかを調査します.2分20秒
  3. それでは詳細に入ります.まず,出発点となる板倉斎藤擬距離NMF,ISNMFの複素生成モデルについて説明します. 板倉斎藤擬距離最小化のNMFは,各時間周波数の複素成分x_ijが平均0分散シグマの原点対称な複素ガウス分布に従うという生成モデルを仮定した最尤推定と等価です.このとき,分散シグマは各時間周波数に依存して異なり,観測Xの期待値なのでパワースペクトログラムそのものです. パワーの弱い時間周波数スロットは分散が小さく0付近の複素数しか生成しません. 逆にスペクトルのピークのように,パワーが大きい時間周波数スロットでは分散が大きいため大きな振幅の複素数を生成しうる,というモデルです.3分15秒
  4. この複素ガウス分布に基づくIS-NMFに対して,いくつかのヘビーテイルな拡張が提案されており,大きく二つの方向性に分けられます. 一つは,安定性を保証した分布による拡張であり,即ちα安定分布と呼ばれる生成モデルに基づきます. 安定性の詳細については省略しますが,この性質があると,複素成分の混合を振幅やパワーで分解することの妥当性が保証されます. これまでにα安定分布のうちのα=2,1,0.5が提案されており,それぞれ複素Gauss,複素Cauchy,複素レビィ分布に対応します.αが小さい程ヘビーテイルな分布になっていきます. もう一つは,安定性は無視したものです.複素t分布のNMFは,自由度母数のνに応じて複素Gaussから複素Cauchyまで含む一般化です. そして,本提案では,複素GGDに基づくNMFについて調査します.これは,形状母数ρに応じて複素Gaussから複素ラプラスを含む一般化といえます.t分布のνもGGDのρも小さい程ヘビーテイルになります.4分30秒
  5. それでは,GGD-NMFの生成モデルについて説明します.IS-NMFの時と同様に,各時間周波数スロットに原点対称複素GGDを仮定し,尺度母数シグマが時間周波数に依存します.形状母数ρは全時間周波数で同じ値とします. 中央の図は原点対称複素GGDの図であり,形状母数が小さくなるとヘビーテイルになる様子がわかります. さらに,NMFで近似表現する非負値のドメインを可変にするために,ドメインパラメタpを導入します. 右上のようにシグマのp乗が低ランク近似される,とモデルを置くことで,p=1の時は振幅スペクトログラムに対するNMF,p=2の時はパワースペクトログラムに対するNMF,というようにドメインを制御できます.5分25秒
  6. こちらはGGDとt分布の裾の重さを対数軸で比較した図です.左側が複素GGD,右側が複素t分布で,いずれも横軸が複素確率変数の絶対値,縦軸が確率値です.これらをみると,GGDにおける形状母数ρやt分布における自由度母数νの値を変えることでヘビーテイルさを制御できることがわかります.5.20
  7. この複素GGD生成モデルとダイバージェンスの関係を調べるために,対数尤度差を導出すると,上の式のようになります. この式はρ=2のときに,板倉斎藤擬距離に帰着し,生成モデルが複素Gaussになるので,GGDの対数尤度差は板倉斎藤擬距離の一般化と考えられます. そしてこの式は,αβダイバージェンスという非常に一般化されたダイバージェンスの中で,α=-β,但し「αが0以上」に一致することがわかります.6分05秒
  8. このαβダイバージェンスに基づくNMFはすでに提案されていますが,そのうちの一部の領域は複素GGDの生成モデルに基づくという事実が明らかになりました.この図は,αβダイバージェンスのαとβを2軸に取ったときのいろんなダイバージェンスとの関係を表していますが,このうちのα=-βの線上,右半分はダイバージェンスの形がGGDの対数尤度差と等しいため,複素GGDに基づく生成モデルの最尤推定と等価であることがわかります.6分40秒
  9. このGGD-NMFの最適化アルゴリズムは,よくある補助関数で導出可能です.詳細は原稿をご覧ください. 更新式は左上のような形になります.この式をよく見ると,zという変数を観測と考えた時のIS-NMFの更新式と一致することがわかります. またzは観測|x|と低ランクモデルσの両者のピー分のロー対1-ピー分のローの重み付き幾何平均になっています.モデルを加味したものの低ランク近似ですので,外れ値に頑健になることがわかります. 一方で,t分布のNMFは,zを右下の式ように置いた時のIS-NMFと等しく,観測とモデルの重み付き調和平均が仮想的な観測となっています. したがってGGDは幾何平均,t分布は調和平均という数学的に興味深い対応関係があることが明らかになりました.7分45秒
  10. それでは実験を説明します. 今回の実験では,ヘビーテイルなモデルを生かした,スパース雑音の除去を比較してみます.IDMTのギターのデータセットのうち6曲をクリーン信号として,これに対数正規分布から生成したスパース雑音をSN比-10dBとなるように付与します. 比較手法として,パワースペクトログラムを分解するロバストPCA,IS-NMF,KL-NMF,ユークリッドNMF,振幅スペクトログラムを分解するCauchyNMF,ルートスペクトログラムを分解するレビィNMF,そしてp乗スペクトログラムを分解するt-NMFとGGD-NMFです. そのほかの条件は表示の通りです.評価指標には,SDRの改善量を用いました.8分40秒
  11. このグラフは全6曲,各5回試行の合計30回の平均性能です.横軸はヘビーテイルさを表すνやρ,縦軸は分離性能,線種はドメインパラメタpを示しており,いろいろな条件の結果を示しています. まず,両者からわかることは,最高性能を示すときのヘビーテイルさがドメインパラメタによって変化している点です.つまり,グラフの最高点がpの値に応じて変化しています. これは,観測スペクトログラムの何乗を分解するかによって,雑音のスパース具合が変化するためです. また,このグラフでもt-NMFとGGD-NMFは同程度か,少しGGD-NMFの方が良いという結果になり,どちらもp=0.2付近という非常に圧縮されたスペクトログラムを分解するときの方が高い性能になりました.
  12. この表はほかの手法との平均値の比較です.ただし,t-NMFとGGD-NMFのパラメタは最良の結果を乗せています. これらの結果より,コーシーやレビィといった安定性を保証するNMFよりも,t-NMFやGGD-NMFの方がより良い性能を示していることが分かります.