Mais conteúdo relacionado Mais de 奈良先端大 情報科学研究科 (20) 直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離1. Music Signal Separation Using Supervised
Nonnegative Matrix Factorization with Orthogonality
and Maximum-divergence Penalties
直交化及び距離最大化則条件を用いた
教師あり非負値行列因子分解による音楽信号分離
北村大地, 猿渡洋, 八木浩介, 鹿野清宏
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
2. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ
2
3. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ
3
5. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ
5
6. 従来手法: 非負値行列因子分解
[Lee, et al., 2012]
• 非負値行列因子分解 (nonnegative matrix factorization: NMF)
Amplitude
Frequency
Frequency
– スパース分解表現による特徴量抽出手法
Amplitude
Time
観測行列
(スペクトログラム)
Time
パーツ,基底
アクティベーション行列
(時間的なゲイン変化)
基底行列
(頻出スペクトルパターン)
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
• 分解された基底を音源毎に選別する教師無しNMFは非常に困難
6
7. 従来手法: 教師ありNMF (SNMF) [Smaragdis, et al., 2007]
• 分離したい目的音の教師 (サンプル) 音を事前に学習
– 学習プロセスで教師スペクトル基底 (dictionary) を作成
– 分離プロセスで目的音
と,非目的音
に分離
学習プロセス
音階情報等
分離目的音の教師音
教師音から作成した教師スペクトル基底
最適化
分離プロセス
混合音
固定
目的音
非目的音
7
8. 従来手法の問題点
• SNMFにおける基底共有問題
– 教師基底 とその他の基底 の間には特に制約が無い
– 目的音のスペクトルがその他の基底 に現れる可能性がある
その他の基底
に教師と同じスペクトルが現れた場合
本来の目的信号
推定目的音
– 推定した目的音には欠損が生じる
– コスト関数が混合信号 と
れているため
推定非目的音
の距離のみで定義さ
8
12. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ
12
16. 基底直交化罰則条件
• 教師基底 とその他の基底
くなる を求める
– 類似した基底が現れると
の内積ができるだけ小さ
は大きな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
– NMFにおけるスケールの任意性を無くすため
• コスト関数に付与する際に重み係数
通常のNMFは
スケールが任意
を与える
16
24. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ
24
25. 実験条件
• MIDI信号で作成したモノラル音源
• Clarinet, Oboe, Piano, Celloの4種類
• 2音源混合と4音源混合の信号で評価
– 2音源は全12パターン,4音源は全4パターンの平均評価値を算出
• 教師音は分離目的音の音域をカバーする同じMIDIの音階情報
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
25
27. 実験結果: 2音源混合
• 全12パターンの平均評価値を算出
16
16
14
14
8 従来
SNMF
6
16
14
12
12
10
PSNMF
PSNMF (距離最大化)
(直交化)
10
SDR [dB]
SDR [dB]
10
PSNMF PSNMF
(直交化) (距離最大化)
SDR [dB]
12
PSNMF PSNMF
(直交化) (距離最大化)
8
6
従来
SNMF
従来
8 SNMF
6
4
4
2
2
2
0
0
0
0
• 全ての
1
2
4
0
1
2
0
1
2
において従来手法から大きく改善された
– 基底共有問題を防ぐことができたため
– 直交化罰則と距離最大化罰則に大きな差はない
27
28. 実験結果: 4音源混合
• 全4パターンの平均評価値を算出
14
14
12
12
従来
8 SNMF
14
PSNMF
PSNMF (距離最大化)
(直交化)
10
従来
8 SNMF
12
SDR [dB]
6
10
SDR [dB]
SDR [dB]
PSNMF PSNMF
10 (直交化) (距離最大化)
従来
8 SNMF
PSNMF PSNMF
(直交化) (距離最大化)
6
6
4
4
4
2
2
2
0
0
0
0
1
2
0
1
2
0
1
2
• 2音源混合と同様に大きく改善された
28