Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

Optimal divergence diversity for superresolution-
based nonnegative matrix factorization
超解像型教師あり非負値行列因子分解における
最適なダイバージェンスのダイバーシチ
北村大地, 猿渡洋, 中村哲,
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
亀岡弘和
(東京大学/NTT)
2014 ASJ Spring meeting
第二会場電気音響アレー信号処理 3-2-9

研究背景
• 音楽信号分離技術の研究が盛ん
• 非負値行列因子分解(NMF)を用いた手法が高い注目を
集めいている
• 教師ありNMF(SNMF)は高精度な信号分離が可能だが，
非目的音源が増加すると精度が劣化
2
• 自動採譜技術の前段処理
• 音ARシステムへの応用等
応用例
ステレオ信号を対象とした新しいハイブリッド信
号分離手法が提案されている
信号分離

研究背景
• ハイブリッド手法
3
入力ステレオ信号
音源の空間情報による分離
(方位クラスタリング)
教師あり手法による分離
(超解像型SNMF)
分離目的信号
L R

研究背景
• 後段の超解像型SNMFにおける最適な距離規範(ダイ
バージェンス)は入力信号中の音源の空間配置に依存
– 音源の空間情報の違い
• 本発表の目的
4
いかなる空間配置においても最適なダイバージェンス
を用いて高精度で目的音源を分離できる一般化ハイ
ブリッド手法を提案する

• NMF
– スパース分解表現手法
– スペクトログラム中の有意な特徴量を抽出可能
NMF [Lee, 2001]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトル)
アクティベーション行列
(各基底の時間変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 分解基底数
Time
Frequency
Frequency
5
基底

NMFの変数最適化
• 分解行列(変数) は観測データと分解表現デー
タの距離(ダイバージェンス)の最小化で求める
• 特にユークリッド距離とKLダイバージェンスが用いられる
• 振幅ドメインでのSNMFでは，KLダイバージェンスのコス
ト関数が高精度に分離できる [FitzGerald, 2012], [Kitamura, 2013]
– 音楽信号のスペクトログラムの持つスパース性に起因
6
: 行列の要素
コスト関数:

• 分離目的音源の教師情報を用いる
– 教師スペクトル基底を作成(目的音のスペクトルの辞書)
– 観測スペクトログラムを目的成分とそれ以外の成分に分離
SNMF [Smaragdis, 2007]
分離ステージ最適化
学習ステージ
教師基底行列
(目的音源のスペクトル辞書)
目的音源の
サンプル音
7固定
目的音の音階情報
目的音源成分その他の音源成分混合信号

• 目的音源以外の干渉成分が増加すると分離精度が劣化
5音源の場合
SNMFの問題
8
SNMF
2音源の場合
SNMF
残留成分

方位クラスタリング [Araki, 2007], [Miyabe, 2009]
• チャネル間の振幅差を用いてクラスタリング
• スペクトログラムドメインでのバイナリマスキング
• 問題点
– 同一方位の複数音源の分離は不可能
– バイナリマスキングによる人工歪みの発生
9
Right
L R
Center
Left
L R
Center
方位クラスタリング
入力ステレオ信号分離信号
1 1 1 0 0 0
1 0 0 0 0 0
1 1 1 1 0 0
1 0 0 0 0 0
1 1 1 1 1 1
Frequency
Time
C C C R L R
C L L L R R
C C C C R R
C R R L L L
C C C C C C
Frequency
Time
バイナリマスク混合信号
要素毎の積

ハイブリッド手法 [Kitamura, 2013]
• 方位クラスタリングの後に超解像型SNMFを適用するハ
イブリッド手法が提案された
10
方位クラス
タリング
L R
空間分離
スペクトル
分離
超解像型SNMF
ハイブリッド手法

超解像型SNMF
• 方位クラスタリングによって生じる人工歪み(スペクトログ
ラム上での穴)を教師基底から外挿して復元
Time
Frequency
分離目的クラスタ
: 欠落
Time
Frequency
入力スペクトログラム
非目的
方位成分
Time
Frequency
復元目的信号
11
目的
方位成分
方位クラス
タリング
超解像型SNMF

• 方位クラスタリングによって生じる歪み
超解像型SNMF
12
: 欠落
Time
Frequency
分離されたクラスタ
欠落
欠落成分をコスト
関数から除外
教師スペクトル基底
…
フィットする
基底を外挿

超解像型SNMFに最適なダイバージェンス
• 従来のSNMFではKLダイバージェンスが高精度
• 超解像型SNMFの最適ダイバージェンスはスペク
トログラムの欠落数に依存
– 方位クラスタリングの結果(音源の空間配置)に依存
13
KL-divergence EUC-distance
KL-divergence EUC-distance?
一方

超解像型SNMFに最適なダイバージェンス
• 超解像型SNMFは2つのタスクがある
• 分離能力と外挿能力はトレードオフになる [Kitamura, 2013]
14
目的音源
分離
基底外挿
(超解像)
超解像型SNMF
性能
分離能力
ハイブリッド手法の総合性能
外挿能力
0 1 2 3 4
一般化距離関数(b-divergence)
KL EUCIS

Frequency
Time
多重ダイバージェンスに基づくSNMF
• スペクトルの欠落と最適なダイバージェンス
– 多いフレームはユークリッド距離 (外挿重視)
– 少ないフレームはKLダイバージェンス (分離重視)
15
欠落が少ないフレーム
KLダイバージェンス
で測る
ユークリッド距離
で測る
観測スペクト
ログラム
バイナリ
マスク
番目のフレームにお
ける穴の密度と閾値
で距離規範を決定
欠落が多いフレーム

提案手法: フロー図
16
Frequency
Superresolution-based SNMF
Calculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasms Calculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasms
Time

• 多重ダイバージェンスに基づく超解像型SNMFのコスト
関数
提案手法: コスト関数
17
: 各フレームにおける穴の密度

提案手法: 更新式
• 多重ダイバージェンスに基づく超解像型SNMFの更新式
– アクティベーション行列の更新式はフレーム毎に独立している
為，直接場合分けされる
18

提案手法: 更新式
• 多重ダイバージェンスに基づく超解像型SNMFの更新式
– その他の基底の更新式はフレームに関する総和の中に場合分
けが起きる
19

• 4つのメロディからなるステレオの混合音源を作成
• 中央に2つ，左右 °に1つずつ音源を配置
• 3種の楽器編成のMIDI信号を用意，計36パターンの平均評価値
実験条件
20
Center
１
２３
４
Left Right
目的音源
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
Dataset Melody 1 Melody 2 Midrange Bass
No. 1 Oboe Flute Piano Trombone
No. 2 Trumpet Violin Harpsichord Fagotto
No. 3 Horn Clarinet Piano Cello

• 音源の空間配置の異なる4種類の入力データを作成
• SP1は欠落が少なく，SP4は欠落が多い
• 閾値 t = 0.2
実験条件
21
Center
１
２３
４
Left Right
目的音源
Spatial
condition
Measure
1 2 3 4
SP1
SP2
SP3
SP4

実験結果
22
14
12
10
8
6
4
2
0
SDR[dB]
SP1 SP2 SP3 SP4
Spatial patterns
Good
Bad
穴の数多い少ない
Hybrid method (KL-divergence)
Hybrid method (EUC-distance)
Hybrid method based on multi-divergence
SNMF (KL)
SNMF (EUC)

まとめ
• いかなる音源の空間配置にも対応した多重ダイ
バージェンスに基づく超解像型SNMFを提案
• ダイバージェンスはスペクトログラムの各フレーム
の欠落密度によって閾値処理され，決定される
– ダイバージェンスのダイバーシチ
• 音源の空間配置を変化させた信号を用いて，提
案手法の有効性を確認
23

Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

More from Daichi Kitamura

More from Daichi Kitamura (13)

Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

Editor's Notes