SlideShare a Scribd company logo
1 of 23
Optimal divergence diversity for superresolution-
based nonnegative matrix factorization
超解像型教師あり非負値行列因子分解における
最適なダイバージェンスのダイバーシチ
北村大地, 猿渡洋, 中村哲,
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
亀岡弘和
(東京大学/NTT)
2014 ASJ Spring meeting
第二会場 電気音響 アレー信号処理 3-2-9
研究背景
• 音楽信号分離技術の研究が盛ん
• 非負値行列因子分解(NMF)を用いた手法が高い注目を
集めいている
• 教師ありNMF(SNMF)は高精度な信号分離が可能だが,
非目的音源が増加すると精度が劣化
2
• 自動採譜技術の前段処理
• 音ARシステムへの応用 等
応用例
ステレオ信号を対象とした新しいハイブリッド信
号分離手法が提案されている
信号分離
研究背景
• ハイブリッド手法
3
入力ステレオ信号
音源の空間情報による分離
(方位クラスタリング)
教師あり手法による分離
(超解像型SNMF)
分離目的信号
L R
研究背景
• 後段の超解像型SNMFにおける最適な距離規範(ダイ
バージェンス)は入力信号中の音源の空間配置に依存
– 音源の空間情報の違い
• 本発表の目的
4
いかなる空間配置においても最適なダイバージェンス
を用いて高精度で目的音源を分離できる一般化ハイ
ブリッド手法を提案する
• NMF
– スパース分解表現手法
– スペクトログラム中の有意な特徴量を抽出可能
NMF [Lee, 2001]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトル)
アクティベーション行列
(各基底の時間変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 分解基底数
Time
Frequency
Frequency
5
基底
NMFの変数最適化
• 分解行列(変数) は観測データ と分解表現デー
タ の距離(ダイバージェンス)の最小化で求める
• 特にユークリッド距離とKLダイバージェンスが用いられる
• 振幅ドメインでのSNMFでは,KLダイバージェンスのコス
ト関数が高精度に分離できる [FitzGerald, 2012], [Kitamura, 2013]
– 音楽信号のスペクトログラムの持つスパース性に起因
6
: 行列 の要素
コスト関数:
• 分離目的音源の教師情報を用いる
– 教師スペクトル基底 を作成(目的音のスペクトルの辞書)
– 観測スペクトログラム を目的成分とそれ以外の成分に分離
SNMF [Smaragdis, 2007]
分離ステージ 最適化
学習ステージ
教師基底行列
(目的音源のスペクトル辞書)
目的音源の
サンプル音
7固定
目的音の音階情報
目的音源成分 その他の音源成分混合信号
• 目的音源以外の干渉成分が増加すると分離精度が劣化
5音源の場合
SNMFの問題
8
SNMF
2音源の場合
SNMF
残留成分
方位クラスタリング [Araki, 2007], [Miyabe, 2009]
• チャネル間の振幅差を用いてクラスタリング
• スペクトログラムドメインでのバイナリマスキング
• 問題点
– 同一方位の複数音源の分離は不可能
– バイナリマスキングによる人工歪みの発生
9
Right
L R
Center
Left
L R
Center
方位クラスタリング
入力ステレオ信号 分離信号
1 1 1 0 0 0
1 0 0 0 0 0
1 1 1 1 0 0
1 0 0 0 0 0
1 1 1 1 1 1
Frequency
Time
C C C R L R
C L L L R R
C C C C R R
C R R L L L
C C C C C C
Frequency
Time
バイナリマスク混合信号
要素毎の積
ハイブリッド手法 [Kitamura, 2013]
• 方位クラスタリングの後に超解像型SNMFを適用するハ
イブリッド手法が提案された
10
方位クラス
タリング
L R
空間分離
スペクトル
分離
超解像型SNMF
ハイブリッド手法
超解像型SNMF
• 方位クラスタリングによって生じる人工歪み(スペクトログ
ラム上での穴)を教師基底から外挿して復元
Time
Frequency
分離目的クラスタ
: 欠落
Time
Frequency
入力スペクトログラム
非目的
方位成分
Time
Frequency
復元目的信号
11
目的
方位成分
方位クラス
タリング
超解像型SNMF
• 方位クラスタリングによって生じる歪み
超解像型SNMF
12
: 欠落
Time
Frequency
分離されたクラスタ
欠落
欠落成分をコスト
関数から除外
教師スペクトル基底
…
フィットする
基底を外挿
超解像型SNMFに最適なダイバージェンス
• 従来のSNMFではKLダイバージェンスが高精度
• 超解像型SNMFの最適ダイバージェンスはスペク
トログラムの欠落数に依存
– 方位クラスタリングの結果(音源の空間配置)に依存
13
KL-divergence EUC-distance
KL-divergence EUC-distance?
一方
超解像型SNMFに最適なダイバージェンス
• 超解像型SNMFは2つのタスクがある
• 分離能力と外挿能力はトレードオフになる [Kitamura, 2013]
14
目的音源
分離
基底外挿
(超解像)
超解像型SNMF
性能
分離能力
ハイブリッド手法の総合性能
外挿能力
0 1 2 3 4
一般化距離関数(b-divergence)
KL EUCIS
Frequency
Time
多重ダイバージェンスに基づくSNMF
• スペクトルの欠落と最適なダイバージェンス
– 多いフレームはユークリッド距離 (外挿重視)
– 少ないフレームはKLダイバージェンス (分離重視)
15
欠落が少ないフレーム
KLダイバージェンス
で測る
ユークリッド距離
で測る
観測スペクト
ログラム
バイナリ
マスク
番目のフレームにお
ける穴の密度 と閾値
で距離規範を決定
欠落が多いフレーム
提案手法: フロー図
16
Frequency
Superresolution-based SNMF
Calculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasms Calculation of rate
Yes No
KL-divergence-
based cost function
EUC-distance-
based cost function
(EUC) (KL)
of chasms
Time
• 多重ダイバージェンスに基づく超解像型SNMFのコスト
関数
提案手法: コスト関数
17
: 各フレームにおける穴の密度
提案手法: 更新式
• 多重ダイバージェンスに基づく超解像型SNMFの更新式
– アクティベーション行列の更新式はフレーム毎に独立している
為,直接場合分けされる
18
提案手法: 更新式
• 多重ダイバージェンスに基づく超解像型SNMFの更新式
– その他の基底の更新式はフレームに関する総和の中に場合分
けが起きる
19
• 4つのメロディからなるステレオの混合音源を作成
• 中央に2つ,左右 °に1つずつ音源を配置
• 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値
実験条件
20
Center
1
2 3
4
Left Right
目的音源
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
Dataset Melody 1 Melody 2 Midrange Bass
No. 1 Oboe Flute Piano Trombone
No. 2 Trumpet Violin Harpsichord Fagotto
No. 3 Horn Clarinet Piano Cello
• 音源の空間配置の異なる4種類の入力データを作成
• SP1は欠落が少なく,SP4は欠落が多い
• 閾値 t = 0.2
実験条件
21
Center
1
2 3
4
Left Right
目的音源
Spatial
condition
Measure
1 2 3 4
SP1
SP2
SP3
SP4
実験結果
22
14
12
10
8
6
4
2
0
SDR[dB]
SP1 SP2 SP3 SP4
Spatial patterns
Good
Bad
穴の数 多い少ない
Hybrid method (KL-divergence)
Hybrid method (EUC-distance)
Hybrid method based on multi-divergence
SNMF (KL)
SNMF (EUC)
まとめ
• いかなる音源の空間配置にも対応した多重ダイ
バージェンスに基づく超解像型SNMFを提案
• ダイバージェンスはスペクトログラムの各フレーム
の欠落密度によって閾値処理され,決定される
– ダイバージェンスのダイバーシチ
• 音源の空間配置を変化させた信号を用いて,提
案手法の有効性を確認
23

More Related Content

What's hot

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1kame_hirokazu
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 

What's hot (20)

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 

Viewers also liked

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析Yuichi Yoshida
 
Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Daichi Kitamura
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfumeYurie Oka
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編Koichi Hamada
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門irrrrr
 

Viewers also liked (10)

独立成分分析 ICA
独立成分分析 ICA独立成分分析 ICA
独立成分分析 ICA
 
tokyor29th
tokyor29thtokyor29th
tokyor29th
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
 
Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 

More from Daichi Kitamura

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 

More from Daichi Kitamura (13)

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 

Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

Editor's Notes

  1. 近年,音楽信号分離技術の研究が世界中で行われています. この技術は,自動採譜技術やサウンドARシステムへの応用等が期待されます. この信号分離技術では,非負値行列因子分解,通称NMFを用いた手法が高い注目を集めています. 特に,教師ありNMF,SNMFは高精度に信号分離が可能ですが,非目的音の増加に伴って精度が劣化する問題があります. この問題に対して,我々はステレオ信号を対象とした新しいハイブリッド手法をこれまでに提案してきました.
  2. このハイブリッド手法は,空間的な分離手法と教師ありNMFによる分離手法を組み合わせたものです. ステレオの入力信号に対して,目的音源が存在する方位のみを前段で分離し,その後,超解像型SNMFという手法で目的音をさらに分離する手法です.
  3. これまでの研究において,後段の超解像型SNMFにおける最適な距離規範,NMF中のダイバージェンスは,入力信号中の音源の空間配置に依存することが確認されています. そこで,本発表では,このようにいかなる空間配置においても最適なダイバージェンスを用いて,高精度で目的音源を分離できる一般化されたハイブリッド手法を提案します.
  4. はじめに,NMFについて説明します. NMFはスパース分解表現手法の一つであり,スペクトログラム中の有意な特徴量を抽出することができます. NMFは観測スペクトログラムを別の二つの非負行列FとGの行列積に近似分解します. この時,前の行列Fの列ベクトルには,スペクトログラム中に頻繁に出現するスペクトルパターンが基底としてあらわれ, 後ろの行列Gの行ベクトルにはそれぞれの基底の時間的な強度変化が現れます. 前の行列Fを基底行列,後ろの行列Gをアクティベーション行列と呼びます.
  5. NMFにおける分解では,分解行列F,Gは観測データYと分解表現データFGの距離,ダイバージェンスの最小化で求めます. この式はNMFのコスト関数であり,YとFGの距離で定義されています.このJNMFを最小化することで,FとGを最適化できます. この距離関数には,ユークリッド距離とKLダイバージェンスがよく用いられますが,振幅ドメインのSNMFではKLダイバージェンスのコスト関数が高精度に分離できることが過去の研究により明らかにされています. これは,音楽信号の持つスパース差がKLダイバージェンスに良くフィットしているためです.
  6. NMFを用いた音源分離技術として,教師ありNMF,SNMFが提案されています. SNMFは目的音の教師音,サンプル音を事前に学習します. 例えば,この混合音からピアノを分解したいとき,ピアノの各音階などが含まれる教師音をNMFで分解し,ピアノの教師スペクトル基底Fを作ります. そして,作成した教師基底Fを用いて,分離プロセスで混合音源をFG+HUのように分解します.このとき,教師基底とその他の基底を無相関にする罰則条件がかけられています. 結果,FGにはピアノの音源が得られ,それ以外の音源はHUに現れます.
  7. SNMFは非目的音源数が少ないときはよく分離できますが,このように非目的音源が多くなると分離精度が劣化する問題があります.
  8. 次に,マルチチャネル信号を対象とした分離技術の方位クラスタリングについて説明します. この技術は,チャネル間の振幅差を用いてクラスタリングを行うことで,音源を方位ごとに分解することができます. クラスタリングによって得られるバイナリマスク行列を混合信号のスペクトログラムに掛け合わせて分離します. しかし,このように同一方位の音源の分離はできず,バイナリマスキングによる人工的な歪みも生じてしまいます.
  9. SNMFと方位クラスタリングの問題を解決するために,これらを組み合わせたハイブリッド手法が提案されました. これは前段で方位クラスタリングを行い,後段で超解像型SNMFという新しいSNMFを適用します.
  10. 前段の方位クラスタリングによって得られる信号は,このように人工的な歪み,欠落成分が多く存在していますが, 後段の超解像型SNMFは教師基底を用いてこれを復元することができます.この超解像について詳しく説明します.
  11. この図は方位クラスタリングによって得られたスペクトルです.バイナリマスクによって多くの欠落成分が生じています. 超解像型SNMFでは,この欠落成分をこのように除外した状態で,最もフィットする教師基底で表現します. 結果的に教師スペクトルが外挿されることになりますので,欠落成分は復元されることになります.
  12. さて,従来のSNMFではKLダイバージェンスが高精度に分離できるということが明らかにされておりますが,この超解像型SNMFの最適なダイバージェンスはスペクトログラムの欠落数,すなわち音源の空間配置に依存します.
  13. これは,超解像型SNMFに「目的音源の分離」と「教師基底の外挿」という2つのタスクがあるためです. この二つのタスクは,コチラのグラフのようにトレードオフの関係にあることが明らかにされています. 横軸はこちらの一般化距離関数βダイバージェンスのβ値であり,0の時板倉斉藤距離,1の時KLダイバージェンス,2の時にユークリッド距離に対応します. KLダイバージェンスは分離には向いていますが,外挿能力は低く,ユークリッド距離はその逆であることがわかります.
  14. そこで,本研究では多重ダイバージェンスに基づくSNMFを提案します. 方位クラスタリングによって得られる穴が開いたスペクトログラムの中で,欠落が多いフレームは外挿を重視しユークリッド距離を,逆に欠落が少ないフレームは分離を重視しKLダイバージェンスを定義することで,それぞれのフレームにあった距離規範を用いることができます.これはダイバージェンスのダイバーシチと呼ぶことができます.
  15. これは提案手法のフロー図になります. それぞれのフレームに関して穴の密度Rtを計算し,閾値処理で適切なコスト関数を決定します.教師基底はKLダイバージェンスで作成したものとユークリッド距離で作成したものの2種類を事前に用意しておく必要があります.
  16. このような多重ダイバージェンスに基づくNMFは,コスト関数を場合分けすることで実現することができます. まず,コスト関数をフレーム毎に分解し,その総和とします. そして,各フレームの穴の密度Rtを算出し,閾値τ以上ならばユークリッド,τ以下ならKLダイバージェンスとなるように場合分けします. このコスト関数を最小化するような更新式は補助関数法により求めることができます.
  17. 詳細は割愛しますが,更新式はこのようになります.アクティベーション行列の更新式は,フレームごとに独立しているため,このように直接的な場合分けになります.
  18. 続いてその他の基底Hの更新式はこのようになります.こちらは,分子分母のフレームに関する総和の中に場合分けが起こります.
  19. この多重ダイバージェンスの有効性を確認するために,実験を行いました. 入力信号は,この楽譜のような4つのメロディからなるステレオ信号を用い,中央に2つ,左右θ°に1つづつ音源があります. 目的音源は常に真ん中に配置しています. そして,この表のように3種類の楽器編成のMIDI信号を用意し,合計36パターンの平均評価値を求めました. また教師音源は,この楽譜のように,目的音源の音域をカバーする2オクターブの24音から成る同じMIDIの信号を用いました.
  20. さらに,音源の空間配置の異なる4種類の入力データSP1からSP4を作成しました. これらは,小節ごとに左右の音源の位置が変化します. 例えばSP1は最初の小説のみ左右45°に非目的音があり,2小節目から真ん中に移動します. SP4では常に45°の位置に非目的音があります. 従って,SP1は方位クラスタリングによる欠落が少なくなり,逆にSP4は欠落が多くなります.
  21. コチラは実験結果のグラフです.縦軸はSDRであり,総合的な分離精度を表します. 横軸は先ほどのデータセットの違いを表しています.赤いラインはKLを用いた従来のSNMF,青いラインはEUCを用いた従来のSNMFであり,これらはモノラルに適応する手法なのでデータ間の違いはありません. そして,KLを用いたハイブリッド手法,EUCを用いたハイブリッド手法,多重ダイバージェンスを用いたハイブリッド手法の三種を棒グラフで示しています. 穴の数が少ないときはKLがよく,多いときはEUCがKLを追い抜いています.そして多重ダイバージェンスを用いる提案手法は常に良い方に追従していることが確認できます.
  22. さらにこの図は方位方向に対する音源成分の分布を表しています. 入力のステレオ信号のおいて白色の目的音源の成分と,他の非目的音源成分がこのように分布していた場合, 方位クラスタリングは境界を定めて目的方位以外を切り落とします. この時,目的成分が若干欠けてしまい,この欠けた成分がスペクトログラム上での欠落に対応します. また,同じ方位に存在する成分は残っています. ここに提案教師ありNMFを適用すると,教師スペクトル基底を外挿しながら非目的音源成分を分離することができます.
  23. Conventional hybrid method is a simple method that concatenates normal SNMF and directional clustering. So, this method cannot reconstruct the lost components, spectral chasms. This proposed method, red line, is fixed the divergence. So, we already confirmed that the divergence-switching method achieves better result than this red line, in the previous result.
  24. Directional clustering utilizes some clustering methods, such as K-means clustering. The feature of the clustering / is the differences of the amplitude between channels, namely, the direction of the sources. From the clustering result, we can obtain binary mask matrix. So, the separation is achieved by the production of the input spectrogram and this mask.
  25. As another means of addressing multichannel signal separation, Multichannel NMF also has been proposed by Ozerov and Sawada. This method is a natural extension of NMF, and uses spectral and spatial cues. But, this unified method is very difficult optimization problem mathematically / because many variables should be optimized by one cost function. So, this method strongly depends on the initial values.
  26. If the target sources increase in the same direction with target instruments, the separation performance of supervised NMF markedly degrades. This is because, the several resemble bases arise in both of the target and other instruments.
  27. If the left and right sources close to the center direction, the separation ↓ become difficult, because directional clustering cannot separate well. In addition, bases extrapolation also become difficult because the number of chasms in the separated cluster / are increased in this case. In contrast, if the theta become larger, the separation ↓ become easy.
  28. This is a signal flow of the proposed hybrid method. In our experiment, superresolution-based supervised NMF is applied to only the center direction because the target source is located in the center direction. However, if the target source is located in the left or right side, we should apply this NMF to the direction that have the target source whether or not there is the other source in that direction.
  29. この一般的な距離関数であるβ-divergenceとは,パラメータβに応じてダイバージェンスが変化する距離関数です. β=2の時にユークリッド距離,1の時にKLダイバージェンス,0の時に板倉斎藤擬距離に対応します. 一般的に,振幅ドメインのNMFによる音源分離では,β=1程度が高性能だと知られています.
  30. 一般的にNMFによる分解は,観測データYの確率的な生成モデルを仮定した最尤推定と等価です. β-divergenceでコスト関数を定義した際に,βの値を1つ決めることで,観測データの生成モデルを仮定していることになります.
  31. 一般的に,βNMFの値が小さくなると,学習される基底はこのようにスパースになり,逆にβNMFが大きくなると,より大局的な表現が可能なスパースでない基底になります. このようなスパースすぎる教師基底は,「見えている成分だけを使って外挿する」には不向きであり,このグラフのように外挿能力が落ちてきます. 一方分離能力はβ=1付近がよくなるため,提案ハイブリッド手法の総合性能は,これらのトレードオフでβNMF=2程度で最大となることが考えられます.
  32. SDR is the total evaluation score as the performance of separation.