SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
2017年日本音響学会春季研究発表会
NMFにおける識別的基底学習のための
2段階最適化
☆遠藤宣明(東大),中嶋広明(東大),高宗典玄(東大),
高道慎之介(東大),猿渡洋(東大),小野順貴(NII / 総研大),
高橋祐(ヤマハ),近藤多伸(ヤマハ)
非負値行列因子分解(NMF)
• NMF [Lee & Seung, 1999]
– 非負値行列を非負値行列の積に低ランク近似
– 画像処理、自動採譜など応用先は様々
– 音源分離の場合,音源のスペクトログラムを基底行列と
アクティベーション行列に分解
Time
Time
Frequency
𝑭 𝑮
𝑡
𝒀
𝑡
Frequency
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
𝑓 : 周波数ビン数
𝑡 : 時間フレーム数
𝑘 : 基底数
2/17
音源分離と教師ありNMF
• 教師ありNMF(supervised NMF: SNMF)[Smaragdis et al., 2007]
– 教師基底に重複する特徴が多い場合,分離性能が低下
分離プロセス
教師基底𝑭, 𝑯を固定して𝑸, 𝑿を構成
𝒀mix
学習プロセス 目的の楽器の教師音を用いて学習した基底行列
特徴が重複しないように基底を学習させて、分離性能を向上させたい
=
𝑯
𝑼
𝑭
𝑮
𝑭
𝑸
𝑯
𝑿
3/17
2段階最適化問題としての音源分離問題
• 2段階最適化問題
– 下位制約関数が最適化問題で記述されている
– 2つの最適化問題の変数が互いに入れ子構造を形成
𝑭 = argmin
𝑭,𝑮
𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin
𝑯,𝑼
𝔇KL 𝒀 𝟐 𝑯 𝑼
s. t. 𝑮, 𝑼 = argmin
𝑮,𝑼
𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼
上位目的関数
教師音𝒀 𝟏, 𝒀 𝟐から
教師基底𝑭, 𝑯をNMFで学習
下位制約関数
アクティベーション行列𝑮, 𝑼は
混合音𝒀mixをよく表現できる
4/17
2段階最適化問題としての音源分離問題
• 従来研究 [Weninger et al., 2014]
– 仮定を設け,問題を緩和→厳密性を損なう
𝑭 = argmin
𝑭,𝑮
𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin
𝑯,𝑼
𝔇KL 𝒀 𝟐 𝑯 𝑼
s. t. 𝑮, 𝑼 = argmin
𝑮,𝑼
𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼
上位目的関数
教師音𝒀 𝟏, 𝒀 𝟐から
教師基底𝑭, 𝑯をNMFで学習
下位制約関数
アクティベーション行列𝑮, 𝑼は
混合音𝒀mixをよく表現できる
𝑭 = argmin
𝑭,𝑮
𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin
𝑯,𝑼
𝔇KL 𝒀 𝟐 𝑯 𝑼
s. t. 𝑮, 𝑼 = argmin
𝑮,𝑼
𝔇KL 𝒀mix 𝑭(∗)
𝑮 + 𝑯(∗)
𝑼
𝑭(∗) = argmin
𝑭, 𝑮
𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯(∗) = argmin
𝑯, 𝑼
𝔇KL 𝒀 𝟐 𝑯 𝑼
5/17
下位制約関数中の基底行列𝑭 ∗ , 𝑯(∗)を事前学習したものから動かさない
2段階最適化問題としての音源分離問題
• 提案手法
– 下位問題を等式制約に置き換える
– 非負値制約付きのargminによる問題をどう等式制約とするか?
– 等式制約を罰金関数化して、上位目的関数に組み込む
下位問題はNMFの形→独立に解くと乗算更新式が得られる(更新係数が非
負であれば非負値制約を満たしたまま解が得られる)
→乗算更新式の等号が成り立てば更新が停留する
→停留に関する等式制約が得られる+非負値制約も解決
min
𝑭,𝑮,𝑯,𝑼
𝔇KL 𝒀 𝟏 𝑭𝑮 + 𝔇KL 𝒀 𝟐 𝑯𝑼 + 𝛼 𝐺 𝐶 𝐺 + 𝛼 𝑈 𝐶 𝑈
上位目的関数 罰金関数項
上位目的関数
教師音𝒀 𝟏, 𝒀 𝟐から
教師基底𝑭, 𝑯をNMFで学習
下位制約関数
アクティベーション行列𝑮, 𝑼は
混合音𝒀mixをよく表現できる
𝑭 = argmin
𝑭,𝑮
𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin
𝑯,𝑼
𝔇KL 𝒀 𝟐 𝑯 𝑼
s. t. 𝑮, 𝑼 = argmin
𝑮,𝑼
𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼
6/17
乗算更新式による罰金関数の導出
補助関数法で下位問題を解いたときの 𝑮の乗算更新式
         
𝐺 𝑘,𝑡 ← 𝐺 𝑘,𝑡
𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘
𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
𝜔
𝐹 𝜔,𝑘𝜔
乗算更新式
下位目的関数の停留点では
更新式の「←」は等号になるはず
等式制約 𝐺 𝑘,𝑡 = 𝐺 𝑘,𝑡
𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘
𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
𝜔
𝐹 𝜔,𝑘𝜔
罰金関数 𝐶 𝐺 = 𝐺 𝑘,𝑡
2
𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘
𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
𝜔
𝐹 𝜔,𝑘𝜔
− 1
2
𝑡𝑘
両辺の差の2乗が罰金関数
𝐶 𝑈についても同様に定められる.
7/17
最適化問題の求解
• 罰金付きの目的関数を非負値制約の下で解かねばならない
– 通常のNMFのように補助関数法で解くことが困難
→ 乗算型の最急降下法[Fevotte et al., 2009]で解く
𝜕
𝜕𝐹Ω,𝐾
𝔇KL 𝒀 𝟏 𝑭𝑮 + 𝔇KL 𝒀 𝟐 𝑯𝑼 + 𝛼 𝐺 𝐶 𝐺 + 𝛼 𝑈 𝐶 𝑈
= 𝐺 𝐾,𝑡 −
𝑌1Ω,𝑡 𝐺 𝐾,𝑡
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′
𝑡
+ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 項別に展開、整理
= 𝐺 𝐾,𝑡
𝑡
+ ⋯ ⋯ ⋯ ⋯ −
𝑌1Ω,𝑡 𝐺 𝐾,𝑡
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′
𝑡
+ ⋯ ⋯ ⋯ ⋯
正の項の和 負の項の和
= Δ𝑓+ − Δ𝑓−
最急降下法の式
𝐹Ω,𝐾 ← 𝐹Ω,𝐾 − 𝜂(Δ𝑓+
− Δ𝑓−
)
ステップ幅の設定
𝜂 =
𝐹Ω,𝐾
Δ𝑓+
乗算型最急降下法
𝐹Ω,𝐾 ← 𝐹Ω,𝐾 ×
Δ𝑓−
Δ𝑓+
非負制約を容易に解決
非負の更新係数
8/17
最適化問題の求解
Δ𝑓−
=
𝑌1Ω,𝑡 𝐺 𝐾,𝑡
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′
𝑡
+ 2𝛼 𝐺 𝐺 𝑘,𝑡
2
𝑘,𝑡
𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
−1
𝑌mix Ω,𝑡 𝐹Ω,𝑘 𝐺 𝐾,𝑡
𝐹 𝜔,𝑘𝜔
2
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′
2
+ 2𝛼 𝐺 𝐺 𝐾,𝑡
2
𝑡
𝑌mix Ω,𝑡
𝐹 𝜔,𝐾 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′𝜔
+ 2𝛼 𝐺 𝐺 𝐾,𝑡
2
𝑡
𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
−1 2
𝐹 𝜔,𝐾𝜔
3
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′
+ 2𝛼 𝑈 𝑈𝑙,𝑡
2
𝑙,𝑡
𝑌mix 𝜔,𝑡𝜔 𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
−1
𝑌mix Ω,𝑡 𝐻Ω,𝑙 𝐺 𝐾,𝑡
𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
2
𝜔
Δ𝑓+
= 𝐺 𝐾,𝑡
𝑡
+ 2𝛼 𝐺 𝐺 𝑘,𝑡
2
𝑘,𝑡
𝑌mix Ω,𝑡 𝐹Ω,𝑘 𝐺 𝐾,𝑡
𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
2
𝜔
+ 2𝛼 𝐺 𝐺 𝐾,𝑡
2
𝑡
𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
−1
𝐹 𝜔,𝐾𝜔
2
+ 2𝛼 𝐺 𝐺 𝐾,𝑡
2
𝑡
𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
−1
𝑌mix Ω,𝑡
𝐹 𝜔,𝐾𝜔
2
𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′
+ 2𝛼 𝑈 𝑈𝑙,𝑡
2
𝑙,𝑡
𝑌mix Ω,𝑡 𝐻Ω,𝑙 𝐺 𝐾,𝑡
𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
2
𝜔
Δ𝑓−, Δ𝑓+の第1項のみを考えると(つまり𝛼 𝐺 = 𝛼 𝑈 = 0のとき)SNMFに相当する
𝜕
𝜕𝐹Ω,𝐾
𝔇KL 𝒀 𝟏 𝑭𝑮
9/17
罰金関数の設定
• 罰金関数の候補
(2) 𝐶 𝐺 ≡ 𝐺 𝑘,𝑡
𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘
𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
𝜔
𝐹 𝜔,𝑘𝜔
− 1
2
𝑡𝑘
(1) 𝐶 𝐺 ≡ 𝐺 𝑘,𝑡
2
𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘
𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′
𝜔
𝐹 𝜔,𝑘𝜔
− 1
2
𝑡𝑘
各行列は非負値行列なので(2) のように𝐶 𝐺を定めても罰金関数
として成立する.他にも様々なバリエーションが考えられる.
10/17
トイモデルに対する実験
• 実験条件
– 乱数シードは固定
– 個別教師音𝒀 𝟏, 𝒀 𝟐:各要素が形状母数0.4, 尺度母数1のガ
ンマ分布に従う行列𝑭, 𝑮, 𝑯, 𝑼の積を生成し,これにガウス
ノイズ(平均0、分散10−4)を加えたもの
– 𝑭𝑮,𝑯𝑼のサイズは65×100,ランクは10
– 混合教師音は𝒀 𝟏 + 𝒀 𝟐に一様乱数で生成した位相を加えた
もの
– NMFの際の行列の基底数は5
– 各行列の初期値は乱数で生成(乱数シードは固定)
11/17
トイモデルに対する実験
• 混合音源に対する目的関数値
𝔇KL 𝒀 𝐦𝐢𝐱 𝑭𝑮 + 𝑯𝑼 のグラフ(重み係数 = 10)
KKT条件由来の更新則
SNMF
※KKT条件由来の更新則:
下位問題を不等式制約付き
最適化問題とみなして,
KKT条件から導かれる
等号条件を罰金化して
得られる更新則
乗算更新式由来の更新則
• 下位制約の効果でSNMFよりも最適な解へ収束している.
• KKT条件由来の更新則は収束が遅い.
12/17
罰金関数(1)
罰金関数(2)
トイモデルに対する実験
• 個別音源に対する目的関数値
𝔇KL 𝒀 𝟏 𝑭𝑮 のグラフ(重み係数 = 10)
KKT条件由来の更新則
SNMF
※KKT条件由来の更新則:
下位問題を不等式制約付き
最適化問題とみなして,
KKT条件から導かれる
等号条件を罰金化して
得られる更新則
乗算更新式由来の更新則
• 下位制約により,SNMFに比べて上位目的関数値は増加する.
• KKT条件由来の更新則は収束が遅い.
13/17
罰金関数(1)
罰金関数(2)
実データに対する実験
• 実験条件(訓練時)
– 個別音の訓練データ𝒀 𝟏, 𝒀 𝟐:2つの楽器の24音階分のMIDI信
号(YAMAHA)𝑦1 𝑡 , 𝑦2(𝑡)の振幅スペクトログラム.
– 各信号のサンプリング周波数は44.1 kHz, STFTの窓長は
1024 点,Hanning窓を使用
– 訓練データ中の音階数は24
– 混合教師音𝒀 𝟑は𝑦1 𝑡 + 𝑦2(𝑡)の振幅スペクトログラム
– 基底行列の基底数は100
– 各行列の初期値は乱数で生成(乱数シードは固定)
– 評価指標:signal to distortion ratio (SDR)
• SN比と信号の歪みの両方を考慮した指標
• ダイナミックレンジが狭く人間は0.5 dB差も知覚可能
14/17
実データに対する実験
• 実験条件(分離時)
– テストデータとして2つの楽器音𝑦1
t
𝑡 , 𝑦2
t
𝑡 からなる曲
[Kitamura et al., 2014] 𝑦t 𝑡 = 𝑦1
t
𝑡 + 𝑦2
t
𝑡 を与え,そのスペ
クトログラム𝒀𝐭に対して個別教師音に対するNMFおよび提案手
法で推定した基底行列を用いてSNMFを行う.
– 10種類の初期値から計算を行い,平均SDRで分離度評価
15/17
実験結果
• 平均SDR [dB]
楽器の組
楽器1
SNMF
楽器1
Proposed
楽器2
SNMF
楽器2
Proposed
Fg & Fl 13.5 14.6 13.8 17.0
Fg & Hp 16.6 18.2 5.80 8.59
Fg & Hr 4.03 5.24 6.39 6.53
Fl & Hp 15.7 16.2 4.21 5.55
Fl & Hr 3.37 7.14 5.02 8.25
Hp & Hr 3.60 5.27 16.4 17.2
Average 9.48 11.1 8.61 10.5
• SNMFに比べ分離精度が大幅に改善された.
16/17
まとめ
• 識別的基底学習を定式化した2段階最適化問題に対して,
下位制約関数の停留点条件を利用して局所最適解を導出
した.
• NMFで用いられる乗算更新式の停留条件に着目し,等式
制約を導き,罰金関数として上位目的関数に組み込んだ.
• 実データの音源分離において,平均SDRがSNMFに比べ
実験的に改善された.
17/17

Mais conteúdo relacionado

Mais procurados

Transfer forest(PRMU Jun 2014)
Transfer forest(PRMU Jun 2014)Transfer forest(PRMU Jun 2014)
Transfer forest(PRMU Jun 2014)
Masamitsu Tsuchiya
 
光源方向推定のための構造色パターンマッチング
光源方向推定のための構造色パターンマッチング光源方向推定のための構造色パターンマッチング
光源方向推定のための構造色パターンマッチング
uranishi
 

Mais procurados (20)

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Ieice中国地区
Ieice中国地区Ieice中国地区
Ieice中国地区
 
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
最終講義
最終講義最終講義
最終講義
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組みフーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
 
200528material takahashi
200528material takahashi200528material takahashi
200528material takahashi
 
El text.tokuron a(2019).ishimura190718
El text.tokuron a(2019).ishimura190718El text.tokuron a(2019).ishimura190718
El text.tokuron a(2019).ishimura190718
 
Transfer forest(PRMU Jun 2014)
Transfer forest(PRMU Jun 2014)Transfer forest(PRMU Jun 2014)
Transfer forest(PRMU Jun 2014)
 
光源方向推定のための構造色パターンマッチング
光源方向推定のための構造色パターンマッチング光源方向推定のための構造色パターンマッチング
光源方向推定のための構造色パターンマッチング
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 

Destaque

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

Destaque (12)

Slp201702
Slp201702Slp201702
Slp201702
 
Hybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invited
 
Ica2016 312 saruwatari
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatari
 
Apsipa2016for ss
Apsipa2016for ssApsipa2016for ss
Apsipa2016for ss
 
Dsp2015for ss
Dsp2015for ssDsp2015for ss
Dsp2015for ss
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016
 
Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 

Semelhante a Asj2017 3 bileveloptnmf

Semelhante a Asj2017 3 bileveloptnmf (11)

スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric group
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 
実験計画法入門 Part 4
実験計画法入門 Part 4実験計画法入門 Part 4
実験計画法入門 Part 4
 
transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~
 
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 

Asj2017 3 bileveloptnmf

  • 2. 非負値行列因子分解(NMF) • NMF [Lee & Seung, 1999] – 非負値行列を非負値行列の積に低ランク近似 – 画像処理、自動採譜など応用先は様々 – 音源分離の場合,音源のスペクトログラムを基底行列と アクティベーション行列に分解 Time Time Frequency 𝑭 𝑮 𝑡 𝒀 𝑡 Frequency Amplitude Amplitude 観測行列 (スペクトログラム) 基底行列 (頻出スペクトルパターン) アクティベーション行列 (時間的なゲイン変化) 𝑓 : 周波数ビン数 𝑡 : 時間フレーム数 𝑘 : 基底数 2/17
  • 3. 音源分離と教師ありNMF • 教師ありNMF(supervised NMF: SNMF)[Smaragdis et al., 2007] – 教師基底に重複する特徴が多い場合,分離性能が低下 分離プロセス 教師基底𝑭, 𝑯を固定して𝑸, 𝑿を構成 𝒀mix 学習プロセス 目的の楽器の教師音を用いて学習した基底行列 特徴が重複しないように基底を学習させて、分離性能を向上させたい = 𝑯 𝑼 𝑭 𝑮 𝑭 𝑸 𝑯 𝑿 3/17
  • 4. 2段階最適化問題としての音源分離問題 • 2段階最適化問題 – 下位制約関数が最適化問題で記述されている – 2つの最適化問題の変数が互いに入れ子構造を形成 𝑭 = argmin 𝑭,𝑮 𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin 𝑯,𝑼 𝔇KL 𝒀 𝟐 𝑯 𝑼 s. t. 𝑮, 𝑼 = argmin 𝑮,𝑼 𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼 上位目的関数 教師音𝒀 𝟏, 𝒀 𝟐から 教師基底𝑭, 𝑯をNMFで学習 下位制約関数 アクティベーション行列𝑮, 𝑼は 混合音𝒀mixをよく表現できる 4/17
  • 5. 2段階最適化問題としての音源分離問題 • 従来研究 [Weninger et al., 2014] – 仮定を設け,問題を緩和→厳密性を損なう 𝑭 = argmin 𝑭,𝑮 𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin 𝑯,𝑼 𝔇KL 𝒀 𝟐 𝑯 𝑼 s. t. 𝑮, 𝑼 = argmin 𝑮,𝑼 𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼 上位目的関数 教師音𝒀 𝟏, 𝒀 𝟐から 教師基底𝑭, 𝑯をNMFで学習 下位制約関数 アクティベーション行列𝑮, 𝑼は 混合音𝒀mixをよく表現できる 𝑭 = argmin 𝑭,𝑮 𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin 𝑯,𝑼 𝔇KL 𝒀 𝟐 𝑯 𝑼 s. t. 𝑮, 𝑼 = argmin 𝑮,𝑼 𝔇KL 𝒀mix 𝑭(∗) 𝑮 + 𝑯(∗) 𝑼 𝑭(∗) = argmin 𝑭, 𝑮 𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯(∗) = argmin 𝑯, 𝑼 𝔇KL 𝒀 𝟐 𝑯 𝑼 5/17 下位制約関数中の基底行列𝑭 ∗ , 𝑯(∗)を事前学習したものから動かさない
  • 6. 2段階最適化問題としての音源分離問題 • 提案手法 – 下位問題を等式制約に置き換える – 非負値制約付きのargminによる問題をどう等式制約とするか? – 等式制約を罰金関数化して、上位目的関数に組み込む 下位問題はNMFの形→独立に解くと乗算更新式が得られる(更新係数が非 負であれば非負値制約を満たしたまま解が得られる) →乗算更新式の等号が成り立てば更新が停留する →停留に関する等式制約が得られる+非負値制約も解決 min 𝑭,𝑮,𝑯,𝑼 𝔇KL 𝒀 𝟏 𝑭𝑮 + 𝔇KL 𝒀 𝟐 𝑯𝑼 + 𝛼 𝐺 𝐶 𝐺 + 𝛼 𝑈 𝐶 𝑈 上位目的関数 罰金関数項 上位目的関数 教師音𝒀 𝟏, 𝒀 𝟐から 教師基底𝑭, 𝑯をNMFで学習 下位制約関数 アクティベーション行列𝑮, 𝑼は 混合音𝒀mixをよく表現できる 𝑭 = argmin 𝑭,𝑮 𝔇KL 𝒀 𝟏 𝑭 𝑮 , 𝑯 = argmin 𝑯,𝑼 𝔇KL 𝒀 𝟐 𝑯 𝑼 s. t. 𝑮, 𝑼 = argmin 𝑮,𝑼 𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼 6/17
  • 7. 乗算更新式による罰金関数の導出 補助関数法で下位問題を解いたときの 𝑮の乗算更新式           𝐺 𝑘,𝑡 ← 𝐺 𝑘,𝑡 𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 𝜔 𝐹 𝜔,𝑘𝜔 乗算更新式 下位目的関数の停留点では 更新式の「←」は等号になるはず 等式制約 𝐺 𝑘,𝑡 = 𝐺 𝑘,𝑡 𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 𝜔 𝐹 𝜔,𝑘𝜔 罰金関数 𝐶 𝐺 = 𝐺 𝑘,𝑡 2 𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 𝜔 𝐹 𝜔,𝑘𝜔 − 1 2 𝑡𝑘 両辺の差の2乗が罰金関数 𝐶 𝑈についても同様に定められる. 7/17
  • 8. 最適化問題の求解 • 罰金付きの目的関数を非負値制約の下で解かねばならない – 通常のNMFのように補助関数法で解くことが困難 → 乗算型の最急降下法[Fevotte et al., 2009]で解く 𝜕 𝜕𝐹Ω,𝐾 𝔇KL 𝒀 𝟏 𝑭𝑮 + 𝔇KL 𝒀 𝟐 𝑯𝑼 + 𝛼 𝐺 𝐶 𝐺 + 𝛼 𝑈 𝐶 𝑈 = 𝐺 𝐾,𝑡 − 𝑌1Ω,𝑡 𝐺 𝐾,𝑡 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ 𝑡 + ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 項別に展開、整理 = 𝐺 𝐾,𝑡 𝑡 + ⋯ ⋯ ⋯ ⋯ − 𝑌1Ω,𝑡 𝐺 𝐾,𝑡 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ 𝑡 + ⋯ ⋯ ⋯ ⋯ 正の項の和 負の項の和 = Δ𝑓+ − Δ𝑓− 最急降下法の式 𝐹Ω,𝐾 ← 𝐹Ω,𝐾 − 𝜂(Δ𝑓+ − Δ𝑓− ) ステップ幅の設定 𝜂 = 𝐹Ω,𝐾 Δ𝑓+ 乗算型最急降下法 𝐹Ω,𝐾 ← 𝐹Ω,𝐾 × Δ𝑓− Δ𝑓+ 非負制約を容易に解決 非負の更新係数 8/17
  • 9. 最適化問題の求解 Δ𝑓− = 𝑌1Ω,𝑡 𝐺 𝐾,𝑡 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ 𝑡 + 2𝛼 𝐺 𝐺 𝑘,𝑡 2 𝑘,𝑡 𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ −1 𝑌mix Ω,𝑡 𝐹Ω,𝑘 𝐺 𝐾,𝑡 𝐹 𝜔,𝑘𝜔 2 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′ 2 + 2𝛼 𝐺 𝐺 𝐾,𝑡 2 𝑡 𝑌mix Ω,𝑡 𝐹 𝜔,𝐾 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′𝜔 + 2𝛼 𝐺 𝐺 𝐾,𝑡 2 𝑡 𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ −1 2 𝐹 𝜔,𝐾𝜔 3 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′ + 2𝛼 𝑈 𝑈𝑙,𝑡 2 𝑙,𝑡 𝑌mix 𝜔,𝑡𝜔 𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ −1 𝑌mix Ω,𝑡 𝐻Ω,𝑙 𝐺 𝐾,𝑡 𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 2 𝜔 Δ𝑓+ = 𝐺 𝐾,𝑡 𝑡 + 2𝛼 𝐺 𝐺 𝑘,𝑡 2 𝑘,𝑡 𝑌mix Ω,𝑡 𝐹Ω,𝑘 𝐺 𝐾,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 2 𝜔 + 2𝛼 𝐺 𝐺 𝐾,𝑡 2 𝑡 𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ −1 𝐹 𝜔,𝐾𝜔 2 + 2𝛼 𝐺 𝐺 𝐾,𝑡 2 𝑡 𝑌mix 𝜔,𝑡𝜔 𝐹 𝜔,𝐾 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ −1 𝑌mix Ω,𝑡 𝐹 𝜔,𝐾𝜔 2 𝐹Ω,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′ 𝑈𝑙′,𝑡𝑙′ + 2𝛼 𝑈 𝑈𝑙,𝑡 2 𝑙,𝑡 𝑌mix Ω,𝑡 𝐻Ω,𝑙 𝐺 𝐾,𝑡 𝐻 𝜔,𝑙 𝐹 𝜔,𝑘′ 𝐺 𝑘′,𝑡𝑘′ + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 2 𝜔 Δ𝑓−, Δ𝑓+の第1項のみを考えると(つまり𝛼 𝐺 = 𝛼 𝑈 = 0のとき)SNMFに相当する 𝜕 𝜕𝐹Ω,𝐾 𝔇KL 𝒀 𝟏 𝑭𝑮 9/17
  • 10. 罰金関数の設定 • 罰金関数の候補 (2) 𝐶 𝐺 ≡ 𝐺 𝑘,𝑡 𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 𝜔 𝐹 𝜔,𝑘𝜔 − 1 2 𝑡𝑘 (1) 𝐶 𝐺 ≡ 𝐺 𝑘,𝑡 2 𝑌mix 𝜔,𝑡 𝐹 𝜔,𝑘 𝐹 𝜔,𝑘′𝑘′ 𝐺 𝑘′,𝑡 + 𝐻 𝜔,𝑙′ 𝑈𝑙′,𝑡𝑙′ 𝜔 𝐹 𝜔,𝑘𝜔 − 1 2 𝑡𝑘 各行列は非負値行列なので(2) のように𝐶 𝐺を定めても罰金関数 として成立する.他にも様々なバリエーションが考えられる. 10/17
  • 11. トイモデルに対する実験 • 実験条件 – 乱数シードは固定 – 個別教師音𝒀 𝟏, 𝒀 𝟐:各要素が形状母数0.4, 尺度母数1のガ ンマ分布に従う行列𝑭, 𝑮, 𝑯, 𝑼の積を生成し,これにガウス ノイズ(平均0、分散10−4)を加えたもの – 𝑭𝑮,𝑯𝑼のサイズは65×100,ランクは10 – 混合教師音は𝒀 𝟏 + 𝒀 𝟐に一様乱数で生成した位相を加えた もの – NMFの際の行列の基底数は5 – 各行列の初期値は乱数で生成(乱数シードは固定) 11/17
  • 12. トイモデルに対する実験 • 混合音源に対する目的関数値 𝔇KL 𝒀 𝐦𝐢𝐱 𝑭𝑮 + 𝑯𝑼 のグラフ(重み係数 = 10) KKT条件由来の更新則 SNMF ※KKT条件由来の更新則: 下位問題を不等式制約付き 最適化問題とみなして, KKT条件から導かれる 等号条件を罰金化して 得られる更新則 乗算更新式由来の更新則 • 下位制約の効果でSNMFよりも最適な解へ収束している. • KKT条件由来の更新則は収束が遅い. 12/17 罰金関数(1) 罰金関数(2)
  • 13. トイモデルに対する実験 • 個別音源に対する目的関数値 𝔇KL 𝒀 𝟏 𝑭𝑮 のグラフ(重み係数 = 10) KKT条件由来の更新則 SNMF ※KKT条件由来の更新則: 下位問題を不等式制約付き 最適化問題とみなして, KKT条件から導かれる 等号条件を罰金化して 得られる更新則 乗算更新式由来の更新則 • 下位制約により,SNMFに比べて上位目的関数値は増加する. • KKT条件由来の更新則は収束が遅い. 13/17 罰金関数(1) 罰金関数(2)
  • 14. 実データに対する実験 • 実験条件(訓練時) – 個別音の訓練データ𝒀 𝟏, 𝒀 𝟐:2つの楽器の24音階分のMIDI信 号(YAMAHA)𝑦1 𝑡 , 𝑦2(𝑡)の振幅スペクトログラム. – 各信号のサンプリング周波数は44.1 kHz, STFTの窓長は 1024 点,Hanning窓を使用 – 訓練データ中の音階数は24 – 混合教師音𝒀 𝟑は𝑦1 𝑡 + 𝑦2(𝑡)の振幅スペクトログラム – 基底行列の基底数は100 – 各行列の初期値は乱数で生成(乱数シードは固定) – 評価指標:signal to distortion ratio (SDR) • SN比と信号の歪みの両方を考慮した指標 • ダイナミックレンジが狭く人間は0.5 dB差も知覚可能 14/17
  • 15. 実データに対する実験 • 実験条件(分離時) – テストデータとして2つの楽器音𝑦1 t 𝑡 , 𝑦2 t 𝑡 からなる曲 [Kitamura et al., 2014] 𝑦t 𝑡 = 𝑦1 t 𝑡 + 𝑦2 t 𝑡 を与え,そのスペ クトログラム𝒀𝐭に対して個別教師音に対するNMFおよび提案手 法で推定した基底行列を用いてSNMFを行う. – 10種類の初期値から計算を行い,平均SDRで分離度評価 15/17
  • 16. 実験結果 • 平均SDR [dB] 楽器の組 楽器1 SNMF 楽器1 Proposed 楽器2 SNMF 楽器2 Proposed Fg & Fl 13.5 14.6 13.8 17.0 Fg & Hp 16.6 18.2 5.80 8.59 Fg & Hr 4.03 5.24 6.39 6.53 Fl & Hp 15.7 16.2 4.21 5.55 Fl & Hr 3.37 7.14 5.02 8.25 Hp & Hr 3.60 5.27 16.4 17.2 Average 9.48 11.1 8.61 10.5 • SNMFに比べ分離精度が大幅に改善された. 16/17