一般化反復射影法に基づく時変劣ガウス独立低ランク行列分析
- 2. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016]
⋄ ブラインド音源分離手法の一つ
Time
Frequency
Frequency
Time
STFT周波数毎の
分離行列
観測信号 分離信号 低ランク近似 (NMF)
(i:周波数インデックス,j:時間インデックス,n:音源インデックス)
⋄ 以下の条件を満たす分離行列 Wi と音源モデル Tn, Vn を求める
▶ 分離信号間が互いに独立である
▶ 個々の分離信号が低ランクな時間周波数構造を持つ
⋄ 分離行列 Wi の更新と音源モデル Tn, Vn の更新を交互に反復
1 / 18
- 3. GGD-ILRMA [Kitamura+, 2018], [Ikeshita+, 2018]
⋄ 複素一般化 Gauss 分布 (GGD) に基づく ILRMA
▶ 音源の生成モデルに原点対称な時変複素 GGD を用いる
▶ 形状⺟数 β を変えると分布形状(尖度)が変わる
▶ 音源の特性に合致した β を選べば性能向上が期待できる
▶ β > 2 における効率的かつ収束性の保証された更新則は未提案
0 < β ≤ 2 β = 2 β > 2
優ガウス分布 ガウス分布 劣ガウス分布
(尖度大) (尖度小)
(β = 1) (β = 4)
2 / 18
- 4. 提案手法の概要
⋄ β = 4 のときの GGD-ILRMA の更新式を提案
▶ 時変劣ガウス音源モデルに基づく初の ILRMA
▶ Majorization-minimization (MM) 法を用いて導出
➡ 更新時のコスト関数値の収束性を保証
⋄ 時変劣ガウス音源モデルの利点
▶ 劣ガウスな分布に従う音源に対して性能向上が期待できる
▶ 幅広い種類の音源を表現できる
優ガウス分布
時変優ガウス分布
時変劣ガウス分布
劣ガウス分布
表現可能 表現不可能
表現可能 表現可能
優ガウス分布の混合では
劣ガウスな性質を持つ
分布を表現できない
分散が
時間変動
するとき
→尖度大
分散が
時間変動
しないとき
→尖度小
3 / 18
- 5. GGD-ILRMA の定式化
⋄ GGD-ILRMA の生成モデル
低ランクモデル 分離信号分散小
分散大
⋄ コスト関数(観測信号 xij = W −1
i yij の負対数尤度)
音源間の独立性を最大化 スペクトログラムを低ランク近似
※従来法と同じ手法で OK※従来法と同じ手法が使えない
4 / 18
- 6. GGD-ILRMA の更新式:分離行列 Wi
⋄ 最小化したいコスト関数(Wi にのみ注目):
LGGD = −2J
∑
i
log |det Wi| +
∑
i,j,n
wH
inxij
β
rijn
β
+ const.
⋄ 従来法:MM 法 + 反復射影法 (IP) [Ono, 2011]
1. |wHx|β を w の二次形式で上からおさえる補助関数を設計
LGGD ≤ −2J
∑
i
log |det Wi| + J
∑
i,n
wH
inFinwin + const.
2. 補助関数に IP を適用
⋄ 問題点:従来法は劣ガウス GGD-ILRMA には適用できない!
▶ IP は− log det 項と二次形式の和の形にのみ適用可能
▶ しかし,β > 2 のときは |z|β
を |z|2
で上から評価できない
Ex. |z|
4
を上からおさえられる 2 次関数は存在しない
5 / 18
- 7. 提案手法:一般化 IP
⋄ 以下のコスト関数 J を最小化する
J = J
I∑
i=1
−2 log |det Wi| +
1
J
N∑
n=1
J∑
j=1
|wH
inxij|4
rijn
4
+ const.
▶ β = 4 における GGD-ILRMA のコスト関数(Wi のみ注目)
▶ 従来の IP では解決できない ➡ IP の一般化を考える
⋄ 一般化 IP:以下のコスト関数 L を最小化する反復法
L = −2 log |det Wi| +
N∑
n=1
fin(win)
▶ ただし,fin : CN → R に対して 3 つの条件を課す
1. fin は至る所微分可能
2. ∀
c に対し,
{
u ∈ CN
fin(u) ≤ c
}
は凸(凸関数であれば OK)
3. fin(ηu) = ηd
fin(u) (fin は d 次の⻫次関数)
6 / 18
- 8. 一般化 IP:分離行列最適化における変数分離
⋄ 分離行列の各行ベクトルを win = ηinuin と分けてコストを記述
▶ uin は fin(uin) = 1 を満たすベクトル(win の方向を表す)
▶ ηin は正の実数(win のスケールを表す)
L = −2 log |det Wi| +
N∑
n=1
fin(win)
= −2 log det
[
ηi1ui1 · · · ηiN uiN
]H
+
N∑
n=1
fin(ηinuin)
= −2 log
(
∏
n
ηin · |det Ui|
)
+
N∑
n=1
ηin
d
fin(uin)
= −2 log |det Ui| +
N∑
n=1
[
−2 log ηin + ηin
d
]
➡ Ui = [ui1, · · · , uiN ]H
の行列式の絶対値を最大化する問題に帰着
7 / 18
容易に最小化可能
ηin = (2/d)1/d
- 9. 一般化 IP:|det U| 最大化問題の図形的解釈
⋄ |det U| 最大化問題の図形的な解釈(※添字 i は省略)
▶ 各行ベクトル un は fn(un) = 1 上を自由に動く
➡ N = 2 のとき,|det U| は u1, u2 がなす三角形の面積に比例
▶ N = 3 のときは 4 面体,N = 4 のときは 5 胞体,etc.
▶ 一般に,u1, . . . , uN がなす N-simplex の超体積に比例
8 / 18
- 10. 一般化 IP における方向 un の最適化原理
⋄ N = 2 のときの更新手順
1. 適当な初期点から開始
9 / 18
- 11. 一般化 IP における方向 un の最適化原理
⋄ N = 2 のときの更新手順
1. 適当な初期点から開始
2. u2 ⊥ ∇f1(u1) となる
ように u1 を更新
(u2 を固定して三角形の
面積を最大化)
9 / 18
Fixed
- 12. 一般化 IP における方向 un の最適化原理
⋄ N = 2 のときの更新手順
1. 適当な初期点から開始
2. u2 ⊥ ∇f1(u1) となる
ように u1 を更新
(u2 を固定して三角形の
面積を最大化)
3. u1 ⊥ ∇f2(u2) となる
ように u2 を更新
(u1 を固定して三角形の
面積を最大化)
9 / 18
Fixed
- 13. 一般化 IP における方向 un の最適化原理
⋄ N = 2 のときの更新手順
1. 適当な初期点から開始
2. u2 ⊥ ∇f1(u1) となる
ように u1 を更新
(u2 を固定して三角形の
面積を最大化)
3. u1 ⊥ ∇f2(u2) となる
ように u2 を更新
(u1 を固定して三角形の
面積を最大化)
4. 収束するまで 2. と 3. を
繰り返す
9 / 18
Fixed
- 14. 一般化 IP における方向 un の最適化原理
⋄ N = 2 のときの更新手順
1. 適当な初期点から開始
2. u2 ⊥ ∇f1(u1) となる
ように u1 を更新
(u2 を固定して三角形の
面積を最大化)
3. u1 ⊥ ∇f2(u2) となる
ように u2 を更新
(u1 を固定して三角形の
面積を最大化)
4. 収束するまで 2. と 3. を
繰り返す
➡ 各反復で必ず面積が増加するため,収束性が保証されている
9 / 18
- 15. 一般化 IP の更新則
一般化 IP (Generalized IP) ※詳細は予稿参照
L は,以下の更新を添字 n = 1, . . . , N について繰り返すことにより
最小化される.
1. ∇fin(u′
in) ∥ W −1
i en となる u′
in を一つ求める
平行
2. win ← u′
in
d
√
2/(dfin(u′
in)) (en = (0, . . . , 1, . . . , 0)⊤)
⋄ 1. で方向 (uin) を最適化
▶ win は uin のスカラー(ηin)倍であることを用いる
( ∀
n′
̸= n, uin′ ⊥ ∇fin(u′
in) ⇐⇒ ∀
n′
̸= n, wH
in′ ∇fin(u′
in) = 0
⇐⇒ Win∇fin(u′
in) ∥ en ⇐⇒ ∇fin(u′
in) ∥ W −1
i en
)
⋄ 2. でスケール (ηin) を最適化
⋄ fin(w) が二次形式のときは従来 IP と一致
10 / 18
- 16. β = 4 における GGD-ILRMA への応用
⋄ β = 4 における GGD-ILRMA のコスト関数(再掲)
J = J
I∑
i=1
−2 log |det Wi| +
1
J
N∑
n=1
J∑
j=1
|wH
inxij|4
rijn
4
+ const.
▶ fin(w) =
1
J
J∑
j=1
|wH
inxij|4
rijn
4
とおいて一般化 IP を適用したい
▶ 上の式では ∇fin(w′) ∥ W −1
i en が解きにくい
(ベクトルについての三次方程式が出現)
➡ MM 法を用いて解決する
▶ fin に更新前のパラメータ ˜win で接する上限関数 gin を設計
▶ gin を用いて設計された J の補助関数を代わりに最小化
▶ ∇gin(w′) ∥ W −1
i en を容易に解くため,gin(w′) の形を工夫
11 / 18
- 17. β = 4 における GGD-ILRMA の補助関数
定理 1 ※詳細は予稿参照
任意の ˜w ∈ CN をとり
H =
[
1
r1
x1 · · · 1
rJ
xJ
]
,
˜q =
[
˜q1 · · · ˜qJ
]
= HH
˜w,
G = H ·
1
√
J
∑
j |˜qj|
4
∥˜q∥
2
−˜q1 ˜q∗
2 · · · −˜q1 ˜q∗
J
−˜q2 ˜q∗
1 ∥˜q∥
2
· · · −˜q2 ˜q∗
J
...
...
...
...
−˜qJ ˜q∗
1 −˜qJ ˜q∗
2 · · · ∥˜q∥
2
· HH
とすると,任意の w に対して
1
J
J∑
j=1
|wH
xj|4
rj
4
≤ (wH
Gw)2
となり,w = ˜w のとき等号が成立する.
※ 一般化 IP の式は ∇(w′H
Gu)2 = (w′H
Gw′)Gw′ ∥ W −1
i en となり,
解きやすい線形方程式に帰着 (w′ ∥ G−1W −1
i en)
12 / 18
特殊な係数行列
G を持つ
二次形式の二乗
- 18. β = 4 における GGD-ILRMA の更新式
以下の更新を周波数及び n = 1, . . . , N について繰り返す.
1. 方向の最適化
Hin =
[
1
ri1n
xi1 · · · 1
riJn
xiJ
]
,
qin =
[
qi1n · · · qiJn
]⊤
= HH
inwin,
Gin = Hin ·
1
√
J
∑
j |qijn|
4
∥qin∥
2
−qi1nq∗
i2n · · · −qi1nq∗
iJn
−qi2nq∗
i1n ∥qin∥
2
· · · −qi2nq∗
iJn
...
...
...
...
−qiJnq∗
i1n −qiJnq∗
i2n · · · ∥qin∥
2
· HH
in,
win ← G−1
in W −1
i en
2. スケールの最適化
win ← w′
in
4
√
J
2
∑
j(|w′
in
H
xin|4
/rijn
4
)
13 / 18
- 19. 評価実験:概要
⋄ ILRMA による音楽信号の分離
▶ 2 音源の音楽信号の混合音を 6 種類用意
▶ 音楽信号の生成には Microsoft GS Wavetable Synth を使用
▶ 音楽信号は劣ガウス信号になりやすい [Naik+, 2012]
➡ 時変劣ガウス分布に基づく提案手法が高い性能を示すと考えられる
⋄ ILRMA による音声信号の分離
▶ 2 音源の音声信号の混合音を 4 種類用意
▶ 音声信号は MIDI 音源に比べて劣ガウス性が弱いと考えられる
➡ 時変劣ガウス分布は優ガウス分布も表せるから,提案手法も従来法と
同程度には分離できると期待できる
14 / 18
- 20. 実験条件
音楽信号 音声信号
サンプリング周波数 16 kHz
基底数 5
反復回数 1000
形状⺟数 β 1, 1.99, 2, 4
ドメインパラメータ p 0.5
試行回数 10 回
STFT
窓⻑ 128 ms
シフト⻑ 64 ms
窓⻑ 256 ms
シフト⻑ 128 ms
空間混合条件
15 / 18
- 23. まとめ
⋄ 時変劣ガウス分布に基づく ILRMA
▶ 優ガウスな音源にも劣ガウスな音源にも幅広く使えるモデル
▶ 音楽信号などの劣ガウス信号に対しては特に従来手法より優れた性能
を示す
⋄ β = 4 における劣ガウスな GGD-ILRMA の更新式
▶ 更新式導出の際に,新たなアルゴリズムである一般化 IP を提案
▶ 一般化 IP + MM 法を用いて MM 法ベースの更新則を導出
▶ 更新式はコスト関数値の収束性が保証されている
⋄ 実験による有効性の確認
▶ 音楽信号,音声信号ともに提案手法が有効
18 / 18