Mais conteúdo relacionado
Semelhante a スペクトログラム無矛盾性に基づく独立低ランク行列分析 (7)
Mais de Kitamura Laboratory (20)
スペクトログラム無矛盾性に基づく独立低ランク行列分析
- 3. 研究背景
• ブラインド音源分離(blind source separation: BSS)
– 音源位置やマイクロフォン位置が未知の状態での音源分離
– 混合系 の逆行列 を周波数毎に推定
– 既存のBSS
• 独立成分分析(ICA) [Comon, 1994]
• 独立ベクトル分析(IVA) [Kim+, 2007]
• 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 等
音源信号 混合信号 分離信号
混合系 分離系
3
Notas do Editor
- 標記のタイトルで北村研究室の豊島が発表します.
- まず,研究背景について説明します.
本研究の大枠である音源分離とは,複数の音声や楽器音の混合から個々の音源を推定する技術です.
自動採譜の前段処理や音声認識の精度向上,音声通信の音質向上などに用いられています.
- 音源分離でも特に,音源やマイクロフォンの空間的な位置等の事前情報が分からないという条件で,観測された混合音のみから分離信号を推定する技術をブラインド音源分離,BSSといいます.
これは,音が空間を伝搬して混ざる過程を行列Aとしたとき,Aの逆行列Wを推定する問題です.
当然,混合行列Aは分からないので,「分離信号が互いに統計的に独立」になるような分離行列Wを推定します.
また,音響信号の混合は残響に畳み込みになりますので,実際のBSSでは,時間周波数領域で周波数毎の分離行列Wを推定します.
BSSは独立成分分析,ICAを起源とし,その拡張である独立ベクトル分析IVA,及び独立低ランク行列分析ILRMAが最も成功したアルゴリズムです.
本研究は,ILRMAを対象としています.
- 従来のILRMAでは,分離行列や音源パラメータの反復最適化計算を行いますが,その最適化の過程で,「スペクトログラム無矛盾性」と呼ばれる性質が考慮されていません.
このスペクトログラム無矛盾性とは,時間波形を時間周波数領域に変換した信号の,時間周波数領域上での共起関係の一貫性のことです.
時間周波数領域で何らかの信号処理を適用した場合は,この一貫性が通常失われてしまいます.
このスペクトログラム無矛盾性を,古いBSSであるIVAで考慮した場合,音源分離性能が向上することが報告されましたが,ILRMAでは未確認でした.
そこで,本研究の目的として,ILRMAの反復最適化時にスぺクトログラム無矛盾性を担保する新しいアルゴリズムを提案し,分離性能の向上に寄与するかを実験的に調査します.
- それでは,スペクトログラムについて説明します.
スペクトログラムとは,1次元の時間信号を,時間と周波数の2次元領域で表現したものです.
時間波形に対して,このように短時間区間に分割しその一つ一つに窓関数を掛けて離散フーリエ変換することで,横軸時間,縦軸周波数の行列ができます.
この行列Xをスペクトログラムと呼び,この変換を短時間フーリエ変換,通称STFTと呼びます.
- 本研究で重要となる,スペクトログラムの矛盾・無矛盾について説明します.
いま,左側のスペクトログラムは矛盾,右側のスペクトログラムは無矛盾な状態です.黄色い場所ほどパワーが強いことを表しています.
左側のスペクトログラムは人工的に作成したものであり,中央のある時間周波数グリッド1つにだけ強いパワーを持たせています.
このスペクトログラムは実は矛盾しており,これに直接対応する時間波形は存在しません.
この矛盾スペクトログラムを一度逆STFTして時間領域に戻し,再びSTFTして得られたスペクトログラムが右側です.
実はこの右側は,矛盾のない,即ち無矛盾なスペクトログラムです.
図からわかる通り,パワーの強い時間周波数グリッドの上下左右の近傍も,ある程度の大きさのパワーがあり,パワーが連動・共起していることが分かります.
この共起関係が,一貫してすべてのグリッドで保たれているスペクトログラムが,「無矛盾なスペクトログラム」です.
- このスペクトログラムの矛盾と無矛盾について,集合を用いて説明します.
まず,時間領域の波形の集合と時間周波数領域の集合を定義します.
時間領域の音の波形は,この赤線で描いた集合の要素です.
時間周波数領域のスペクトログラムはこの青線で描いた集合の要素です.
重要なのは時間周波数領域の集合は時間領域より次元が高いことです.
この時間周波数領域の中で,無矛盾なスペクトログラムの集合は,三次元空間中の平面のように一部だけの集合となります.
- いま,ある時間波形sをSTFTすると,時間周波数領域の無矛盾なスペクトログラムに射影されます.
このスペクトログラムSは無矛盾なので,直接対応する時間波形が小文字のsとして存在します.
もちろん,Sを逆STFTすると元の時間波形sに戻ります.
- 時間周波数領域の無矛盾なスペクトログラムSに対して,音源分離等の何らかの信号処理を加えると,先ほどの一貫した共起関係は崩れてしまい,矛盾したスペクトログラムS’となります.
S’には「直接対応する時間波形」が存在しません.
- この矛盾したスペクトログラムS’を逆STFTすると,S’は一番近い無矛盾なスペクトログラムS’’に射影された上で,S’’の時間波形s’’へと変換されます.
- なので,先ほどお見せしたように,スペクトログラムを逆STFTして時間領域に戻し,もう一度STFTして時間周波数領域に戻ってくるだけで,どんな矛盾したスペクトログラムも無矛盾なスペクトログラムに変換できます.
以上がスペクトログラムの無矛盾性に関する説明です.
- 本研究が対象とする音源分離アルゴリズムであるILRMAについて簡単に説明します.
ILRMAとは,観測信号から周波数毎の分離行列Wを推定するBSSアルゴリズムです.
このとき,分離信号が互いに独立になることに加えて,各分離信号の時間周波数構造が低ランク行列でモデル化されます.
この低ランク行列によるモデル化によって,音源分離が促進されます.
そのモデルを使って,再び分離行列を推定する,という処理を反復しています.
- ILRMAのアルゴリズムはこのスライドの3行目から8行目の計算の反復です.
3行目と4行目で低ランクモデルの更新,5~8行目で分離行列の更新をしています.
- こちらが,スペクトログラム無矛盾性を毎回の反復で担保する提案手法のアルゴリズムです.
赤色の行が従来のILRMAに追加された処理です.
3行目で,分離信号を逆STFTしてSTFTすることで,無矛盾なスペクトログラムに変換しています.
さらに,10から12行目で分離信号の周波数毎の大きさの任意性を解消する処理を適用しており,これも新規性のある個所なのですが,詳しい説明は割愛します.
- これは従来手法と提案手法の違いのイメージを表した図です.
橙色の矢印は提案手法における反復毎の無矛盾なスペクトログラムへの射影を表しており,青色の矢印は従来手法の反復最適化処理を表しています.
この反復毎の射影によって,提案手法は真の分離信号Sに常に近づきながら音源分離を進めることができます.
- それでは実験について説明します.
この表は実験条件を示したものです.
本実験では,2つのマイクで2つの音源の混合を観測した状況でのBSSを行います.
観測信号は2つの楽器音又は2つの音声信号の混合になります.
ILRMAの反復回数は100回とし,提案手法は毎回スペクトログラム無矛盾性を担保しています.
またSTFTの窓長をいろいろと変えて比較しました.
- コチラが音楽信号の分離結果です.
この図の縦軸はSDRと呼ばれる音源分離における精度の指標を表す値です.
STFTの窓長を変化させて4つ示しています.
音楽信号の音源分離では,STFTの窓長が長い場合に提案手法が明らかに従来手法を上回っていることが確認できます.
- こちらは音声信号の音源分離の結果です.
音声は音楽信号と異なり,窓長が512msのときに性能が高くなり,そのときに従来手法と提案手法の差も開いています.
このことから,提案手法は従来のILRMAの音源分離が成功する程,改善が得られることが分かります.
- 最後に本研究発表のまとめに移ります.
本研究の概要はILRMAへのスペクトログラム無矛盾性の適用です.
実験結果から,従来手法において音源分離が成功するほど,提案手法の有効性が顕著になることが確認できます.
これは分離が成功した場合,推定スペクトログラムは無矛盾なスペクトログラムに近づくためだと推測できます.
これで発表を終わります.
まとめは時間が無かったら読まない
- 次に,パーミュテーション問題について説明します.
これは,ICAを周波数毎の複素時系列に適用して周波数事に音源分離すると,周波数によって分離信号の音源順序がランダムに変わってしまうという問題です.
この図は横が時間,奥行きが周波数を表していますが,分離結果がこのように音源2,音源1,音源2,音源1,音源1といったふうになってしまいます.
単に周波数毎の複素時系列にICAを適用しただけではこのように,音源分離の後にパーミュテーション問題の解決,つまり音源の並び替えをする必要がありますが,IRLMAでは「分離信号が低ランクな時間周波数構造を持つ」という仮定を導入することによりパーミュテーション問題を回避しています.
- この図は,パーミュテーション問題を起こしたスペクトログラムにスペクトログラム無矛盾性を担保した際に,スペクトログラムにどのような変化が起きているかを表している図です.
左側のスペクトログラムは音楽信号をSTFTして得られたスペクトログラムです.
中央は左側のスペクトログラムに対して,人工的にパーミュテーション問題を起こしたスペクトログラムです.
右側のスペクトログラムは真ん中のスペクトログラムに対し逆STFTをして,再びSTFTをすることにより得られた無矛盾なスペクトログラムです.
この図より,スペクトログラムの周波数方向にパワーが滲み,パーミュテーション問題が緩和していることが確認できます.