SlideShare uma empresa Scribd logo
1 de 19
スペクトログラム無矛盾性に基づく
独立低ランク行列分析
Independent low-rank matrix analysis
based on spectrogram consistency
豊島直(北村研究室)
香川高等専門学校電気情報工学科卒業研究発表会
研究背景
• 音源分離技術
– 複数の音声や楽器音の混合から個々の音源を推定する技術
音源分離
混合信号 分離された音源信号
• 自動採譜の前段処理
• 音声認識の精度向上
• 音声通信の音質向上 等
応用例
2
研究背景
• ブラインド音源分離(blind source separation: BSS)
– 音源位置やマイクロフォン位置が未知の状態での音源分離
– 混合系 の逆行列 を周波数毎に推定
– 既存のBSS
• 独立成分分析(ICA) [Comon, 1994]
• 独立ベクトル分析(IVA) [Kim+, 2007]
• 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 等
音源信号 混合信号 分離信号
混合系 分離系
3
問題と目的
• 解決すべき問題
– 従来のILRMAの分離信号推定時はスペクトログラム無矛盾性
が考慮されていなかった
– スペクトログラム無矛盾性
• 時間波形を時間周波数領域に変換した信号の共起関係の一貫性
• 時間周波数領域での信号処理によって通常失われる性質
– IVAでスペクトログラム無矛盾性を考慮すると性能向上 [Yatabe+, 2020]
• ILRMAでは未確認
• 研究目的
– ILRMAの反復最適化時にスペクトログラム無矛盾性を担保する
新しいアルゴリズムを提案
– スペクトログラム無矛盾性が分離性能の向上に寄与するか
実験的に調査
4
研究背景
• スペクトログラム:時間信号の時間周波数表現
– 音の時間周波数表現
– 短時間フーリエ変換(Short-time Fourier transform: STFT)
5
時間領域
窓関数
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数の要素を持つ行列
周波数
時間
…
フーリエ変換長
シフト長
スペクトログラム無矛盾性
• 無矛盾性の適用によるスペクトログラムの変化
無矛盾なスペクトログラムは
時間と周波数の両方向に滲んでいる(共起している)
STFTの窓関数の乗算やオーバーラップシフトが原因
矛盾 無矛盾
6
提案手法
• スペクトログラム無矛盾性
無矛盾なスペクト
ログラムの集合
時間領域の波形の集合
時間周波数領域の集合
周波数
時間
時間
7
提案手法
• スペクトログラム無矛盾性
STFT
時間領域の波形の集合
時間周波数領域の集合
逆STFT
8
提案手法
• スペクトログラム無矛盾性
時間領域の波形の集合
時間周波数領域の集合
矛盾したスペクトログラム
(共起関係に一貫性がない)
BSS等の何らかの
信号処理
9
提案手法
• スペクトログラム無矛盾性
時間領域の波形の集合
時間周波数領域の集合
射影
逆STFT
10
スペクトログラム無矛盾性
• 無矛盾性の適用によるスペクトログラムの変化
無矛盾なスペクトログラムはSTFTの窓掛けやオーバー
ラップシフトで時間周波数の両方向に滲んでいる
矛盾 無矛盾
11
ILRMA
• ILRMA
– 周波数ビン毎のICA+各音源の時間周波数構造を非負値行列
因子分解で低ランクモデル化
– 周波数毎の分離行列 と低ランク音源モデル を
同時に最適化
12
アルゴリズム
• 従来のILRMAのアルゴリズム
低ランクモデルの
更新
分離行列の更新
13
アルゴリズム
• スペクトログラム無矛盾性を考慮したILRMAの
アルゴリズム
分離信号の周波数毎の
大きさの任意性を解消
(詳細説明は割愛)
矛盾した推定分離スペクトログ
ラム を無矛盾な領域へ射影
14
提案手法
• ILRMAへのスペクトログラム無矛盾性の適用
無矛盾なスペクト
ログラムの集合
時間領域の波形の集合
時間周波数領域の集合
矛盾したスペクト
ログラムの集合
従来手法
提案手法
STFT
15
比較実験
• 実験条件
2m
5.66cm
60 60
JR2インパルス応答(RWCP)
(残響時間: = 470 ms)
音源1 音源2
16
窓関数 ハン窓
窓長 128, 256, 512, 768 ms
シフト長 窓長の1/2
基底数 音楽10,音声2
初期値
単位行列
and 乱数行列
反復回数 100 回
試行回数 乱数シードを変えて5回
実験結果
• 音楽信号の音源分離実験
– STFTの窓長が長い場合提案手法が明らかに従来手法を
上回る
Poor
Good
17
実験結果
• 音声信号の音源分離実験
– STFTの窓長が512 msの場合に提案手法が従来手法を
上回る
Poor
Good
18
まとめ
• 本研究の概要
– ILRMAへのスペクトログラム矛盾性の適用
• 実験結果の考察
– 音源分離が成功する程提案手法の有効性が顕著になることを
確認
– 分離が成功した場合,推定スペクトログラムは無矛盾な
スペクトログラムに近づくためと推測される
19

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
卒論発表
卒論発表卒論発表
卒論発表
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 

Semelhante a スペクトログラム無矛盾性に基づく独立低ランク行列分析

Semelhante a スペクトログラム無矛盾性に基づく独立低ランク行列分析 (7)

時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
 

Mais de Kitamura Laboratory

Mais de Kitamura Laboratory (20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 

スペクトログラム無矛盾性に基づく独立低ランク行列分析

Notas do Editor

  1. 標記のタイトルで北村研究室の豊島が発表します.
  2. まず,研究背景について説明します. 本研究の大枠である音源分離とは,複数の音声や楽器音の混合から個々の音源を推定する技術です. 自動採譜の前段処理や音声認識の精度向上,音声通信の音質向上などに用いられています.
  3. 音源分離でも特に,音源やマイクロフォンの空間的な位置等の事前情報が分からないという条件で,観測された混合音のみから分離信号を推定する技術をブラインド音源分離,BSSといいます. これは,音が空間を伝搬して混ざる過程を行列Aとしたとき,Aの逆行列Wを推定する問題です. 当然,混合行列Aは分からないので,「分離信号が互いに統計的に独立」になるような分離行列Wを推定します. また,音響信号の混合は残響に畳み込みになりますので,実際のBSSでは,時間周波数領域で周波数毎の分離行列Wを推定します. BSSは独立成分分析,ICAを起源とし,その拡張である独立ベクトル分析IVA,及び独立低ランク行列分析ILRMAが最も成功したアルゴリズムです. 本研究は,ILRMAを対象としています.
  4. 従来のILRMAでは,分離行列や音源パラメータの反復最適化計算を行いますが,その最適化の過程で,「スペクトログラム無矛盾性」と呼ばれる性質が考慮されていません. このスペクトログラム無矛盾性とは,時間波形を時間周波数領域に変換した信号の,時間周波数領域上での共起関係の一貫性のことです. 時間周波数領域で何らかの信号処理を適用した場合は,この一貫性が通常失われてしまいます. このスペクトログラム無矛盾性を,古いBSSであるIVAで考慮した場合,音源分離性能が向上することが報告されましたが,ILRMAでは未確認でした. そこで,本研究の目的として,ILRMAの反復最適化時にスぺクトログラム無矛盾性を担保する新しいアルゴリズムを提案し,分離性能の向上に寄与するかを実験的に調査します.
  5. それでは,スペクトログラムについて説明します. スペクトログラムとは,1次元の時間信号を,時間と周波数の2次元領域で表現したものです. 時間波形に対して,このように短時間区間に分割しその一つ一つに窓関数を掛けて離散フーリエ変換することで,横軸時間,縦軸周波数の行列ができます. この行列Xをスペクトログラムと呼び,この変換を短時間フーリエ変換,通称STFTと呼びます.
  6. 本研究で重要となる,スペクトログラムの矛盾・無矛盾について説明します. いま,左側のスペクトログラムは矛盾,右側のスペクトログラムは無矛盾な状態です.黄色い場所ほどパワーが強いことを表しています. 左側のスペクトログラムは人工的に作成したものであり,中央のある時間周波数グリッド1つにだけ強いパワーを持たせています. このスペクトログラムは実は矛盾しており,これに直接対応する時間波形は存在しません. この矛盾スペクトログラムを一度逆STFTして時間領域に戻し,再びSTFTして得られたスペクトログラムが右側です. 実はこの右側は,矛盾のない,即ち無矛盾なスペクトログラムです. 図からわかる通り,パワーの強い時間周波数グリッドの上下左右の近傍も,ある程度の大きさのパワーがあり,パワーが連動・共起していることが分かります. この共起関係が,一貫してすべてのグリッドで保たれているスペクトログラムが,「無矛盾なスペクトログラム」です.
  7. このスペクトログラムの矛盾と無矛盾について,集合を用いて説明します. まず,時間領域の波形の集合と時間周波数領域の集合を定義します. 時間領域の音の波形は,この赤線で描いた集合の要素です. 時間周波数領域のスペクトログラムはこの青線で描いた集合の要素です. 重要なのは時間周波数領域の集合は時間領域より次元が高いことです. この時間周波数領域の中で,無矛盾なスペクトログラムの集合は,三次元空間中の平面のように一部だけの集合となります.
  8. いま,ある時間波形sをSTFTすると,時間周波数領域の無矛盾なスペクトログラムに射影されます. このスペクトログラムSは無矛盾なので,直接対応する時間波形が小文字のsとして存在します. もちろん,Sを逆STFTすると元の時間波形sに戻ります.
  9. 時間周波数領域の無矛盾なスペクトログラムSに対して,音源分離等の何らかの信号処理を加えると,先ほどの一貫した共起関係は崩れてしまい,矛盾したスペクトログラムS’となります. S’には「直接対応する時間波形」が存在しません.
  10. この矛盾したスペクトログラムS’を逆STFTすると,S’は一番近い無矛盾なスペクトログラムS’’に射影された上で,S’’の時間波形s’’へと変換されます.
  11. なので,先ほどお見せしたように,スペクトログラムを逆STFTして時間領域に戻し,もう一度STFTして時間周波数領域に戻ってくるだけで,どんな矛盾したスペクトログラムも無矛盾なスペクトログラムに変換できます. 以上がスペクトログラムの無矛盾性に関する説明です.
  12. 本研究が対象とする音源分離アルゴリズムであるILRMAについて簡単に説明します. ILRMAとは,観測信号から周波数毎の分離行列Wを推定するBSSアルゴリズムです. このとき,分離信号が互いに独立になることに加えて,各分離信号の時間周波数構造が低ランク行列でモデル化されます. この低ランク行列によるモデル化によって,音源分離が促進されます. そのモデルを使って,再び分離行列を推定する,という処理を反復しています.
  13. ILRMAのアルゴリズムはこのスライドの3行目から8行目の計算の反復です. 3行目と4行目で低ランクモデルの更新,5~8行目で分離行列の更新をしています.
  14. こちらが,スペクトログラム無矛盾性を毎回の反復で担保する提案手法のアルゴリズムです. 赤色の行が従来のILRMAに追加された処理です. 3行目で,分離信号を逆STFTしてSTFTすることで,無矛盾なスペクトログラムに変換しています. さらに,10から12行目で分離信号の周波数毎の大きさの任意性を解消する処理を適用しており,これも新規性のある個所なのですが,詳しい説明は割愛します.
  15. これは従来手法と提案手法の違いのイメージを表した図です. 橙色の矢印は提案手法における反復毎の無矛盾なスペクトログラムへの射影を表しており,青色の矢印は従来手法の反復最適化処理を表しています. この反復毎の射影によって,提案手法は真の分離信号Sに常に近づきながら音源分離を進めることができます.
  16. それでは実験について説明します. この表は実験条件を示したものです. 本実験では,2つのマイクで2つの音源の混合を観測した状況でのBSSを行います. 観測信号は2つの楽器音又は2つの音声信号の混合になります. ILRMAの反復回数は100回とし,提案手法は毎回スペクトログラム無矛盾性を担保しています. またSTFTの窓長をいろいろと変えて比較しました.
  17. コチラが音楽信号の分離結果です. この図の縦軸はSDRと呼ばれる音源分離における精度の指標を表す値です. STFTの窓長を変化させて4つ示しています. 音楽信号の音源分離では,STFTの窓長が長い場合に提案手法が明らかに従来手法を上回っていることが確認できます.
  18. こちらは音声信号の音源分離の結果です. 音声は音楽信号と異なり,窓長が512msのときに性能が高くなり,そのときに従来手法と提案手法の差も開いています. このことから,提案手法は従来のILRMAの音源分離が成功する程,改善が得られることが分かります.
  19. 最後に本研究発表のまとめに移ります. 本研究の概要はILRMAへのスペクトログラム無矛盾性の適用です. 実験結果から,従来手法において音源分離が成功するほど,提案手法の有効性が顕著になることが確認できます. これは分離が成功した場合,推定スペクトログラムは無矛盾なスペクトログラムに近づくためだと推測できます. これで発表を終わります. まとめは時間が無かったら読まない
  20. 次に,パーミュテーション問題について説明します. これは,ICAを周波数毎の複素時系列に適用して周波数事に音源分離すると,周波数によって分離信号の音源順序がランダムに変わってしまうという問題です. この図は横が時間,奥行きが周波数を表していますが,分離結果がこのように音源2,音源1,音源2,音源1,音源1といったふうになってしまいます. 単に周波数毎の複素時系列にICAを適用しただけではこのように,音源分離の後にパーミュテーション問題の解決,つまり音源の並び替えをする必要がありますが,IRLMAでは「分離信号が低ランクな時間周波数構造を持つ」という仮定を導入することによりパーミュテーション問題を回避しています.
  21. この図は,パーミュテーション問題を起こしたスペクトログラムにスペクトログラム無矛盾性を担保した際に,スペクトログラムにどのような変化が起きているかを表している図です. 左側のスペクトログラムは音楽信号をSTFTして得られたスペクトログラムです. 中央は左側のスペクトログラムに対して,人工的にパーミュテーション問題を起こしたスペクトログラムです. 右側のスペクトログラムは真ん中のスペクトログラムに対し逆STFTをして,再びSTFTをすることにより得られた無矛盾なスペクトログラムです. この図より,スペクトログラムの周波数方向にパワーが滲み,パーミュテーション問題が緩和していることが確認できます.