Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

論文紹介
“Similarity-and-Independence-Aware Beamformer:
Method for Target Source Extraction using Magnitude
Spectrogram as Reference”
R&D Center Tokyo Laboratory 21
Sony Corporation
Copyright 2020 Sony Corporation
廣江厚夫
INTERSPEECH 2020 論文読み会用スライド（2020/11/20 開催）

2 R&D Center, Tokyo Laboratory 21
自己紹介
氏名: 廣江厚夫（ひろえあつお）
1996年に東京工業大学を修了し、ソニーに入社。
以降、信号処理・音声認識・音声対話等の研究開発に従事する。
2006年 ICA2006 にて、独立成分分析（ICA）のパーミューテーション問題の解消に
ついて発表。（今回の発表とも関連あり）
題名: Solution of permutation problem in frequency domain ICA, using
multivariate probability density functions
2007年 ICA2007 にて、音源分離と残響除去との同時解決について発表。
題名: Blind Vector Deconvolution: Convolutive Mixture Models in Short-Time
Fourier Transform Domain
2009年電子情報通信学会の招待論文で 2006年の発表（IVA 含む）について解説。
題名: パーミュテーション問題のない周波数領域独立成分分析
2014～
2016年
情報通信研究機構（NICT）に出向し、多言語対応（クロスリンガル）音声
対話システムの研究開発に従事。
解説動画: https://www.youtube.com/watch?v=xj1rMEbGICQ
2020年 INTERSPEECH2020 にて、DNN と組み合わせ可能な新規のビームフォーマー
について発表。（今回紹介する論文）
題名: Similarity-and-Independence-Aware Beamformer: Method for Target
Source Extraction using Magnitude Spectrogram as Reference
同じカンファレンスにて、似たアイデアの発表
が他に 2件あり（偶然の一致）:
T. Kim, T. Eltoft, and T. W. Lee
“Independent vector analysis: An extension of
ICA to multivariate components”
Lee, T. Kim, and T. W. Lee
“Complex fastIVA: A robust maximum
likelihood approach of MICA for convolutive
BSS,
彼らは自分の方式に Independent Vector Analysis:
IVA という名称を付けていたため、今では廣江の
方式も含めて IVA と呼ばれている。
教訓: 新しい方式を考案したら、カッコいい名称
を付け、それを積極的に広めましょう！
主な対外発表など

この論文のトピック: 目的音抽出（Target source extraction）
（特に、何らかのヒントやリファレンスを用いる方式）
目的音抽出
（Target Source
Extraction）
リファレンス
(Reference)
目的音（Target）
(source of interest)
妨害音
（Interferences）
観測信号
（Observations）
抽出結果: 目的音の推定結果
（Estimated target source）
音源
（Sources）
混ざった音がマイクで観測される。
どの音源を抽出するか制御するため、目的音に関
する情報をリファレンス（ヒント）として与える。
使い道の例
• ノイズ混じりの音声をマイクで観測し、クリーンな
音声を得る。（本論文の実験はこの類）
• 二人以上の音声発話が重なったときに、所望の一人
の音声だけを取り出す。
目的音に近い音を出力する。
リファレンスを用いる目的音抽出の一般的な課題
• どうやって高精度な抽出結果を生成するか。
（目的音に近いほど高精度）
• リファレンスとしてどのような情報を用いるか。 INTERSPEECH 2020 で
は、目的音抽出について
10件を超える発表があり
ました。詳しくは、この資
料の最後をご参照ください。

提案手法: Similarity-and-Independence-Aware Beamformer (SIBF)
（類似性と独立性とを考慮したビームフォーマー）
Step1:
リファレンスを生成
（例えば DNN 使用）
Step2:
SIBF を適用
入力: 複数マイク分の観測信号
スペクトログラム（複素数）
出力（抽出結果）: 目的音スペク
トログラムの推定結果（複素数）
リファレンス: 目的音のラフな
振幅スペクトログラム（実数）
Input Output
Reference
短時間
フーリエ
変換
所望の音
係数
+
係数
ビームフォーマー（BF）とは？
• マイクごとに異なる係数を乗じてから加算する
ことで、所望の音信号を生成する方式
• 係数のセットをフィルターと呼ぶ。BF の種類に
よって、フィルターを求める式が異なる。
• BF は線形フィルター（係数と加算のみからなる
フィルター）の一種である。
加算
フィルター
SIBF の概略（ワークフロー）

SIBF の概略について補足
なぜ、ビームフォーマー（BF）なのか？
 BF は線形フィルターの一種であり、線形フィルターには以下の利点がある。
1. 非線形な歪みの問題を回避できる。[6, 7]
2. マイクを増やすことで抽出精度の向上が容易。[8, 9]
3. 適切な位相やスケールを推定するのが容易。[10, 11]
なぜ、リファレンスとしてラフな振幅スペクト
ログラムを用いるのか？
 振幅スペクトログラムは様々な方式（DNN を
含む）で生成可能であり、複素スペクトログ
ラムや時間周波数マスクより入手が容易。
「ラフ」とはどういう意味か？
1. 目的音が優勢であるが、妨害音も残っている。
あるいは、妨害音を除去した副作用で、目的
音が歪んでいる。
2. さらに、振幅スペクトログラムなので、位相
の情報を含んでいない。
DNN の出力を SIBF で refine するという使い方を想定している
が、そのためには以下を保証する必要がある。
• SIBF による抽出結果がリファレンスより高精度
（以降、“抽出結果＞リファレンス” と表記する）
本論文は、“抽出結果＞リファレンス” をキーコンセプトと
して構成されている。
理論面: “抽出結果＞リファレンス” を実現するために新
たな枠組みを考案した。
実践面: “抽出結果＞リファレンス” が本当に実現されて
いることを確認するために実験を行なった。

関連研究について
関連研究（線形フィルターを求める方式限定）
種類例備考
リファレンスを用いるデフレーション
型独立成分分析（ICA）[12-15]
One unit ICA-R [13] 入出力とリファレンスとは、共に実数か共に複素数
セミ・ブラインド音源分離 IDLMA [16] 全ての音源についてリファレンスが必要
DNN で生成されたマスクを用いる BF
[17-20]
NN-GEV, NN-MVDR [20] 振幅スペクトログラムの代わりに時間周波数マスク
が必要。
“抽出結果 > リファレンス” の保証がない。
従来技術でも同様のことは実現可能なのでは？
→ 以下の要件をすべて満たす方式は存在しなかった。
1. 入出力は複素数だがリファレンスは実数
2. リファレンスは、目的音のものを1つだけ用意すればよい。
妨害音のリファレンスは不要
3. “抽出結果 > リファレンス” の保証がある。

理論面:
“抽出結果 > リファレンス” を実現す
るために新たな枠組みを考案

SIBF の枠組み
𝑿𝑿1
𝑿𝑿𝑁𝑁
𝒀𝒀1
𝒀𝒀2
𝒀𝒀𝑁𝑁
𝑹𝑹
観測信号
（Observations）
音源の推定結果
（Estimated
sources）
リファレンス
（Reference）
依存
（Dependent）
独立
（Independent）
拡張部分（新規）
𝑼𝑼1
𝑼𝑼𝑁𝑁
無相関化観測信号
（Uncorrelated
observations）
𝑺𝑺2
𝑺𝑺 𝑀𝑀
𝑺𝑺1
目的音
（Target）
妨害音
（Interferences）
音源
（Sources）
混合無相関化 𝒘𝒘2
𝒘𝒘𝑁𝑁
抽出フィルター
（Extraction
filters）
デフレーション型 ICA の枠組み（既存）
Key points:
1. 依存性と独立性との併用
𝒀𝒀1 と 𝑹𝑹 との依存性  𝒀𝒀1 ≈ リファレンス
𝒀𝒀1 ~𝒀𝒀𝑁𝑁 の独立性  𝒀𝒀1 > リファレンス
2. デフレーション型の分離（1音源ずつの分離）
𝒀𝒀1を分離した時点で処理を打ち切ると、目的音の推定結果のみが得られる。
デフレーション＋リファレンス → BF のように振る舞う ICA
𝒘𝒘1
“抽出結果＞リファレンス” を実現するために、デフレーション型独立成分分析（ICA）の枠組み [21 など] を拡張
各音源は互いに独立に発生していると仮定
（＝音源同士は全く似ていない）
依存性はどのように表現すればよいか？
→ 音源モデルとして表現する（次ページ）
×: 全音源を推定してから選択する。
〇: 興味のある1音源しか推定しない。

依存性を表現するための音源モデル
𝒀𝒀1 𝑹𝑹
目的音の推定結果
（複素数）
リファレンス
（実数）
依存
𝑦𝑦1(𝑓𝑓, 𝑡𝑡) 𝑟𝑟(𝑓𝑓, 𝑡𝑡)
Model type 時間周波数可変分散モデル
（Time-frequency-varying variance (TV) model）
二変量球状モデル
（Bivariate spherical (BS) model）
Specific model name TV Gaussian model BS Laplacian model
Joint PDF
𝑝𝑝𝑟𝑟𝑟𝑟1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 , 𝑦𝑦1 𝑓𝑓, 𝑡𝑡
1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2
exp −
𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽
𝛽𝛽: リファレンス冪乗数（Reference exponent）
exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝛼𝛼: リファレンス重み（Reference weight）
Note TV モデルは音源分離で広く使用されているが[16, 23,
24]、依存性を表わすモデルとしてこれを再解釈。
厳密なガウスモデルは β=2 のみだが、あえて変更可
能としている。
平方根の中の変数同士はお互いに依存する。
IVA ではパーミューテーション問題の解消のために
その性質を利用したが[25-28]、今回は目的音の推
定結果とリファレンスとを類似させるために使用。
周波数f
時間 t
論文では、2種類の音源モデルを試している。
ここでいう音源モデルとは？
→ 目的音の推定結果（抽出結果）とリファレンスとの
同時確率を表わす関数密度関数（PDF）
簡単のため、同一の時刻＆周波数のみで依存している
と仮定。また、複素数については振幅のみが依存。

抽出フィルターを求める式
モデル名 TV Gaussian model BS Laplacian model
アルゴリズム閉形式の解補助関数法[29] による反復アルゴリズム
抽出フィルター
を求める式 𝒘𝒘1 𝑓𝑓 ← EIG
𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝑡𝑡
H
𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝒘𝒘1 𝑓𝑓 𝒖𝒖 𝑓𝑓, 𝑡𝑡 2
𝒘𝒘1 𝑓𝑓 ← EIG
𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H
𝑏𝑏 𝑓𝑓, 𝑡𝑡 𝑡𝑡
H
𝒘𝒘1 𝑓𝑓 周波数 𝑓𝑓 の抽出フィルター（行ベクトル）
EIG 𝑨𝑨 行列 𝑨𝑨 の最小固有値に対応した固有ベクトル（列ベクトル）
� 𝑡𝑡 時間 t での平均操作
𝒖𝒖 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における無相関化観測信号
𝑟𝑟 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 におけるリファレンス
𝑏𝑏 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における補助変数
最尤推定およびデフレーション型分離を利用すると、
目的音の推定結果である 𝒀𝒀1 のみを生成するフィルター
𝒘𝒘1 の式を導出可能。
𝒀𝒀1 𝑹𝑹
目的音の
推定結果
（抽出結果）
リファレンス
依存
𝑼𝑼1
𝑼𝑼𝑁𝑁
無相関化
観測信号
𝒘𝒘1
フィルター
初回のみ
𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝑟𝑟 𝑓𝑓, 𝑡𝑡

実践面:
“抽出結果 > リファレンス” が本当に
実現されているか、実験で確認

CHiME3/4 データセット [30] を用いた評価系
STFT SIBF Scaling ISTFT
DNN ISTFTSTFT
SIBF の評価
（提案法）
リファレンス
の評価
観測信号
の評価
全マイク
マイク#5
（話者位
置に最も
近い）
リファレンス
スケール調整
の参照信号
位相
タブレット端末に装着された6個のマイク
振幅

使用した DNN について解説
BLSTM GEV BF [19] の学習系を改造. （元の学習系は CHiME4 音声強調ベースライン [1] に含まれている）
Input
Mag. Spec.
BLSTM with
Batch Norm.
Affine &
Batch Norm.
& ReLu
Affine &
Batch Norm.
& sigmoid
Output
Mag. Spec.
513 dim.
513 dim.
513 dim.
256 dim.
Elementwise
product
Input
Mag. Spec.
BLSTM with
Batch Norm.
Affine &
Batch Norm.
& ReLu
Affine &
Batch Norm.
& sigmoid
Speech
Mask
513 dim.
513 dim.
256 dim.
Noise
Mask
513 dim. 513 dim.
Noisy
Speech
Cleaner
Speech
改造前: DNN は音声マスク・雑音マスクを
出力 (for Mask-based GEV BF)
改造後: DNN は振幅スペクトログラム
を出力（リファレンスとして使用）
Noisy
Speech
Ideal
Speech
Mask
Ideal
Noise
Mask
Mag. Spec. of
Clean Speech
Supervisory data Supervisory data
Cross
entropy
loss
Mean
square
error loss

実験1: ベストなパラメーターを求めるためのチューニング
評価尺度:
Perceptual evaluation of speech quality (PESQ)
チューニング用データセット:
CHiME3/4 開発用に含まれる以下のデータの混合
• 収録ブースで録音されたクリーン音声（BTH）
• 実環境の背景雑音（BG）
シナリオ名 BG の倍率平均SNR
[dB]
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟐𝟐𝟐𝟐 0.25 14.05
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟓𝟓 0.5 8.03
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟏𝟏. 𝟎𝟎 1.0 2.03
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟐𝟐. 𝟎𝟎 2.0 -3.93
BTH: 410 発話 × 4 話者 (0.72 時間)
BG: バス車内・カフェテリア・歩
行者デッキ・交差点
混合比別に 4 つのシナリオ BTH
BG ×
+ データセット
倍率
(0.25 / 0.5 / 1.0 / 2.0)

実験1の結果: 音源モデルごとのベストなパラメーター
モデル名 TV Gaussian model BS Laplacian model
モデルの式および
パラメーター
1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2
exp −
𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽
𝛽𝛽: Reference exponent
𝛼𝛼: Reference weight
および反復回数
採用したパラメーター
（採用の理由）
𝛽𝛽 = 8
（0.125 ≤ 𝛽𝛽 ≤ 32 の中でベストな値）
𝛼𝛼 = 100 ＆反復10回
（全シナリオで安定した改善傾向）
1.8
1.9
2
2.1
2.2
1 2 5 10
PESQ
Iteration
BTH + BG x 2.0 (-3.93 [dB])
α=0.01
α=1
α=100
α=10^4
Reference
TV Gauss3.1
3.2
3.3
3.4
3.5
3.6
1 2 5 10
PESQ
Iteration
BTH + BG x 0.25 (14.05 [dB])
3.1
3.2
3.3
3.4
3.5
3.6
PESQ
Reference exponent
BTH + BG x 0.25 (14.05 [dB])
TV Gauss
Reference

実験2: ベストなパラメーターを用いた各種評価
データセットチューニング用データセットに加え、
CHiME3 simulated evaluation set (Eval)
評価尺度 PESQ に加え、Signal-to-distortion ratio (SDR)
評価対象の方式または
信号
NN-SIBF
Oracle SIBF
リファレンス（DNN の出力）
観測信号（マイク#5）
BLSTM GEV (CHiME4 SE baseline [1] に同梱)
BLSTM MVDR [17]
NN-SIBF: リファレンスは DNN の出力
（実験1 と同様）
Oracle SIBF: リファレンスは混合前の
クリーン音声（理想的なリファレ
ンスを用いたときの最高性能を見
積もることができる）
実験の設定
DNN ベースの BF であり、DNN の
学習データは本論文と同じ。

実験2 の結果
方式名音源モデル PESQ SDR [dB]
BTH+BG
× 0.25
BTH+BG
× 0.5
BTH+BG
× 1.0
BTH+BG
× 2.0
Eval BTH+BG
× 0.25
BTH+BG
× 0.5
BTH+BG
× 1.0
BTH+BG
× 2.0
Eval
NN-SIBF
（提案法）
TV Gaussian 3.52 3.12 2.63 2.08 2.67 18.84 14.45 8.45 1.32 15.25
BS Laplacian 3.53 3.13 2.66 2.11 2.68 19.30 14.74 8.78 1.55 15.85
Oracle SIBF TV Gaussian 3.58 3.21 2.80 2.39 2.75 20.62 17.03 12.25 6.54 17.99
BS Laplacian 3.58 3.21 2.80 2.39 2.75 20.45 17.05 12.33 6.59 18.00
リファレンス（DNN 出力） 3.14 2.83 2.43 1.91 2.61 18.48 13.89 8.70 2.34 13.61
観測信号（マイク#5） 2.93 2.51 2.10 1.72 2.18 14.05 8.03 2.03 -3.93 7.54
BLSTM GEV [1] 2.46 2.92
BLSTM MVDR [17] 2.29 15.12
NN-SIBF vs. リファレンスほとんどのシナリオで NN-SIBF > リファレンス
NN-SIBF の音源モデル BS Laplacian > TV Gaussian. （反復のため）
Oracle SIBF vs. NN-SIBF Oracle SIBF > NN-SIBF （ 考察へ）
NN-SIBF vs.
BLSTM GEV & BLSTM MVDR
NN-SIBF > BLSTM GEV and
NN-SIBF > BLSTM MVDR.
“抽出結果 > リファレンス”
が実現
各シナリオにおいて、ベストの評価値を太字で表記
（ただし、Oracle SIBF は対象外）

デモ（BTH + BG x 1.0 scenario, 背景雑音はカフェテリア）
PESQ: 2.66
SDR: 8.78 [dB]
PESQ: 2.43
SDR: 8.70 [dB]
PESQ: 2.10
SDR: 2.03 [dB]
STFT SIBF Scaling ISTFT
DNN ISTFTSTFT
SIBF の評価
（提案法）
リファレンス
の評価
観測信号
の評価
全マイク
マイク#5
（話者位
置に最も
近い）
スケール調整
の参照信号
位相
振幅
タブレット端末に装着された6個のマイク
リファレンス

考察（1/3）
依存性と独立性の両方を利用する効果はあったのか？
 効果あり。ほぼ全てのシナリオで “NN-SIBF > リファレンス” であったたため、
これは検証されたと考える。
𝒀𝒀1
𝒀𝒀2
𝒀𝒀𝑁𝑁
𝑹𝑹
音源の
推定結果
リファレンス
依存（類似）
独立
（全く似ていない）
SIBF による
抽出結果
依存性を利用  抽出結果 ≈ リファレンス
独立性を利用  抽出結果 > リファレンス
（𝒀𝒀2～𝒀𝒀𝑁𝑁 は仮想的であり、実際には生成されない。）

考察（2/3）
リファレンスが高精度になるほど抽出の精度も向上するのか？
 その通り。全てのシナリオで “Oracle SIBF > NN SIBF” であることがその根拠。
では、リファレンスの精度が低い場合は何が起こる？
 一般的には、SIBF による改善度合いが低くなる。
（BTH + BG x 2.0 scenario (-3.93 [dB]) で改善度合いが低い原因）
1.8
1.9
2
2.1
2.2
1 2 5 10
PESQ
Iteration
BTH + BG x 2.0 (-3.93 [dB])
α=0.01
α=1
α=100
α=10^4
Reference
TV Gauss
 しかし、BS Laplacian model を使用し、さらにリファ
レンス重み 𝜶𝜶 を適切に設定すると、反復によって改
善することができる。
（ただし、シナリオごとに適切な 𝛼𝛼 を決める方法は
未確立であり、今後の改題）
実験1 のグラフの再掲

考察（3/3）
SIBF において、抽出の精度を向上させるにはどうすればよいか？
 少なくとも 2つの選択肢がある:
1. リファレンスの精度を向上させる。
例: 最先端の音声強調用 DNN を用いてリファレンスを生成する。
（SIBF は、DNN の出力を容易に refine する手段として利用できる。）
2. 音源モデルを工夫する。
• 今回提案している音源モデルを改良する。
例: 適切なパラメーターを自動で見つける方法を確立する。
• ブラインド音源分離の分野で提案されている他の音源モデルを試す。
= Future works.

まとめ
• リファレンスを使用する目的音抽出の新手法として、Similarity-and-Independence-Aware Beamformer
（SIBF）を提案。
• “抽出結果 > リファレンス” を実現するために、デフレーション型の独立成分分析（ICA）を拡張した新
たな枠組みを考案。
A) 独立性だけでなく、リファレンスとの依存性も考慮する。
B) 独立性を表現するため、TV Gaussian & BS Laplacian という2つの音源モデルを考案。
C) 抽出用のフィルターを求める式を導出
• CHiME3/4 データセット用いた実験により、 “抽出結果 > リファレンス” が実現できていることを確認。
SIBFICA BF
締めの言葉: SIBF は ICA と BF の分野に跨っており、この発表によって両方の分野の
研究が一層活発になることを期待する。

参考: 各図における入出力データの対応関係
各図において、同じ意味のデータを同じ色で表現し、対応関係を明確にしてみました。
リファレンス使用の目的音抽出（一般的な解説） SIBF の概略（ワークフロー）
SIBF の枠組み実験評価系

参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文（1/2）
Targeted Source Separation というセッションにおいて集中的に発表されていました。
Mon-3-11-1 SpEx+: A Complete Time Domain Speaker Extraction Network
Mon-3-11-2 Atss-Net: Target Speaker Separation via Attention-based Neural Network
Mon-3-11-3 Multimodal Target Speech Separation with Voice and Face References
Mon-3-11-4 X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network
Mon-3-11-5 Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
Mon-3-11-6 A Uniﬁed Framework for Low-Latency Speaker Extraction in Cocktail Party Environments
Mon-3-11-7 Time-Domain Target-Speaker Speech Separation With Waveform-Based Speaker Embedding
Mon-3-11-8 Listen to What You Want: Neural Network-based Universal Sound Selector
Mon-3-11-9 Crossmodal Sound Retrieval based on Specific Target Co-occurrence Denoted with Weak Labels
Mon-3-11-10 Speaker-Aware Monaural Speech Separation

参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文（2/2）
他のセッションでも目的音抽出の発表がありました。
Mon-1-2-2 Neural Spatio-Temporal Beamformer for Target Speech Separation
Wed-2-5-4 VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition
Wed-3-8-2 Microphone Array Post-filter for Target Speech Enhancement Without a Prior Information of Point
Interferers
Wed-3-8-3 Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude
Spectrogram as Reference（今回紹介した自分の発表）

参考文献（1/2）
[1] S. J. Chen, A. S. Subramanian, H. Xu, and S. Watanabe, “Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline,”
Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2018-Septe, pp. 1571–1575, 2018.
[2] J. Du, Q. Wang, T. Gao, Y. Xu, L. Dai, and C. H. Lee, “Robust speech recognition with speech enhanced deep neural networks,” in Proceedings of the Annual Conference of the International
Speech Communication Association, INTERSPEECH, 2014.
[3] D. Liu, P. Smaragdis, and M. Kim, “Experiments on deep learning for speech denoising,” in Proceedings of the Annual Conference of the International Speech Communication Association,
INTERSPEECH, 2014.
[4] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP, IEEE International Conference
on Acoustics, Speech and Signal Processing - Proceedings, 2018.
[5] Q. Wang et al., “VoiceFilter: Targeted voice separation by speaker-conditioned spectrogram masking,” in Proceedings of the Annual Conference of the International Speech Communication
Association, INTERSPEECH, 2019.
[6] M. Mizumachi and M. Origuchi, “Advanced delay-and-sum beamformer with deep neural network,” 22nd Int. Congr. Acoust., 2016.
[7] M. Mizumachi, “Neural Network-based Broadband Beamformer with Less Distortion,” no. September, pp. 2760–2764, 2019.
[8] E. Vincent, S. Watanabe, A. A. Nugraha, J. Barker, and R. Marxer, “An analysis of environment, microphone and data simulation mismatches in robust speech recognition,” Comput. Speech
Lang., vol. 46, pp. 535–557, 2017.
[9] L. Wang, J. D. Reiss, and A. Cavallaro, “Over-Determined Source Separation and Localization Using Distributed Microphones,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9,
pp. 1569–1584, 2016.
[10] N. Murata, S. Ikeda, and A. Ziehe, “An approach to blind source separation based on temporal structure of speech signals,” Neurocomputing, 2001.
[11] K. Matsuoka, “Minimal distortion principle for blind source separation,” no. September 2002, pp. 2138–2143, 2003.
[12] J. X. Mi, “A novel algorithm for independent component analysis with reference and methods for its applications,” PLoS One, vol. 9, no. 5, 2014.
[13] Q. H. Lin, Y. R. Zheng, F. L. Yin, H. Liang, and V. D. Calhoun, “A fast algorithm for one-unit ICA-R,” Inf. Sci. (Ny)., 2007.
[14] M. Castella, S. Rhioui, E. Moreau, and J. C. Pesquet, “Quadratic higher order criteria for iterative blind separation of a MIMO convolutive mixture of sources,” IEEE Trans. Signal Process., vol.
55, no. 1, pp. 218–232, 2007.
[15] L. Gao, N. Zheng, Y. Tian, and J. Zhang, “Target signal extraction method based on enhanced ica with reference,” Math. Probl. Eng., vol. 2019, 2019.
[16] N. Makishima et al., “Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 27, no. 10, pp. 1601–1615,
2019.
[17] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, and J. Le Roux, “Improved MVDR beamforming using single-channel mask prediction networks,” Proc. Annu. Conf. Int. Speech Commun.
Assoc. INTERSPEECH, vol. 08-12-Sept, pp. 1981–1985, 2016.
[18] Y. Kubo, T. Nakatani, M. Delcroix, K. Kinoshita, and S. Araki, “Mask-based MVDR Beamformer for Noisy Multisource Environments: Introduction of Time-varying Spatial Covariance Model,”
ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2019-May, pp. 6855–6859, 2019.
[19] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol.
2016-May, pp. 196–200, 2016.
[20] J. Heymann, L. Drude, A. Chinaev, and R. Haeb-Umbach, “BLSTM supported GEV beamformer front-end for the 3RD CHiME challenge,” 2015 IEEE Work. Autom. Speech Recognit.
Understanding, ASRU 2015 - Proc., no. June 2016, pp. 444–451, 2016.

参考文献（2/2）
[21] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Minimization of Mutual Information,” in Independent Component Analysis, 2003.
[22] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Maximum Likelihood Estimation,” in Independent Component Analysis, 2003.
[23] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,”
IEEE/ACM Trans. Audio Speech Lang. Process., 2016.
[24] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1652–1664,
2016.
[25] A. Hiroe, “Solution of permutation problem in frequency domain ica, using multivariate probability density functions,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell.
Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 601–608, 2006.
[26] T. Kim, T. Eltoft, and T. W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 3889 LNCS, no. 1, pp. 165–172, 2006.
[27] I. Lee, T. Kim, and T. W. Lee, “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 3889 LNCS, pp. 625–632, 2006.
[28] T. Kim, H. T. Attias, S. Y. Lee, and T. W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech Lang. Process., vol. 15, no. 1, pp. 70–79,
2007.
[29] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 2, no. 9, pp. 189–192,
2011.
[30] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, “The third ‘CHiME’ speech separation and recognition challenge: Dataset, task and baselines,” in 2015 IEEE Workshop on Automatic
Speech Recognition and Understanding, ASRU 2015 - Proceedings, 2016.

SONY is a registered trademark of Sony Corporation.
Names of Sony products and services are the registered trademarks and/or trademarks of Sony Corporation or its Group companies.
Other company names and product names are registered trademarks and/or trademarks of the respective companies.

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

Semelhante a Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference" (18)

Último

Último (12)

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"