SlideShare uma empresa Scribd logo
1 de 28
論文紹介
“Similarity-and-Independence-Aware Beamformer:
Method for Target Source Extraction using Magnitude
Spectrogram as Reference”
R&D Center Tokyo Laboratory 21
Sony Corporation
Copyright 2020 Sony Corporation
廣江 厚夫
INTERSPEECH 2020 論文読み会用スライド(2020/11/20 開催)
2 R&D Center, Tokyo Laboratory 21
自己紹介
氏名: 廣江 厚夫(ひろえ あつお)
1996年に東京工業大学を修了し、ソニーに入社。
以降、信号処理・音声認識・音声対話等の研究開発に従事する。
2006年 ICA2006 にて、独立成分分析(ICA)のパーミューテーション問題の解消に
ついて発表。(今回の発表とも関連あり)
題名: Solution of permutation problem in frequency domain ICA, using
multivariate probability density functions
2007年 ICA2007 にて、音源分離と残響除去との同時解決について発表。
題名: Blind Vector Deconvolution: Convolutive Mixture Models in Short-Time
Fourier Transform Domain
2009年 電子情報通信学会の招待論文で 2006年の発表(IVA 含む)について解説。
題名: パーミュテーション問題のない周波数領域独立成分分析
2014~
2016年
情報通信研究機構(NICT)に出向し、多言語対応(クロスリンガル)音声
対話システムの研究開発に従事。
解説動画: https://www.youtube.com/watch?v=xj1rMEbGICQ
2020年 INTERSPEECH2020 にて、DNN と組み合わせ可能な新規のビームフォーマー
について発表。(今回紹介する論文)
題名: Similarity-and-Independence-Aware Beamformer: Method for Target
Source Extraction using Magnitude Spectrogram as Reference
同じカンファレンスにて、似たアイデアの発表
が他に 2件あり(偶然の一致):
T. Kim, T. Eltoft, and T. W. Lee
“Independent vector analysis: An extension of
ICA to multivariate components”
Lee, T. Kim, and T. W. Lee
“Complex fastIVA: A robust maximum
likelihood approach of MICA for convolutive
BSS,
彼らは自分の方式に Independent Vector Analysis:
IVA という名称を付けていたため、今では廣江の
方式も含めて IVA と呼ばれている。
教訓: 新しい方式を考案したら、カッコいい名称
を付け、それを積極的に広めましょう!
主な対外発表など
3 R&D Center, Tokyo Laboratory 21
この論文のトピック: 目的音抽出(Target source extraction)
(特に、何らかのヒントやリファレンスを用いる方式)
目的音抽出
(Target Source
Extraction)
リファレンス
(Reference)
目的音(Target)
(source of interest)
妨害音
(Interferences)
観測信号
(Observations)
抽出結果: 目的音の推定結果
(Estimated target source)
音源
(Sources)
混ざった音がマイクで観測される。
どの音源を抽出するか制御するため、目的音に関
する情報をリファレンス(ヒント)として与える。
使い道の例
• ノイズ混じりの音声をマイクで観測し、クリーンな
音声を得る。(本論文の実験はこの類)
• 二人以上の音声発話が重なったときに、所望の一人
の音声だけを取り出す。
目的音に近い音を出力する。
リファレンスを用いる目的音抽出の一般的な課題
• どうやって高精度な抽出結果を生成するか。
(目的音に近いほど高精度)
• リファレンスとしてどのような情報を用いるか。 INTERSPEECH 2020 で
は、目的音抽出について
10件を超える発表があり
ました。詳しくは、この資
料の最後をご参照ください。
4 R&D Center, Tokyo Laboratory 21
提案手法: Similarity-and-Independence-Aware Beamformer (SIBF)
(類似性と独立性とを考慮したビームフォーマー)
Step1:
リファレンスを生成
(例えば DNN 使用)
Step2:
SIBF を適用
入力: 複数マイク分の観測信号
スペクトログラム(複素数)
出力(抽出結果): 目的音スペク
トログラムの推定結果(複素数)
リファレンス: 目的音のラフな
振幅スペクトログラム(実数)
Input Output
Reference
短時間
フーリエ
変換
所望の音
係数
+
係数
ビームフォーマー(BF)とは?
• マイクごとに異なる係数を乗じてから加算する
ことで、所望の音信号を生成する方式
• 係数のセットをフィルターと呼ぶ。BF の種類に
よって、フィルターを求める式が異なる。
• BF は線形フィルター(係数と加算のみからなる
フィルター)の一種である。
加算
フィルター
SIBF の概略(ワークフロー)
5 R&D Center, Tokyo Laboratory 21
SIBF の概略について補足
なぜ、ビームフォーマー(BF)なのか?
 BF は線形フィルターの一種であり、線形フィルターには以下の利点がある。
1. 非線形な歪みの問題を回避できる。[6, 7]
2. マイクを増やすことで抽出精度の向上が容易。[8, 9]
3. 適切な位相やスケールを推定するのが容易。[10, 11]
なぜ、リファレンスとしてラフな振幅スペクト
ログラムを用いるのか?
 振幅スペクトログラムは様々な方式(DNN を
含む)で生成可能であり、複素スペクトログ
ラムや時間周波数マスクより入手が容易。
「ラフ」とはどういう意味か?
1. 目的音が優勢であるが、妨害音も残っている。
あるいは、妨害音を除去した副作用で、目的
音が歪んでいる。
2. さらに、振幅スペクトログラムなので、位相
の情報を含んでいない。
DNN の出力を SIBF で refine するという使い方を想定している
が、そのためには以下を保証する必要がある。
• SIBF による抽出結果がリファレンスより高精度
(以降、“抽出結果 > リファレンス” と表記する)
本論文は、“抽出結果 > リファレンス” をキーコンセプトと
して構成されている。
理論面: “抽出結果 > リファレンス” を実現するために新
たな枠組みを考案した。
実践面: “抽出結果 > リファレンス” が本当に実現されて
いることを確認するために実験を行なった。
6 R&D Center, Tokyo Laboratory 21
関連研究について
関連研究(線形フィルターを求める方式限定)
種類 例 備考
リファレンスを用いるデフレーション
型独立成分分析(ICA)[12-15]
One unit ICA-R [13] 入出力とリファレンスとは、共に実数か共に複素数
セミ・ブラインド音源分離 IDLMA [16] 全ての音源についてリファレンスが必要
DNN で生成されたマスクを用いる BF
[17-20]
NN-GEV, NN-MVDR [20] 振幅スペクトログラムの代わりに時間周波数マスク
が必要。
“抽出結果 > リファレンス” の保証がない。
従来技術でも同様のことは実現可能なのでは?
→ 以下の要件をすべて満たす方式は存在しなかった。
1. 入出力は複素数だがリファレンスは実数
2. リファレンスは、目的音のものを1つだけ用意すればよい。
妨害音のリファレンスは不要
3. “抽出結果 > リファレンス” の保証がある。
7 R&D Center, Tokyo Laboratory 21
理論面:
“抽出結果 > リファレンス” を実現す
るために新たな枠組みを考案
8 R&D Center, Tokyo Laboratory 21
SIBF の枠組み
𝑿𝑿1
𝑿𝑿𝑁𝑁
𝒀𝒀1
𝒀𝒀2
𝒀𝒀𝑁𝑁
𝑹𝑹
観測信号
(Observations)
音源の推定結果
(Estimated
sources)
リファレンス
(Reference)
依存
(Dependent)
独立
(Independent)
拡張部分(新規)
𝑼𝑼1
𝑼𝑼𝑁𝑁
無相関化観測信号
(Uncorrelated
observations)
𝑺𝑺2
𝑺𝑺 𝑀𝑀
𝑺𝑺1
目的音
(Target)
妨害音
(Interferences)
音源
(Sources)
混合 無相関化 𝒘𝒘2
𝒘𝒘𝑁𝑁
抽出フィルター
(Extraction
filters)
デフレーション型 ICA の枠組み(既存)
Key points:
1. 依存性と独立性との併用
𝒀𝒀1 と 𝑹𝑹 との依存性  𝒀𝒀1 ≈ リファレンス
𝒀𝒀1 ~𝒀𝒀𝑁𝑁 の独立性  𝒀𝒀1 > リファレンス
2. デフレーション型の分離(1音源ずつの分離)
𝒀𝒀1を分離した時点で処理を打ち切ると、目的音の推定結果のみが得られる。
デフレーション+リファレンス → BF のように振る舞う ICA
𝒘𝒘1
“抽出結果 > リファレンス” を実現するために、デフレーション型独立成分分析(ICA)の枠組み [21 など] を拡張
各音源は互いに独立に発生していると仮定
(=音源同士は全く似ていない)
依存性はどのように表現すればよいか?
→ 音源モデルとして表現する(次ページ)
×: 全音源を推定してから選択する。
〇: 興味のある1音源しか推定しない。
9 R&D Center, Tokyo Laboratory 21
依存性を表現するための音源モデル
𝒀𝒀1 𝑹𝑹
目的音の推定結果
(複素数)
リファレンス
(実数)
依存
𝑦𝑦1(𝑓𝑓, 𝑡𝑡) 𝑟𝑟(𝑓𝑓, 𝑡𝑡)
Model type 時間 周波数 可変分散モデル
(Time-frequency-varying variance (TV) model)
二変量 球状モデル
(Bivariate spherical (BS) model)
Specific model name TV Gaussian model BS Laplacian model
Joint PDF
𝑝𝑝𝑟𝑟𝑟𝑟1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 , 𝑦𝑦1 𝑓𝑓, 𝑡𝑡
1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2
exp −
𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽
𝛽𝛽: リファレンス冪乗数(Reference exponent)
exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝛼𝛼: リファレンス重み(Reference weight)
Note TV モデルは音源分離で広く使用されているが[16, 23,
24]、依存性を表わすモデルとしてこれを再解釈。
厳密なガウスモデルは β=2 のみだが、あえて変更可
能としている。
平方根の中の変数同士はお互いに依存する。
IVA ではパーミューテーション問題の解消のために
その性質を利用したが[25-28]、今回は目的音の推
定結果とリファレンスとを類似させるために使用。
周波数f
時間 t
論文では、2種類の音源モデルを試している。
ここでいう音源モデルとは?
→ 目的音の推定結果(抽出結果)とリファレンスとの
同時確率を表わす関数密度関数(PDF)
簡単のため、同一の時刻&周波数のみで依存している
と仮定。また、複素数については振幅のみが依存。
10 R&D Center, Tokyo Laboratory 21
抽出フィルターを求める式
モデル名 TV Gaussian model BS Laplacian model
アルゴリズム 閉形式の解 補助関数法[29] による反復アルゴリズム
抽出フィルター
を求める式 𝒘𝒘1 𝑓𝑓 ← EIG
𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝑡𝑡
H
𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝒘𝒘1 𝑓𝑓 𝒖𝒖 𝑓𝑓, 𝑡𝑡 2
𝒘𝒘1 𝑓𝑓 ← EIG
𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H
𝑏𝑏 𝑓𝑓, 𝑡𝑡 𝑡𝑡
H
𝒘𝒘1 𝑓𝑓 周波数 𝑓𝑓 の抽出フィルター(行ベクトル)
EIG 𝑨𝑨 行列 𝑨𝑨 の最小固有値に対応した固有ベクトル(列ベクトル)
� 𝑡𝑡 時間 t での平均操作
𝒖𝒖 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における無相関化観測信号
𝑟𝑟 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 におけるリファレンス
𝑏𝑏 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における補助変数
最尤推定およびデフレーション型分離を利用すると、
目的音の推定結果である 𝒀𝒀1 のみを生成するフィルター
𝒘𝒘1 の式を導出可能。
𝒀𝒀1 𝑹𝑹
目的音の
推定結果
(抽出結果)
リファレンス
依存
𝑼𝑼1
𝑼𝑼𝑁𝑁
無相関化
観測信号
𝒘𝒘1
フィルター
初回のみ
𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝑟𝑟 𝑓𝑓, 𝑡𝑡
11 R&D Center, Tokyo Laboratory 21
実践面:
“抽出結果 > リファレンス” が本当に
実現されているか、実験で確認
12 R&D Center, Tokyo Laboratory 21
CHiME3/4 データセット [30] を用いた評価系
STFT SIBF Scaling ISTFT
DNN ISTFTSTFT
SIBF の評価
(提案法)
リファレンス
の評価
観測信号
の評価
全マイク
マイク#5
(話者位
置に最も
近い)
リファレンス
スケール調整
の参照信号
位相
タブレット端末に装着された6個のマイク
振幅
13 R&D Center, Tokyo Laboratory 21
使用した DNN について解説
BLSTM GEV BF [19] の学習系を改造. (元の学習系は CHiME4 音声強調ベースライン [1] に含まれている)
Input
Mag. Spec.
BLSTM with
Batch Norm.
Affine &
Batch Norm.
& ReLu
Affine &
Batch Norm.
& sigmoid
Output
Mag. Spec.
513 dim.
513 dim.
513 dim.
256 dim.
Elementwise
product
Input
Mag. Spec.
BLSTM with
Batch Norm.
Affine &
Batch Norm.
& ReLu
Affine &
Batch Norm.
& sigmoid
Speech
Mask
513 dim.
513 dim.
256 dim.
Noise
Mask
513 dim. 513 dim.
Noisy
Speech
Cleaner
Speech
改造前: DNN は音声マスク・雑音マスクを
出力 (for Mask-based GEV BF)
改造後: DNN は振幅スペクトログラム
を出力(リファレンスとして使用)
Noisy
Speech
Ideal
Speech
Mask
Ideal
Noise
Mask
Mag. Spec. of
Clean Speech
Supervisory data Supervisory data
Cross
entropy
loss
Mean
square
error loss
14 R&D Center, Tokyo Laboratory 21
実験1: ベストなパラメーターを求めるためのチューニング
評価尺度:
Perceptual evaluation of speech quality (PESQ)
チューニング用データセット:
CHiME3/4 開発用に含まれる以下のデータの混合
• 収録ブースで録音されたクリーン音声(BTH)
• 実環境の背景雑音(BG)
シナリオ名 BG の倍率 平均SNR
[dB]
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟐𝟐𝟐𝟐 0.25 14.05
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟓𝟓 0.5 8.03
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟏𝟏. 𝟎𝟎 1.0 2.03
𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟐𝟐. 𝟎𝟎 2.0 -3.93
BTH: 410 発話 × 4 話者 (0.72 時間)
BG: バス車内・カフェテリア・歩
行者デッキ・交差点
混合比別に 4 つのシナリオ BTH
BG ×
+ データセット
倍率
(0.25 / 0.5 / 1.0 / 2.0)
15 R&D Center, Tokyo Laboratory 21
実験1の結果: 音源モデルごとのベストなパラメーター
モデル名 TV Gaussian model BS Laplacian model
モデルの式および
パラメーター
1
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2
exp −
𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽
𝛽𝛽: Reference exponent
exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
𝛼𝛼: Reference weight
および反復回数
採用したパラメーター
(採用の理由)
𝛽𝛽 = 8
(0.125 ≤ 𝛽𝛽 ≤ 32 の中でベストな値)
𝛼𝛼 = 100 & 反復10回
(全シナリオで安定した改善傾向)
1.8
1.9
2
2.1
2.2
1 2 5 10
PESQ
Iteration
BTH + BG x 2.0 (-3.93 [dB])
α=0.01
α=1
α=100
α=10^4
Reference
TV Gauss3.1
3.2
3.3
3.4
3.5
3.6
1 2 5 10
PESQ
Iteration
BTH + BG x 0.25 (14.05 [dB])
3.1
3.2
3.3
3.4
3.5
3.6
PESQ
Reference exponent
BTH + BG x 0.25 (14.05 [dB])
TV Gauss
Reference
16 R&D Center, Tokyo Laboratory 21
実験2: ベストなパラメーターを用いた各種評価
データセット チューニング用データセットに加え、
CHiME3 simulated evaluation set (Eval)
評価尺度 PESQ に加え、Signal-to-distortion ratio (SDR)
評価対象の方式または
信号
NN-SIBF
Oracle SIBF
リファレンス(DNN の出力)
観測信号(マイク#5)
BLSTM GEV (CHiME4 SE baseline [1] に同梱)
BLSTM MVDR [17]
NN-SIBF: リファレンスは DNN の出力
(実験1 と同様)
Oracle SIBF: リファレンスは混合前の
クリーン音声(理想的なリファレ
ンスを用いたときの最高性能を見
積もることができる)
実験の設定
DNN ベースの BF であり、DNN の
学習データは本論文と同じ。
17 R&D Center, Tokyo Laboratory 21
実験2 の結果
方式名 音源モデル PESQ SDR [dB]
BTH+BG
× 0.25
BTH+BG
× 0.5
BTH+BG
× 1.0
BTH+BG
× 2.0
Eval BTH+BG
× 0.25
BTH+BG
× 0.5
BTH+BG
× 1.0
BTH+BG
× 2.0
Eval
NN-SIBF
(提案法)
TV Gaussian 3.52 3.12 2.63 2.08 2.67 18.84 14.45 8.45 1.32 15.25
BS Laplacian 3.53 3.13 2.66 2.11 2.68 19.30 14.74 8.78 1.55 15.85
Oracle SIBF TV Gaussian 3.58 3.21 2.80 2.39 2.75 20.62 17.03 12.25 6.54 17.99
BS Laplacian 3.58 3.21 2.80 2.39 2.75 20.45 17.05 12.33 6.59 18.00
リファレンス (DNN 出力) 3.14 2.83 2.43 1.91 2.61 18.48 13.89 8.70 2.34 13.61
観測信号 (マイク#5) 2.93 2.51 2.10 1.72 2.18 14.05 8.03 2.03 -3.93 7.54
BLSTM GEV [1] 2.46 2.92
BLSTM MVDR [17] 2.29 15.12
NN-SIBF vs. リファレンス ほとんどのシナリオで NN-SIBF > リファレンス
NN-SIBF の音源モデル BS Laplacian > TV Gaussian. (反復のため)
Oracle SIBF vs. NN-SIBF Oracle SIBF > NN-SIBF ( 考察へ)
NN-SIBF vs.
BLSTM GEV & BLSTM MVDR
NN-SIBF > BLSTM GEV and
NN-SIBF > BLSTM MVDR.
“抽出結果 > リファレンス”
が実現
各シナリオにおいて、ベストの評価値を太字で表記
(ただし、Oracle SIBF は対象外)
18 R&D Center, Tokyo Laboratory 21
デモ (BTH + BG x 1.0 scenario, 背景雑音はカフェテリア)
PESQ: 2.66
SDR: 8.78 [dB]
PESQ: 2.43
SDR: 8.70 [dB]
PESQ: 2.10
SDR: 2.03 [dB]
STFT SIBF Scaling ISTFT
DNN ISTFTSTFT
SIBF の評価
(提案法)
リファレンス
の評価
観測信号
の評価
全マイク
マイク#5
(話者位
置に最も
近い)
スケール調整
の参照信号
位相
振幅
タブレット端末に装着された6個のマイク
リファレンス
19 R&D Center, Tokyo Laboratory 21
考察(1/3)
依存性と独立性の両方を利用する効果はあったのか?
 効果あり。ほぼ全てのシナリオで “NN-SIBF > リファレンス” であったたため、
これは検証されたと考える。
𝒀𝒀1
𝒀𝒀2
𝒀𝒀𝑁𝑁
𝑹𝑹
音源の
推定結果
リファレンス
依存(類似)
独立
(全く似ていない)
SIBF による
抽出結果
依存性を利用  抽出結果 ≈ リファレンス
独立性を利用  抽出結果 > リファレンス
(𝒀𝒀2~𝒀𝒀𝑁𝑁 は仮想的であり、実際には生成されない。)
20 R&D Center, Tokyo Laboratory 21
考察(2/3)
リファレンスが高精度になるほど抽出の精度も向上するのか?
 その通り。全てのシナリオで “Oracle SIBF > NN SIBF” であることがその根拠。
では、リファレンスの精度が低い場合は何が起こる?
 一般的には、SIBF による改善度合いが低くなる。
(BTH + BG x 2.0 scenario (-3.93 [dB]) で改善度合いが低い原因)
1.8
1.9
2
2.1
2.2
1 2 5 10
PESQ
Iteration
BTH + BG x 2.0 (-3.93 [dB])
α=0.01
α=1
α=100
α=10^4
Reference
TV Gauss
 しかし、BS Laplacian model を使用し、さらに リファ
レンス重み 𝜶𝜶 を適切に設定すると、反復によって改
善することができる。
(ただし、シナリオごとに適切な 𝛼𝛼 を決める方法は
未確立であり、今後の改題)
実験1 のグラフの再掲
exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
21 R&D Center, Tokyo Laboratory 21
考察(3/3)
SIBF において、抽出の精度を向上させるにはどうすればよいか?
 少なくとも 2つの選択肢がある:
1. リファレンスの精度を向上させる。
例: 最先端の音声強調用 DNN を用いてリファレンスを生成する。
(SIBF は、DNN の出力を容易に refine する手段として利用できる。)
2. 音源モデルを工夫する。
• 今回提案している音源モデルを改良する。
例: 適切なパラメーターを自動で見つける方法を確立する。
• ブラインド音源分離の分野で提案されている他の音源モデルを試す。
= Future works.
22 R&D Center, Tokyo Laboratory 21
まとめ
• リファレンスを使用する目的音抽出の新手法として、Similarity-and-Independence-Aware Beamformer
(SIBF)を提案。
• “抽出結果 > リファレンス” を実現するために、デフレーション型の独立成分分析(ICA)を拡張した新
たな枠組みを考案。
A) 独立性だけでなく、リファレンスとの依存性も考慮する。
B) 独立性を表現するため、TV Gaussian & BS Laplacian という2つの音源モデルを考案。
C) 抽出用のフィルターを求める式を導出
• CHiME3/4 データセット用いた実験により、 “抽出結果 > リファレンス” が実現できていることを確認。
SIBFICA BF
締めの言葉: SIBF は ICA と BF の分野に跨っており、この発表によって両方の分野の
研究が一層活発になることを期待する。
23 R&D Center, Tokyo Laboratory 21
参考: 各図における入出力データの対応関係
各図において、同じ意味のデータを同じ色で表現し、対応関係を明確にしてみました。
リファレンス使用の目的音抽出(一般的な解説) SIBF の概略(ワークフロー)
SIBF の枠組み 実験評価系
24 R&D Center, Tokyo Laboratory 21
参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(1/2)
Targeted Source Separation というセッションにおいて集中的に発表されていました。
Mon-3-11-1 SpEx+: A Complete Time Domain Speaker Extraction Network
Mon-3-11-2 Atss-Net: Target Speaker Separation via Attention-based Neural Network
Mon-3-11-3 Multimodal Target Speech Separation with Voice and Face References
Mon-3-11-4 X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network
Mon-3-11-5 Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
Mon-3-11-6 A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments
Mon-3-11-7 Time-Domain Target-Speaker Speech Separation With Waveform-Based Speaker Embedding
Mon-3-11-8 Listen to What You Want: Neural Network-based Universal Sound Selector
Mon-3-11-9 Crossmodal Sound Retrieval based on Specific Target Co-occurrence Denoted with Weak Labels
Mon-3-11-10 Speaker-Aware Monaural Speech Separation
25 R&D Center, Tokyo Laboratory 21
参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(2/2)
他のセッションでも目的音抽出の発表がありました。
Mon-1-2-2 Neural Spatio-Temporal Beamformer for Target Speech Separation
Wed-2-5-4 VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition
Wed-3-8-2 Microphone Array Post-filter for Target Speech Enhancement Without a Prior Information of Point
Interferers
Wed-3-8-3 Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude
Spectrogram as Reference(今回紹介した自分の発表)
26 R&D Center, Tokyo Laboratory 21
参考文献(1/2)
[1] S. J. Chen, A. S. Subramanian, H. Xu, and S. Watanabe, “Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline,”
Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2018-Septe, pp. 1571–1575, 2018.
[2] J. Du, Q. Wang, T. Gao, Y. Xu, L. Dai, and C. H. Lee, “Robust speech recognition with speech enhanced deep neural networks,” in Proceedings of the Annual Conference of the International
Speech Communication Association, INTERSPEECH, 2014.
[3] D. Liu, P. Smaragdis, and M. Kim, “Experiments on deep learning for speech denoising,” in Proceedings of the Annual Conference of the International Speech Communication Association,
INTERSPEECH, 2014.
[4] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP, IEEE International Conference
on Acoustics, Speech and Signal Processing - Proceedings, 2018.
[5] Q. Wang et al., “VoiceFilter: Targeted voice separation by speaker-conditioned spectrogram masking,” in Proceedings of the Annual Conference of the International Speech Communication
Association, INTERSPEECH, 2019.
[6] M. Mizumachi and M. Origuchi, “Advanced delay-and-sum beamformer with deep neural network,” 22nd Int. Congr. Acoust., 2016.
[7] M. Mizumachi, “Neural Network-based Broadband Beamformer with Less Distortion,” no. September, pp. 2760–2764, 2019.
[8] E. Vincent, S. Watanabe, A. A. Nugraha, J. Barker, and R. Marxer, “An analysis of environment, microphone and data simulation mismatches in robust speech recognition,” Comput. Speech
Lang., vol. 46, pp. 535–557, 2017.
[9] L. Wang, J. D. Reiss, and A. Cavallaro, “Over-Determined Source Separation and Localization Using Distributed Microphones,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9,
pp. 1569–1584, 2016.
[10] N. Murata, S. Ikeda, and A. Ziehe, “An approach to blind source separation based on temporal structure of speech signals,” Neurocomputing, 2001.
[11] K. Matsuoka, “Minimal distortion principle for blind source separation,” no. September 2002, pp. 2138–2143, 2003.
[12] J. X. Mi, “A novel algorithm for independent component analysis with reference and methods for its applications,” PLoS One, vol. 9, no. 5, 2014.
[13] Q. H. Lin, Y. R. Zheng, F. L. Yin, H. Liang, and V. D. Calhoun, “A fast algorithm for one-unit ICA-R,” Inf. Sci. (Ny)., 2007.
[14] M. Castella, S. Rhioui, E. Moreau, and J. C. Pesquet, “Quadratic higher order criteria for iterative blind separation of a MIMO convolutive mixture of sources,” IEEE Trans. Signal Process., vol.
55, no. 1, pp. 218–232, 2007.
[15] L. Gao, N. Zheng, Y. Tian, and J. Zhang, “Target signal extraction method based on enhanced ica with reference,” Math. Probl. Eng., vol. 2019, 2019.
[16] N. Makishima et al., “Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 27, no. 10, pp. 1601–1615,
2019.
[17] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, and J. Le Roux, “Improved MVDR beamforming using single-channel mask prediction networks,” Proc. Annu. Conf. Int. Speech Commun.
Assoc. INTERSPEECH, vol. 08-12-Sept, pp. 1981–1985, 2016.
[18] Y. Kubo, T. Nakatani, M. Delcroix, K. Kinoshita, and S. Araki, “Mask-based MVDR Beamformer for Noisy Multisource Environments: Introduction of Time-varying Spatial Covariance Model,”
ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2019-May, pp. 6855–6859, 2019.
[19] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol.
2016-May, pp. 196–200, 2016.
[20] J. Heymann, L. Drude, A. Chinaev, and R. Haeb-Umbach, “BLSTM supported GEV beamformer front-end for the 3RD CHiME challenge,” 2015 IEEE Work. Autom. Speech Recognit.
Understanding, ASRU 2015 - Proc., no. June 2016, pp. 444–451, 2016.
27 R&D Center, Tokyo Laboratory 21
参考文献(2/2)
[21] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Minimization of Mutual Information,” in Independent Component Analysis, 2003.
[22] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Maximum Likelihood Estimation,” in Independent Component Analysis, 2003.
[23] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,”
IEEE/ACM Trans. Audio Speech Lang. Process., 2016.
[24] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1652–1664,
2016.
[25] A. Hiroe, “Solution of permutation problem in frequency domain ica, using multivariate probability density functions,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell.
Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 601–608, 2006.
[26] T. Kim, T. Eltoft, and T. W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 3889 LNCS, no. 1, pp. 165–172, 2006.
[27] I. Lee, T. Kim, and T. W. Lee, “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 3889 LNCS, pp. 625–632, 2006.
[28] T. Kim, H. T. Attias, S. Y. Lee, and T. W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech Lang. Process., vol. 15, no. 1, pp. 70–79,
2007.
[29] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 2, no. 9, pp. 189–192,
2011.
[30] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, “The third ‘CHiME’ speech separation and recognition challenge: Dataset, task and baselines,” in 2015 IEEE Workshop on Automatic
Speech Recognition and Understanding, ASRU 2015 - Proceedings, 2016.
SONY is a registered trademark of Sony Corporation.
Names of Sony products and services are the registered trademarks and/or trademarks of Sony Corporation or its Group companies.
Other company names and product names are registered trademarks and/or trademarks of the respective companies.

Mais conteúdo relacionado

Mais procurados

信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 

Mais procurados (20)

信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
NumPy闇入門
NumPy闇入門NumPy闇入門
NumPy闇入門
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 

Semelhante a Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesHaruka Ozaki
 
2011 icse-feature cohesion in software product lines an exploratory study
2011 icse-feature cohesion in software product lines an exploratory study2011 icse-feature cohesion in software product lines an exploratory study
2011 icse-feature cohesion in software product lines an exploratory studyn-yuki
 
ソフトウェアテストの再検討
ソフトウェアテストの再検討 ソフトウェアテストの再検討
ソフトウェアテストの再検討 ikedkana
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装Naoki Komatsu
 
2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...n-yuki
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演Hayaru SHOUNO
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版youwatari
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Brains Consulting, Inc.
 

Semelhante a Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference" (19)

Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
tokyor29th
tokyor29thtokyor29th
tokyor29th
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
 
2011 icse-feature cohesion in software product lines an exploratory study
2011 icse-feature cohesion in software product lines an exploratory study2011 icse-feature cohesion in software product lines an exploratory study
2011 icse-feature cohesion in software product lines an exploratory study
 
ソフトウェアテストの再検討
ソフトウェアテストの再検討 ソフトウェアテストの再検討
ソフトウェアテストの再検討
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
 
2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...2010 icse-an analysis of the variability in forty preprocessor-based software...
2010 icse-an analysis of the variability in forty preprocessor-based software...
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
 
分類分析 (taxometric analysis)
分類分析 (taxometric analysis)分類分析 (taxometric analysis)
分類分析 (taxometric analysis)
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 

Último

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Último (9)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

  • 1. 論文紹介 “Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference” R&D Center Tokyo Laboratory 21 Sony Corporation Copyright 2020 Sony Corporation 廣江 厚夫 INTERSPEECH 2020 論文読み会用スライド(2020/11/20 開催)
  • 2. 2 R&D Center, Tokyo Laboratory 21 自己紹介 氏名: 廣江 厚夫(ひろえ あつお) 1996年に東京工業大学を修了し、ソニーに入社。 以降、信号処理・音声認識・音声対話等の研究開発に従事する。 2006年 ICA2006 にて、独立成分分析(ICA)のパーミューテーション問題の解消に ついて発表。(今回の発表とも関連あり) 題名: Solution of permutation problem in frequency domain ICA, using multivariate probability density functions 2007年 ICA2007 にて、音源分離と残響除去との同時解決について発表。 題名: Blind Vector Deconvolution: Convolutive Mixture Models in Short-Time Fourier Transform Domain 2009年 電子情報通信学会の招待論文で 2006年の発表(IVA 含む)について解説。 題名: パーミュテーション問題のない周波数領域独立成分分析 2014~ 2016年 情報通信研究機構(NICT)に出向し、多言語対応(クロスリンガル)音声 対話システムの研究開発に従事。 解説動画: https://www.youtube.com/watch?v=xj1rMEbGICQ 2020年 INTERSPEECH2020 にて、DNN と組み合わせ可能な新規のビームフォーマー について発表。(今回紹介する論文) 題名: Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference 同じカンファレンスにて、似たアイデアの発表 が他に 2件あり(偶然の一致): T. Kim, T. Eltoft, and T. W. Lee “Independent vector analysis: An extension of ICA to multivariate components” Lee, T. Kim, and T. W. Lee “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS, 彼らは自分の方式に Independent Vector Analysis: IVA という名称を付けていたため、今では廣江の 方式も含めて IVA と呼ばれている。 教訓: 新しい方式を考案したら、カッコいい名称 を付け、それを積極的に広めましょう! 主な対外発表など
  • 3. 3 R&D Center, Tokyo Laboratory 21 この論文のトピック: 目的音抽出(Target source extraction) (特に、何らかのヒントやリファレンスを用いる方式) 目的音抽出 (Target Source Extraction) リファレンス (Reference) 目的音(Target) (source of interest) 妨害音 (Interferences) 観測信号 (Observations) 抽出結果: 目的音の推定結果 (Estimated target source) 音源 (Sources) 混ざった音がマイクで観測される。 どの音源を抽出するか制御するため、目的音に関 する情報をリファレンス(ヒント)として与える。 使い道の例 • ノイズ混じりの音声をマイクで観測し、クリーンな 音声を得る。(本論文の実験はこの類) • 二人以上の音声発話が重なったときに、所望の一人 の音声だけを取り出す。 目的音に近い音を出力する。 リファレンスを用いる目的音抽出の一般的な課題 • どうやって高精度な抽出結果を生成するか。 (目的音に近いほど高精度) • リファレンスとしてどのような情報を用いるか。 INTERSPEECH 2020 で は、目的音抽出について 10件を超える発表があり ました。詳しくは、この資 料の最後をご参照ください。
  • 4. 4 R&D Center, Tokyo Laboratory 21 提案手法: Similarity-and-Independence-Aware Beamformer (SIBF) (類似性と独立性とを考慮したビームフォーマー) Step1: リファレンスを生成 (例えば DNN 使用) Step2: SIBF を適用 入力: 複数マイク分の観測信号 スペクトログラム(複素数) 出力(抽出結果): 目的音スペク トログラムの推定結果(複素数) リファレンス: 目的音のラフな 振幅スペクトログラム(実数) Input Output Reference 短時間 フーリエ 変換 所望の音 係数 + 係数 ビームフォーマー(BF)とは? • マイクごとに異なる係数を乗じてから加算する ことで、所望の音信号を生成する方式 • 係数のセットをフィルターと呼ぶ。BF の種類に よって、フィルターを求める式が異なる。 • BF は線形フィルター(係数と加算のみからなる フィルター)の一種である。 加算 フィルター SIBF の概略(ワークフロー)
  • 5. 5 R&D Center, Tokyo Laboratory 21 SIBF の概略について補足 なぜ、ビームフォーマー(BF)なのか?  BF は線形フィルターの一種であり、線形フィルターには以下の利点がある。 1. 非線形な歪みの問題を回避できる。[6, 7] 2. マイクを増やすことで抽出精度の向上が容易。[8, 9] 3. 適切な位相やスケールを推定するのが容易。[10, 11] なぜ、リファレンスとしてラフな振幅スペクト ログラムを用いるのか?  振幅スペクトログラムは様々な方式(DNN を 含む)で生成可能であり、複素スペクトログ ラムや時間周波数マスクより入手が容易。 「ラフ」とはどういう意味か? 1. 目的音が優勢であるが、妨害音も残っている。 あるいは、妨害音を除去した副作用で、目的 音が歪んでいる。 2. さらに、振幅スペクトログラムなので、位相 の情報を含んでいない。 DNN の出力を SIBF で refine するという使い方を想定している が、そのためには以下を保証する必要がある。 • SIBF による抽出結果がリファレンスより高精度 (以降、“抽出結果 > リファレンス” と表記する) 本論文は、“抽出結果 > リファレンス” をキーコンセプトと して構成されている。 理論面: “抽出結果 > リファレンス” を実現するために新 たな枠組みを考案した。 実践面: “抽出結果 > リファレンス” が本当に実現されて いることを確認するために実験を行なった。
  • 6. 6 R&D Center, Tokyo Laboratory 21 関連研究について 関連研究(線形フィルターを求める方式限定) 種類 例 備考 リファレンスを用いるデフレーション 型独立成分分析(ICA)[12-15] One unit ICA-R [13] 入出力とリファレンスとは、共に実数か共に複素数 セミ・ブラインド音源分離 IDLMA [16] 全ての音源についてリファレンスが必要 DNN で生成されたマスクを用いる BF [17-20] NN-GEV, NN-MVDR [20] 振幅スペクトログラムの代わりに時間周波数マスク が必要。 “抽出結果 > リファレンス” の保証がない。 従来技術でも同様のことは実現可能なのでは? → 以下の要件をすべて満たす方式は存在しなかった。 1. 入出力は複素数だがリファレンスは実数 2. リファレンスは、目的音のものを1つだけ用意すればよい。 妨害音のリファレンスは不要 3. “抽出結果 > リファレンス” の保証がある。
  • 7. 7 R&D Center, Tokyo Laboratory 21 理論面: “抽出結果 > リファレンス” を実現す るために新たな枠組みを考案
  • 8. 8 R&D Center, Tokyo Laboratory 21 SIBF の枠組み 𝑿𝑿1 𝑿𝑿𝑁𝑁 𝒀𝒀1 𝒀𝒀2 𝒀𝒀𝑁𝑁 𝑹𝑹 観測信号 (Observations) 音源の推定結果 (Estimated sources) リファレンス (Reference) 依存 (Dependent) 独立 (Independent) 拡張部分(新規) 𝑼𝑼1 𝑼𝑼𝑁𝑁 無相関化観測信号 (Uncorrelated observations) 𝑺𝑺2 𝑺𝑺 𝑀𝑀 𝑺𝑺1 目的音 (Target) 妨害音 (Interferences) 音源 (Sources) 混合 無相関化 𝒘𝒘2 𝒘𝒘𝑁𝑁 抽出フィルター (Extraction filters) デフレーション型 ICA の枠組み(既存) Key points: 1. 依存性と独立性との併用 𝒀𝒀1 と 𝑹𝑹 との依存性  𝒀𝒀1 ≈ リファレンス 𝒀𝒀1 ~𝒀𝒀𝑁𝑁 の独立性  𝒀𝒀1 > リファレンス 2. デフレーション型の分離(1音源ずつの分離) 𝒀𝒀1を分離した時点で処理を打ち切ると、目的音の推定結果のみが得られる。 デフレーション+リファレンス → BF のように振る舞う ICA 𝒘𝒘1 “抽出結果 > リファレンス” を実現するために、デフレーション型独立成分分析(ICA)の枠組み [21 など] を拡張 各音源は互いに独立に発生していると仮定 (=音源同士は全く似ていない) 依存性はどのように表現すればよいか? → 音源モデルとして表現する(次ページ) ×: 全音源を推定してから選択する。 〇: 興味のある1音源しか推定しない。
  • 9. 9 R&D Center, Tokyo Laboratory 21 依存性を表現するための音源モデル 𝒀𝒀1 𝑹𝑹 目的音の推定結果 (複素数) リファレンス (実数) 依存 𝑦𝑦1(𝑓𝑓, 𝑡𝑡) 𝑟𝑟(𝑓𝑓, 𝑡𝑡) Model type 時間 周波数 可変分散モデル (Time-frequency-varying variance (TV) model) 二変量 球状モデル (Bivariate spherical (BS) model) Specific model name TV Gaussian model BS Laplacian model Joint PDF 𝑝𝑝𝑟𝑟𝑟𝑟1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 , 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2 exp − 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝛽𝛽: リファレンス冪乗数(Reference exponent) exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝛼𝛼: リファレンス重み(Reference weight) Note TV モデルは音源分離で広く使用されているが[16, 23, 24]、依存性を表わすモデルとしてこれを再解釈。 厳密なガウスモデルは β=2 のみだが、あえて変更可 能としている。 平方根の中の変数同士はお互いに依存する。 IVA ではパーミューテーション問題の解消のために その性質を利用したが[25-28]、今回は目的音の推 定結果とリファレンスとを類似させるために使用。 周波数f 時間 t 論文では、2種類の音源モデルを試している。 ここでいう音源モデルとは? → 目的音の推定結果(抽出結果)とリファレンスとの 同時確率を表わす関数密度関数(PDF) 簡単のため、同一の時刻&周波数のみで依存している と仮定。また、複素数については振幅のみが依存。
  • 10. 10 R&D Center, Tokyo Laboratory 21 抽出フィルターを求める式 モデル名 TV Gaussian model BS Laplacian model アルゴリズム 閉形式の解 補助関数法[29] による反復アルゴリズム 抽出フィルター を求める式 𝒘𝒘1 𝑓𝑓 ← EIG 𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝑡𝑡 H 𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝒘𝒘1 𝑓𝑓 𝒖𝒖 𝑓𝑓, 𝑡𝑡 2 𝒘𝒘1 𝑓𝑓 ← EIG 𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H 𝑏𝑏 𝑓𝑓, 𝑡𝑡 𝑡𝑡 H 𝒘𝒘1 𝑓𝑓 周波数 𝑓𝑓 の抽出フィルター(行ベクトル) EIG 𝑨𝑨 行列 𝑨𝑨 の最小固有値に対応した固有ベクトル(列ベクトル) � 𝑡𝑡 時間 t での平均操作 𝒖𝒖 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における無相関化観測信号 𝑟𝑟 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 におけるリファレンス 𝑏𝑏 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における補助変数 最尤推定およびデフレーション型分離を利用すると、 目的音の推定結果である 𝒀𝒀1 のみを生成するフィルター 𝒘𝒘1 の式を導出可能。 𝒀𝒀1 𝑹𝑹 目的音の 推定結果 (抽出結果) リファレンス 依存 𝑼𝑼1 𝑼𝑼𝑁𝑁 無相関化 観測信号 𝒘𝒘1 フィルター 初回のみ 𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝑟𝑟 𝑓𝑓, 𝑡𝑡
  • 11. 11 R&D Center, Tokyo Laboratory 21 実践面: “抽出結果 > リファレンス” が本当に 実現されているか、実験で確認
  • 12. 12 R&D Center, Tokyo Laboratory 21 CHiME3/4 データセット [30] を用いた評価系 STFT SIBF Scaling ISTFT DNN ISTFTSTFT SIBF の評価 (提案法) リファレンス の評価 観測信号 の評価 全マイク マイク#5 (話者位 置に最も 近い) リファレンス スケール調整 の参照信号 位相 タブレット端末に装着された6個のマイク 振幅
  • 13. 13 R&D Center, Tokyo Laboratory 21 使用した DNN について解説 BLSTM GEV BF [19] の学習系を改造. (元の学習系は CHiME4 音声強調ベースライン [1] に含まれている) Input Mag. Spec. BLSTM with Batch Norm. Affine & Batch Norm. & ReLu Affine & Batch Norm. & sigmoid Output Mag. Spec. 513 dim. 513 dim. 513 dim. 256 dim. Elementwise product Input Mag. Spec. BLSTM with Batch Norm. Affine & Batch Norm. & ReLu Affine & Batch Norm. & sigmoid Speech Mask 513 dim. 513 dim. 256 dim. Noise Mask 513 dim. 513 dim. Noisy Speech Cleaner Speech 改造前: DNN は音声マスク・雑音マスクを 出力 (for Mask-based GEV BF) 改造後: DNN は振幅スペクトログラム を出力(リファレンスとして使用) Noisy Speech Ideal Speech Mask Ideal Noise Mask Mag. Spec. of Clean Speech Supervisory data Supervisory data Cross entropy loss Mean square error loss
  • 14. 14 R&D Center, Tokyo Laboratory 21 実験1: ベストなパラメーターを求めるためのチューニング 評価尺度: Perceptual evaluation of speech quality (PESQ) チューニング用データセット: CHiME3/4 開発用に含まれる以下のデータの混合 • 収録ブースで録音されたクリーン音声(BTH) • 実環境の背景雑音(BG) シナリオ名 BG の倍率 平均SNR [dB] 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟐𝟐𝟐𝟐 0.25 14.05 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟓𝟓 0.5 8.03 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟏𝟏. 𝟎𝟎 1.0 2.03 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟐𝟐. 𝟎𝟎 2.0 -3.93 BTH: 410 発話 × 4 話者 (0.72 時間) BG: バス車内・カフェテリア・歩 行者デッキ・交差点 混合比別に 4 つのシナリオ BTH BG × + データセット 倍率 (0.25 / 0.5 / 1.0 / 2.0)
  • 15. 15 R&D Center, Tokyo Laboratory 21 実験1の結果: 音源モデルごとのベストなパラメーター モデル名 TV Gaussian model BS Laplacian model モデルの式および パラメーター 1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2 exp − 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝛽𝛽: Reference exponent exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝛼𝛼: Reference weight および反復回数 採用したパラメーター (採用の理由) 𝛽𝛽 = 8 (0.125 ≤ 𝛽𝛽 ≤ 32 の中でベストな値) 𝛼𝛼 = 100 & 反復10回 (全シナリオで安定した改善傾向) 1.8 1.9 2 2.1 2.2 1 2 5 10 PESQ Iteration BTH + BG x 2.0 (-3.93 [dB]) α=0.01 α=1 α=100 α=10^4 Reference TV Gauss3.1 3.2 3.3 3.4 3.5 3.6 1 2 5 10 PESQ Iteration BTH + BG x 0.25 (14.05 [dB]) 3.1 3.2 3.3 3.4 3.5 3.6 PESQ Reference exponent BTH + BG x 0.25 (14.05 [dB]) TV Gauss Reference
  • 16. 16 R&D Center, Tokyo Laboratory 21 実験2: ベストなパラメーターを用いた各種評価 データセット チューニング用データセットに加え、 CHiME3 simulated evaluation set (Eval) 評価尺度 PESQ に加え、Signal-to-distortion ratio (SDR) 評価対象の方式または 信号 NN-SIBF Oracle SIBF リファレンス(DNN の出力) 観測信号(マイク#5) BLSTM GEV (CHiME4 SE baseline [1] に同梱) BLSTM MVDR [17] NN-SIBF: リファレンスは DNN の出力 (実験1 と同様) Oracle SIBF: リファレンスは混合前の クリーン音声(理想的なリファレ ンスを用いたときの最高性能を見 積もることができる) 実験の設定 DNN ベースの BF であり、DNN の 学習データは本論文と同じ。
  • 17. 17 R&D Center, Tokyo Laboratory 21 実験2 の結果 方式名 音源モデル PESQ SDR [dB] BTH+BG × 0.25 BTH+BG × 0.5 BTH+BG × 1.0 BTH+BG × 2.0 Eval BTH+BG × 0.25 BTH+BG × 0.5 BTH+BG × 1.0 BTH+BG × 2.0 Eval NN-SIBF (提案法) TV Gaussian 3.52 3.12 2.63 2.08 2.67 18.84 14.45 8.45 1.32 15.25 BS Laplacian 3.53 3.13 2.66 2.11 2.68 19.30 14.74 8.78 1.55 15.85 Oracle SIBF TV Gaussian 3.58 3.21 2.80 2.39 2.75 20.62 17.03 12.25 6.54 17.99 BS Laplacian 3.58 3.21 2.80 2.39 2.75 20.45 17.05 12.33 6.59 18.00 リファレンス (DNN 出力) 3.14 2.83 2.43 1.91 2.61 18.48 13.89 8.70 2.34 13.61 観測信号 (マイク#5) 2.93 2.51 2.10 1.72 2.18 14.05 8.03 2.03 -3.93 7.54 BLSTM GEV [1] 2.46 2.92 BLSTM MVDR [17] 2.29 15.12 NN-SIBF vs. リファレンス ほとんどのシナリオで NN-SIBF > リファレンス NN-SIBF の音源モデル BS Laplacian > TV Gaussian. (反復のため) Oracle SIBF vs. NN-SIBF Oracle SIBF > NN-SIBF ( 考察へ) NN-SIBF vs. BLSTM GEV & BLSTM MVDR NN-SIBF > BLSTM GEV and NN-SIBF > BLSTM MVDR. “抽出結果 > リファレンス” が実現 各シナリオにおいて、ベストの評価値を太字で表記 (ただし、Oracle SIBF は対象外)
  • 18. 18 R&D Center, Tokyo Laboratory 21 デモ (BTH + BG x 1.0 scenario, 背景雑音はカフェテリア) PESQ: 2.66 SDR: 8.78 [dB] PESQ: 2.43 SDR: 8.70 [dB] PESQ: 2.10 SDR: 2.03 [dB] STFT SIBF Scaling ISTFT DNN ISTFTSTFT SIBF の評価 (提案法) リファレンス の評価 観測信号 の評価 全マイク マイク#5 (話者位 置に最も 近い) スケール調整 の参照信号 位相 振幅 タブレット端末に装着された6個のマイク リファレンス
  • 19. 19 R&D Center, Tokyo Laboratory 21 考察(1/3) 依存性と独立性の両方を利用する効果はあったのか?  効果あり。ほぼ全てのシナリオで “NN-SIBF > リファレンス” であったたため、 これは検証されたと考える。 𝒀𝒀1 𝒀𝒀2 𝒀𝒀𝑁𝑁 𝑹𝑹 音源の 推定結果 リファレンス 依存(類似) 独立 (全く似ていない) SIBF による 抽出結果 依存性を利用  抽出結果 ≈ リファレンス 独立性を利用  抽出結果 > リファレンス (𝒀𝒀2~𝒀𝒀𝑁𝑁 は仮想的であり、実際には生成されない。)
  • 20. 20 R&D Center, Tokyo Laboratory 21 考察(2/3) リファレンスが高精度になるほど抽出の精度も向上するのか?  その通り。全てのシナリオで “Oracle SIBF > NN SIBF” であることがその根拠。 では、リファレンスの精度が低い場合は何が起こる?  一般的には、SIBF による改善度合いが低くなる。 (BTH + BG x 2.0 scenario (-3.93 [dB]) で改善度合いが低い原因) 1.8 1.9 2 2.1 2.2 1 2 5 10 PESQ Iteration BTH + BG x 2.0 (-3.93 [dB]) α=0.01 α=1 α=100 α=10^4 Reference TV Gauss  しかし、BS Laplacian model を使用し、さらに リファ レンス重み 𝜶𝜶 を適切に設定すると、反復によって改 善することができる。 (ただし、シナリオごとに適切な 𝛼𝛼 を決める方法は 未確立であり、今後の改題) 実験1 のグラフの再掲 exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
  • 21. 21 R&D Center, Tokyo Laboratory 21 考察(3/3) SIBF において、抽出の精度を向上させるにはどうすればよいか?  少なくとも 2つの選択肢がある: 1. リファレンスの精度を向上させる。 例: 最先端の音声強調用 DNN を用いてリファレンスを生成する。 (SIBF は、DNN の出力を容易に refine する手段として利用できる。) 2. 音源モデルを工夫する。 • 今回提案している音源モデルを改良する。 例: 適切なパラメーターを自動で見つける方法を確立する。 • ブラインド音源分離の分野で提案されている他の音源モデルを試す。 = Future works.
  • 22. 22 R&D Center, Tokyo Laboratory 21 まとめ • リファレンスを使用する目的音抽出の新手法として、Similarity-and-Independence-Aware Beamformer (SIBF)を提案。 • “抽出結果 > リファレンス” を実現するために、デフレーション型の独立成分分析(ICA)を拡張した新 たな枠組みを考案。 A) 独立性だけでなく、リファレンスとの依存性も考慮する。 B) 独立性を表現するため、TV Gaussian & BS Laplacian という2つの音源モデルを考案。 C) 抽出用のフィルターを求める式を導出 • CHiME3/4 データセット用いた実験により、 “抽出結果 > リファレンス” が実現できていることを確認。 SIBFICA BF 締めの言葉: SIBF は ICA と BF の分野に跨っており、この発表によって両方の分野の 研究が一層活発になることを期待する。
  • 23. 23 R&D Center, Tokyo Laboratory 21 参考: 各図における入出力データの対応関係 各図において、同じ意味のデータを同じ色で表現し、対応関係を明確にしてみました。 リファレンス使用の目的音抽出(一般的な解説) SIBF の概略(ワークフロー) SIBF の枠組み 実験評価系
  • 24. 24 R&D Center, Tokyo Laboratory 21 参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(1/2) Targeted Source Separation というセッションにおいて集中的に発表されていました。 Mon-3-11-1 SpEx+: A Complete Time Domain Speaker Extraction Network Mon-3-11-2 Atss-Net: Target Speaker Separation via Attention-based Neural Network Mon-3-11-3 Multimodal Target Speech Separation with Voice and Face References Mon-3-11-4 X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network Mon-3-11-5 Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation Mon-3-11-6 A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments Mon-3-11-7 Time-Domain Target-Speaker Speech Separation With Waveform-Based Speaker Embedding Mon-3-11-8 Listen to What You Want: Neural Network-based Universal Sound Selector Mon-3-11-9 Crossmodal Sound Retrieval based on Specific Target Co-occurrence Denoted with Weak Labels Mon-3-11-10 Speaker-Aware Monaural Speech Separation
  • 25. 25 R&D Center, Tokyo Laboratory 21 参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(2/2) 他のセッションでも目的音抽出の発表がありました。 Mon-1-2-2 Neural Spatio-Temporal Beamformer for Target Speech Separation Wed-2-5-4 VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition Wed-3-8-2 Microphone Array Post-filter for Target Speech Enhancement Without a Prior Information of Point Interferers Wed-3-8-3 Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference(今回紹介した自分の発表)
  • 26. 26 R&D Center, Tokyo Laboratory 21 参考文献(1/2) [1] S. J. Chen, A. S. Subramanian, H. Xu, and S. Watanabe, “Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2018-Septe, pp. 1571–1575, 2018. [2] J. Du, Q. Wang, T. Gao, Y. Xu, L. Dai, and C. H. Lee, “Robust speech recognition with speech enhanced deep neural networks,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2014. [3] D. Liu, P. Smaragdis, and M. Kim, “Experiments on deep learning for speech denoising,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2014. [4] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2018. [5] Q. Wang et al., “VoiceFilter: Targeted voice separation by speaker-conditioned spectrogram masking,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2019. [6] M. Mizumachi and M. Origuchi, “Advanced delay-and-sum beamformer with deep neural network,” 22nd Int. Congr. Acoust., 2016. [7] M. Mizumachi, “Neural Network-based Broadband Beamformer with Less Distortion,” no. September, pp. 2760–2764, 2019. [8] E. Vincent, S. Watanabe, A. A. Nugraha, J. Barker, and R. Marxer, “An analysis of environment, microphone and data simulation mismatches in robust speech recognition,” Comput. Speech Lang., vol. 46, pp. 535–557, 2017. [9] L. Wang, J. D. Reiss, and A. Cavallaro, “Over-Determined Source Separation and Localization Using Distributed Microphones,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1569–1584, 2016. [10] N. Murata, S. Ikeda, and A. Ziehe, “An approach to blind source separation based on temporal structure of speech signals,” Neurocomputing, 2001. [11] K. Matsuoka, “Minimal distortion principle for blind source separation,” no. September 2002, pp. 2138–2143, 2003. [12] J. X. Mi, “A novel algorithm for independent component analysis with reference and methods for its applications,” PLoS One, vol. 9, no. 5, 2014. [13] Q. H. Lin, Y. R. Zheng, F. L. Yin, H. Liang, and V. D. Calhoun, “A fast algorithm for one-unit ICA-R,” Inf. Sci. (Ny)., 2007. [14] M. Castella, S. Rhioui, E. Moreau, and J. C. Pesquet, “Quadratic higher order criteria for iterative blind separation of a MIMO convolutive mixture of sources,” IEEE Trans. Signal Process., vol. 55, no. 1, pp. 218–232, 2007. [15] L. Gao, N. Zheng, Y. Tian, and J. Zhang, “Target signal extraction method based on enhanced ica with reference,” Math. Probl. Eng., vol. 2019, 2019. [16] N. Makishima et al., “Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 27, no. 10, pp. 1601–1615, 2019. [17] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, and J. Le Roux, “Improved MVDR beamforming using single-channel mask prediction networks,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 08-12-Sept, pp. 1981–1985, 2016. [18] Y. Kubo, T. Nakatani, M. Delcroix, K. Kinoshita, and S. Araki, “Mask-based MVDR Beamformer for Noisy Multisource Environments: Introduction of Time-varying Spatial Covariance Model,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2019-May, pp. 6855–6859, 2019. [19] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2016-May, pp. 196–200, 2016. [20] J. Heymann, L. Drude, A. Chinaev, and R. Haeb-Umbach, “BLSTM supported GEV beamformer front-end for the 3RD CHiME challenge,” 2015 IEEE Work. Autom. Speech Recognit. Understanding, ASRU 2015 - Proc., no. June 2016, pp. 444–451, 2016.
  • 27. 27 R&D Center, Tokyo Laboratory 21 参考文献(2/2) [21] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Minimization of Mutual Information,” in Independent Component Analysis, 2003. [22] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Maximum Likelihood Estimation,” in Independent Component Analysis, 2003. [23] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio Speech Lang. Process., 2016. [24] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1652–1664, 2016. [25] A. Hiroe, “Solution of permutation problem in frequency domain ica, using multivariate probability density functions,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 601–608, 2006. [26] T. Kim, T. Eltoft, and T. W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, no. 1, pp. 165–172, 2006. [27] I. Lee, T. Kim, and T. W. Lee, “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 625–632, 2006. [28] T. Kim, H. T. Attias, S. Y. Lee, and T. W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. [29] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 2, no. 9, pp. 189–192, 2011. [30] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, “The third ‘CHiME’ speech separation and recognition challenge: Dataset, task and baselines,” in 2015 IEEE Workshop on Automatic Speech Recognition and Understanding, ASRU 2015 - Proceedings, 2016.
  • 28. SONY is a registered trademark of Sony Corporation. Names of Sony products and services are the registered trademarks and/or trademarks of Sony Corporation or its Group companies. Other company names and product names are registered trademarks and/or trademarks of the respective companies.