論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation

首都大学東京小野研究室山岡洸瑛
論文紹介
“Direct-Path Signal Cross-Correlation Estimation
for Sound Source Localization in Reverberation”
2019/11/23
Interspeech2019&サテライト論文読み会
論文紹介（信号処理系1）

自己紹介
● 山岡洸瑛（Yamaoka Kouei） D1 @ 首都大学東京
‒ https://k-yamaoka.net/
● 略歴
‒ 2016年: 筑波大学で牧野研へ所属，脳波信号処理ができずに音響信号処理へ
• 牧野先生，小野先生にご指導いただき，主に劣決定音声強調の研究に従事
‒ 2019年 4月～: 首都大学東京小野研所属
● 研究分野: 音響信号処理
‒ ステレオマイクを用いた音声強調
‒ 非同期分散マイクアレイ
2

宣伝: cos 関数に対する2次補助関数
● Kouei Yamaoka, Robin Scheibler, Nobutaka Ono, and Yukoh Wakabayashi,
"Sub-Sample Time Delay Estimation via Auxiliary-Function-Based
Iterative Updates," Proc. WASPAA, pp. 125-129, Oct. 2019.
‒ 相互相関を補助関数法で最大化，時間差を推定する
‒ とする．任意の実数について，次の不等式が成り立つ
3

注意
● 個人的意見，誤解などが含まれます
‒ 正しい情報は本文を参照してください
4

紹介論文の概要
● Direct-Path Signal Cross-Correlation Estimation for Sound Source
Localization in Reverberation
‒ Wei Xue, Ying Tong, Guohong Ding, Chao Zhang, Tao Ma, Xiaodong He,
Bowen Zhou (JD AI Research)
● 概要
‒ 残響環境下における音源定位のための，相互相関の推定法
‒ 直接波に対する相互相関を推定
5

背景
● 音源到来方向 (direction of arrival; DOA) 推定
‒ マイクロフォンアレイ信号処理技術の一つ
‒ 時間差を利用し，音源の方向や位置を推定
● 何故必要?
‒ 位置情報サービスの実現
‒ 例) 対話ロボットには，話者の方向を向いてほしい
‒ 類似技術: レーダー，ソナー，反射地震学
● 何が難しい?
‒ 時間差は未知，雑音の存在，残響の影響
6

音の伝搬の様子 [I. B. Witew+ 2017]
7

音源定位の従来法: 機械学習ベース
● 観測信号からDOA推定値へのマッピング
‒ 空間情報は一期一会 (部屋の形状，マイク配置，残響など)
‒ どこでも使える汎用的なモデルの学習は困難
‒ 何らかの工夫 or 環境ごとの学習が必要
● 参考文献
‒ S. Chakrabarty, E. A. P. Habets, “Broadband DOA Estimation using Convolutional
Neural Networks Trained with Noise Signals,” WASPAA 2017
‒ W. Zhang, Y. Zhou, Y. Qian, “Robust DOA Estimation Based on Convolutional
Neural Network and Time-Frequency masking,” INTERSPEECH 2019
8

音源定位の従来法: 信号処理ベース
● 相互相関の最大化に基づく手法
‒ GCC-PHAT, GCC-SCOT, SRP-PHAT, …
‒ Options: Parabolic interpolation, zero padding, …
● 信号部分空間に基づく手法
‒ MUSIC, …
● 空間フィルタベースの手法
‒ Beamforming, ICA, …
● モデルベースの手法
‒ 最尤推定, …
9
Time [s]
Lag [s]

残響に頑健な音源定位手法のために
● 残響除去による前処理
‒ T. Nakatani, K. Kinoshita, “Simultaneous Denoising and Dereverberation for Low-
Latency Applications Using Frame-by-Frame Online Unified Convolutional
Beamformer,” INTERSPEECH 2019
● Direct-path signal cross-correlation (DPCC) estimation
‒ Coherence test [S. Mohan+, 2008]
‒ Direct-path dominance test [O. Nadiri+, 2014], [A. H. Moore+, 2015]
‒ Room impulse response estimation [Y. Huang+, 2003], [K. Kowalczyk+, 2013]
‒ 紹介論文: 観測信号から直接 DPCC を推定
10

問題設定
● 番目のマイクにおける観測信号の短時間フーリエ変換(STFT)表現
‒ 窓長 > インパルス応答長の場合
‒ : 時間フレームインデックス， : 周波数インデックス
11
音源伝達関数

問題設定
● 窓長 < インパルス応答長の場合，観測のSTFT表現は
● 窓長が十分短い場合，直接音は
● 目的: との相互相関を推定
12

残響成分の推定
● Multichannel linear prediction (MCLP) による推定 [M. Delcroix+, 2007]
13
Time
Frequency

DPCC の推定
● 直接音の推定
● DPCC の推定 (以下ではを省略)
14

本手法を用いた音源定位
1. MCLP 係数の推定
2. DPCC の推定
‒ Input: 観測信号， MCLP係数，Output: DPCC
3. 相互相関ベースの従来の音源定位
‒ SRP-PHAT など
‒ 通常の相互相関の代わりに DPCC を使うことで，残響に頑健な推定を実現
15

実験結果
16
● 実験条件
‒ マイクアレイ: 6 channel
‒ SNR: 20 – 25 dB
‒ 𝑇60: 400 ms (そんなに長くない…)
‒ その他は本文を参照
● 結果
‒ SRP-PHAT: 通常の相互相関を使用
‒ Proposed: DPCCを使用したSRP-PHAT
‒ 大きな性能向上を確認

まとめ
● 残響に頑健な音源定位のための，相互相関の推定法を提案
‒ 観測信号のみを用いて，直接音に対する相互相関 DPCC を推定
‒ 相互相関ベースの従来法において，相互相関をDPCCに置き換えることで，残響
に頑健な推定を実現
‒ その他，適応的バージョンなども提案されている
● 感想
‒ 残響時間 1秒とかで実験してほしい
‒ 残響成分の推定精度はMCLPに依存
17

論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation

Semelhante a 論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation (10)

論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation