SlideShare uma empresa Scribd logo
1 de 17
首都大学東京 小野研究室 山岡 洸瑛
論文紹介
“Direct-Path Signal Cross-Correlation Estimation
for Sound Source Localization in Reverberation”
2019/11/23
Interspeech2019&サテライト論文読み会
論文紹介(信号処理系1)
自己紹介
● 山岡 洸瑛(Yamaoka Kouei) D1 @ 首都大学東京
‒ https://k-yamaoka.net/
● 略歴
‒ 2016年: 筑波大学で牧野研へ所属,脳波信号処理ができずに音響信号処理へ
• 牧野先生,小野先生にご指導いただき,主に劣決定音声強調の研究に従事
‒ 2019年 4月~: 首都大学東京 小野研所属
● 研究分野: 音響信号処理
‒ ステレオマイクを用いた音声強調
‒ 非同期分散マイクアレイ
2
宣伝: cos 関数に対する2次補助関数
● Kouei Yamaoka, Robin Scheibler, Nobutaka Ono, and Yukoh Wakabayashi,
"Sub-Sample Time Delay Estimation via Auxiliary-Function-Based
Iterative Updates," Proc. WASPAA, pp. 125-129, Oct. 2019.
‒ 相互相関を補助関数法で最大化,時間差を推定する
‒ とする.任意の実数 について,次の不等式が成り立つ
3
注意
● 個人的意見,誤解などが含まれます
‒ 正しい情報は本文を参照してください
4
紹介論文の概要
● Direct-Path Signal Cross-Correlation Estimation for Sound Source
Localization in Reverberation
‒ Wei Xue, Ying Tong, Guohong Ding, Chao Zhang, Tao Ma, Xiaodong He,
Bowen Zhou (JD AI Research)
● 概要
‒ 残響環境下における音源定位のための,相互相関の推定法
‒ 直接波に対する相互相関を推定
5
背景
● 音源到来方向 (direction of arrival; DOA) 推定
‒ マイクロフォンアレイ信号処理技術の一つ
‒ 時間差を利用し,音源の方向や位置を推定
● 何故必要?
‒ 位置情報サービスの実現
‒ 例) 対話ロボットには,話者の方向を向いてほしい
‒ 類似技術: レーダー,ソナー,反射地震学
● 何が難しい?
‒ 時間差 は未知,雑音の存在,残響の影響
6
音の伝搬の様子 [I. B. Witew+ 2017]
7
音源定位の従来法: 機械学習ベース
● 観測信号からDOA推定値へのマッピング
‒ 空間情報は一期一会 (部屋の形状,マイク配置,残響など)
‒ どこでも使える汎用的なモデルの学習は困難
‒ 何らかの工夫 or 環境ごとの学習が必要
● 参考文献
‒ S. Chakrabarty, E. A. P. Habets, “Broadband DOA Estimation using Convolutional
Neural Networks Trained with Noise Signals,” WASPAA 2017
‒ W. Zhang, Y. Zhou, Y. Qian, “Robust DOA Estimation Based on Convolutional
Neural Network and Time-Frequency masking,” INTERSPEECH 2019
8
音源定位の従来法: 信号処理ベース
● 相互相関の最大化に基づく手法
‒ GCC-PHAT, GCC-SCOT, SRP-PHAT, …
‒ Options: Parabolic interpolation, zero padding, …
● 信号部分空間に基づく手法
‒ MUSIC, …
● 空間フィルタベースの手法
‒ Beamforming, ICA, …
● モデルベースの手法
‒ 最尤推定, …
9
Time [s]
Lag [s]
残響に頑健な音源定位手法のために
● 残響除去による前処理
‒ T. Nakatani, K. Kinoshita, “Simultaneous Denoising and Dereverberation for Low-
Latency Applications Using Frame-by-Frame Online Unified Convolutional
Beamformer,” INTERSPEECH 2019
● Direct-path signal cross-correlation (DPCC) estimation
‒ Coherence test [S. Mohan+, 2008]
‒ Direct-path dominance test [O. Nadiri+, 2014], [A. H. Moore+, 2015]
‒ Room impulse response estimation [Y. Huang+, 2003], [K. Kowalczyk+, 2013]
‒ 紹介論文: 観測信号から直接 DPCC を推定
10
問題設定
● 番目のマイクにおける観測信号の短時間フーリエ変換(STFT)表現
‒ 窓長 > インパルス応答長 の場合
‒ : 時間フレームインデックス, : 周波数インデックス
11
音源伝達関数
問題設定
● 窓長 < インパルス応答長の場合,観測のSTFT表現は
● 窓長が十分短い場合,直接音は
● 目的: と の相互相関を推定
12
残響成分の推定
● Multichannel linear prediction (MCLP) による推定 [M. Delcroix+, 2007]
13
Time
Frequency
DPCC の推定
● 直接音の推定
● DPCC の推定 (以下では を省略)
14
本手法を用いた音源定位
1. MCLP 係数の推定
2. DPCC の推定
‒ Input: 観測信号, MCLP係数,Output: DPCC
3. 相互相関ベースの従来の音源定位
‒ SRP-PHAT など
‒ 通常の相互相関の代わりに DPCC を使うことで,残響に頑健な推定を実現
15
実験結果
16
● 実験条件
‒ マイクアレイ: 6 channel
‒ SNR: 20 – 25 dB
‒ 𝑇60: 400 ms (そんなに長くない…)
‒ その他は本文を参照
● 結果
‒ SRP-PHAT: 通常の相互相関を使用
‒ Proposed: DPCCを使用したSRP-PHAT
‒ 大きな性能向上を確認
まとめ
● 残響に頑健な音源定位のための,相互相関の推定法を提案
‒ 観測信号のみを用いて,直接音に対する相互相関 DPCC を推定
‒ 相互相関ベースの従来法において,相互相関をDPCCに置き換えることで,残響
に頑健な推定を実現
‒ その他,適応的バージョンなども提案されている
● 感想
‒ 残響時間 1秒 とかで実験してほしい
‒ 残響成分の推定精度はMCLPに依存
17

Mais conteúdo relacionado

Mais procurados

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 

Mais procurados (20)

Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 

Semelhante a 論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化Shunsuke Ono
 
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用MurakamiAyaka
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 

Semelhante a 論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation (10)

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
11 anai
11 anai11 anai
11 anai
 
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用
GISA2013学術研究発表Web大会 居住者の時空間分布に基づく地域間距離の都市モデルへの適用
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 

論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Localization in Reverberation