O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Interspeech2020 reading

Interspeech2020 論文読み会(オンライン) #interspeech2020jp

Audiolivros relacionados

Gratuito durante 30 dias do Scribd

Ver tudo
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Interspeech2020 reading

  1. 1. ©Yuki Saito, Nov. 20, 2020. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion 東京大学 D3 齋藤 佑樹 INTERSPEECH2020 論文読み会 (オンライン)
  2. 2. /131 自己紹介  齋藤 佑樹 (SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3) – HP: http://sython.org/  専門: 音声合成・声質変換 – + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換) – + Human computation (human-in-the-loop 話者埋め込み)  その他 – D論予備審査を終えました
  3. 3. /132 本日紹介する論文  Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion – J. Szep(University of Arizona) & S. Hariri(University of Arizona)  3行まとめ – The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝 – 音声スペクトログラムから, その話者がマスクを着用しているか判定 – 複数の認識モデルからの予測結果のアンサンブルで性能改善  選んだ動機 – タイムリーな話題だったから *Computational Paralinguistics ChallengE
  4. 4. /133 1. Introduction  COVID-19 の大流行 – マスクを着用した状態での音声コミュニケーションの機会が増加 – 音声情報だけからマスク着用の有無を識別する技術の需要  本論文: Pre-trained large image classifiers + data fusion – 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応 – 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別 • 複数の分析条件により得られた SP を fusion して入力 • 複数モデルの予測結果をアンサンブルして最終結果を出力 – Discussion として, どの音声周波数帯域が重要なのか調査 SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  5. 5. /134 2. Experimental framework: Dataset  Mask Augsburg Speech Corpus (MASC) – 32名の独語母語話者によるマスク着用/非着用での音声発話 – 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554 – 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  6. 6. /135 2. Experimental framework: SP analysis  音声スペクトログラム (SP) の分析 – 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現 – 分析時のパラメータ (特に窓長) 設定が重要 • 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図) – 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  7. 7. /136 2. Experimental framework: Image classifiers  事前学習済み大規模画像認識モデルを用いた転移学習 – 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効 – 本論文では, 以下のモデルを採用 • VGGNet (VG19)[Simonyan+15] • ResNet (ResNet-50, ResNet-101)[He+15] • DenseNet (DenseNet-121) [Huang+18] SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  8. 8. /137 2. Experimental framework: Ensemble learning  複数の認識モデルによる予測結果を統合 – 異なるアーキテクチャ, 異なる入力の良いとこ取り • Averaging: 各モデルの出力確率を平均 • Voting: 各モデルの予測結果で多数決  その他の機械学習的テクニック等 – データ拡張 (回転, 拡大, 照度変更, 伸縮) – 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動) – Gradually trainable layers (出力層に近い部分から順に更新) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  9. 9. /138 3. Experimental results: 'Training at daylight'  Train データで学習 & Dev データで検証 – 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均) – Linear SP > others (MSS: Mel & ConstQ: Log) – 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms] *Unweighted Average Recall 以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
  10. 10. /139 3. Experimental results: 'Training in the darkness'  Train データ と Dev データを混合して 5-fold cross validation – 評価指標: 各 SP & 各モデルの UAR – Validation データに学習データの話者が含まれる可能性あり • 実際に想定している test の環境とギャップがあるが, • 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい) – (参考程度の結果でしかないが) 90%を超える UAR を達成
  11. 11. /1310 3. Experimental results: Data fusion & final result  Data fusion: 3 SPs × 4 models のアンサンブルで予測 – 評価指標: アンサンブル予測の UAR & Accuracy – 'Daylight' 設定で Dev データに対する UAR が 73.0% • オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に  最終的な Test データに対する予測結果 – 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline) • → Validation データに対する UAR (92.5% よりも低い)
  12. 12. /1311 4. Discussion: Class Activation Mapping (CAM)  CAM: 認識時にモデルが画像中のどこを注視しているか可視化 – モデルの特徴抽出部における最終出力をチャネル方向に平均 • → MSC において, どの周波数レンジが重要なのかを示唆する情報
  13. 13. /1312 4. Discussion: CAM analysis  3CH SP を入力した際の各モデルの CAM を可視化 – 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測 • Mel や Log スケールだとこの帯域の情報が軽視されるので, Linear SP が識別に適していたという結果とも対応
  14. 14. /1313 5. Conclusion  本論文: 音声スペクトログラムからのマスク着用識別 – 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応 – 複数入力・複数モデルのアンサンブル • 異なる分析パラメータを用いた場合の音声スペクトログラム • 様々な学習済みモデル (VGGNet, ResNet, DenseNet)  結果 – Test データに対して 80.3% の UAR を達成 • Baseline よりも 8.3% 改善 & MSC で優勝 – MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆 • Mel や Log ではなく, Linear スケールのスペクトログラムが better  感想 – 実データに対してどれだけ動くのか気になる

×