ICASSP2020 論文読み会資料上乃聖

論⽂紹介:
CIF: CONTINUOUS INTEGRATE-AND-FIRE
FOR END-TO-END SPEECH RECOGNITION
Linhao Dong 1, Bo Xu 2
1Insitute of Automation, Chinese Academy of Sciences, China
2University of Chinese Academy of Sciences, China
京都⼤学上乃聖
ICASSP2020 論⽂読み会 (オンライン)

上乃聖 (UENO Sei)
• 同志社⼤学理⼯学部情報システムデザイン学科 (B1~B4)
→京都⼤学⼤学院 (河原研, M1~D2)
• 研究分野
• Automatic speech recognition (ASR)
• Text-to-Speech (TTS)
• ASR + TTS
個⼈ページ:
http://sap.ist.i.kyoto-u.ac.jp/members/ueno/
Github:
https://github.com/syoamakase
⾃⼰紹介 2

⽬的: オンライン⾳声認識 3
• ⾼精度なAttention-based ASRシステムの多くは応⽤時に問題あり
1. オンライン化ができない
• エンコーダでBiLSTMを使うため発話全体の⼊⼒を待つ必要あり
Ø self-attention型のCNNエンコーダを構成
2. タイムスタンプが取れない
• Attentionを使っているためフレームとの同期が取れない
3. Attentionを計算する際に無駄な計算がある
• Encoderの全体に毎回attentionを計算
ØContinuous Integrate-and-Fireを提案

提案⼿法 | アーキテクチャー 4
Self-attentionを使い，
⼀定間隔で区切る (Chunk-hopping)
ことでオンラインに
提案⼿法: 𝜶の値をもとに
アラインメントを決定

参考 | Self-Attention Aligner 5
https://arxiv.org/abs/1902.06450
• Self attentionを⽤いたモデル
• ⼀定区間で区切る(Chunk-hopping)することでオンライン化
SANs = self attention network

提案⼿法 | Continuous Integrate-and-Fire (CIF) 6
𝒉 = (ℎ!, ℎ", … ℎ#): エンコーダの出⼒
𝜶 = 𝛼!, 𝛼", … 𝛼#
𝛽: アラインメント決定のしきい値
現在のstep 𝑢の𝛼$を𝛼$
%に蓄積
𝛼$
% < 𝛽なら境界としない
𝛼$
% > 𝛽なら境界とする
• 𝑐&を計算
• 𝛼$
%を初期化
Ø 次ステップでは𝛼':$は使わない

アルゴリズムの例 7
1. 𝛼! + 𝛼" = 0.2 + 0.9 = 1.1 < 𝛽 なので切り分け (アラインメント)
• 𝛼" = 0.8 = 𝛼"! + 0.1(= 𝛼"")として 𝛼""を保持
• 𝑐! = 𝛼! ∗ ℎ! + 𝛼"! ∗ ℎ" = 0.2 ∗ ℎ! + 0.8 ∗ ℎ"
2. 𝛼"" + 𝛼# = 0.7 > 𝛽なので次のステップへ
3. 𝛼"" + 𝛼# + 𝛼$ = 1.3 < 𝛽 なので切り分け
• 𝛼$ = 0. 3 = 𝛼$! + 0.3(= 𝛼$")として 𝛼$"を保持
• 𝑐" = 𝛼"! ∗ ℎ" + 𝛼# ∗ ℎ# + 𝛼$! ∗ ℎ$ = 0.1 ∗ ℎ" + 0.6 ∗ ℎ# +0.3 ∗ ℎ$
𝜶 = 0.2, 0.9,0.6, 0.6, 0.1 …
𝒉 = (ℎ!, ℎ", … ℎ#)
𝛽 = 1.0
𝜶: current weight
𝒉: encoderの出⼒
𝒄: Integrated embedding

Scaling Strategy
• 学習時にアラインメントの数を合わせる
J 𝒄 の⻑さと正解系列 𝒚の⻑さが⼀致しているとlossが計算しやすい
Quantity Loss
• ⻑さを合わせるためのloss関数ℒ)#*を⽤意
Tail Handling
• 終わった時点での𝛼の値が0.5を超えていたらアラインメントとする
• 終了を⽰す<EOS>の導⼊
CIF-basedモデルの⼯夫点 8
𝜶 = (𝛼!, 𝛼", … 𝛼#) 𝜶′ = (𝛼′!, 𝛼′", … 𝛼′#)
𝛼′$ =
+,
∑!"#
$ .!
𝛼$ ( :𝑆 =正解系列の⻑さ)
ℒ%&' = 6
()!
&
𝛼( − 8𝑆

Results on LibriSpeech (English) 9
• 先⾏研究monotonicのモデルよりも良い結果
• Offlineのモデルと⽐べても良い結果

Ablation study 10
• Scaling loss，Quantity loss，tail handling (提案⼿法)がそれぞれ効果あり
• CTC lossも効果はあるが，他ほどではない
• 英語ではautoregressiveは効果あるが，中国語 (AISHELL-2)では変化なし
• 中国語の⽅が⾳響的な境界が分かり易い?

Results on AISHELL-2 and HKUST (Chinese)11
ü 中国語でも同程度の傾向

アラインメント例 12
https://linhodong.github.io/cif_alignment/
• それっぽいところでアラインメントが取れている
ü フレームごとにアラインメントが正確に取れる

üCIF-based modelによって現在のASRが抱える問題を解決しつつ⾼精度
1. オンライン化ができない
Øself-attention型のCNNエンコーダを構成
2. タイムスタンプが取れない
Ø 𝛼$
% > 𝛽を超えた地点をアラインメントとすることで正確なアライ
ンメントが取れる!
3. Attentionを計算する際に無駄な計算がある
Ø以前にアラインメントとしたところは計算に組み込まない
⾯⽩いと思った点
• 簡単なモデルでなおかつ⾼精度を達成できる点
• 実際にそれっぽいアラインメントも取れている
まとめ 13

ICASSP2020 論文読み会資料上乃聖

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a ICASSP2020 論文読み会資料上乃聖

Semelhante a ICASSP2020 論文読み会資料上乃聖 (20)