SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
論⽂紹介:
CIF: CONTINUOUS INTEGRATE-AND-FIRE
FOR END-TO-END SPEECH RECOGNITION
Linhao Dong 1, Bo Xu 2
1Insitute of Automation, Chinese Academy of Sciences, China
2University of Chinese Academy of Sciences, China
京都⼤学 上乃 聖
ICASSP2020 論⽂読み会 (オンライン)
上乃 聖 (UENO Sei)
• 同志社⼤学 理⼯学部 情報システムデザイン学科 (B1~B4)
→京都⼤学⼤学院 (河原研, M1~D2)
• 研究分野
• Automatic speech recognition (ASR)
• Text-to-Speech (TTS)
• ASR + TTS
個⼈ページ:
http://sap.ist.i.kyoto-u.ac.jp/members/ueno/
Github:
https://github.com/syoamakase
⾃⼰紹介 2
⽬的: オンライン⾳声認識 3
• ⾼精度なAttention-based ASRシステムの多くは応⽤時に問題あり
1. オンライン化ができない
• エンコーダでBiLSTMを使うため発話全体の⼊⼒を待つ必要あり
Ø self-attention型のCNNエンコーダを構成
2. タイムスタンプが取れない
• Attentionを使っているためフレームとの同期が取れない
3. Attentionを計算する際に無駄な計算がある
• Encoderの全体に毎回attentionを計算
ØContinuous Integrate-and-Fireを提案
提案⼿法 | アーキテクチャー 4
Self-attentionを使い,
⼀定間隔で区切る (Chunk-hopping)
ことでオンラインに
提案⼿法: 𝜶の値をもとに
アラインメントを決定
参考 | Self-Attention Aligner 5
https://arxiv.org/abs/1902.06450
• Self attentionを⽤いたモデル
• ⼀定区間で区切る(Chunk-hopping)することでオンライン化
SANs = self attention network
提案⼿法 | Continuous Integrate-and-Fire (CIF) 6
𝒉 = (ℎ!, ℎ", … ℎ#): エンコーダの出⼒
𝜶 = 𝛼!, 𝛼", … 𝛼#
𝛽: アラインメント決定のしきい値
現在のstep 𝑢の𝛼$を𝛼$
%に蓄積
𝛼$
% < 𝛽なら境界としない
𝛼$
% > 𝛽なら境界とする
• 𝑐&を計算
• 𝛼$
%を初期化
Ø 次ステップでは𝛼':$は使わない
アルゴリズムの例 7
1. 𝛼! + 𝛼" = 0.2 + 0.9 = 1.1 < 𝛽 なので切り分け (アラインメント)
• 𝛼" = 0.8 = 𝛼"! + 0.1(= 𝛼"")として 𝛼""を保持
• 𝑐! = 𝛼! ∗ ℎ! + 𝛼"! ∗ ℎ" = 0.2 ∗ ℎ! + 0.8 ∗ ℎ"
2. 𝛼"" + 𝛼# = 0.7 > 𝛽なので次のステップへ
3. 𝛼"" + 𝛼# + 𝛼$ = 1.3 < 𝛽 なので切り分け
• 𝛼$ = 0. 3 = 𝛼$! + 0.3(= 𝛼$")として 𝛼$"を保持
• 𝑐" = 𝛼"! ∗ ℎ" + 𝛼# ∗ ℎ# + 𝛼$! ∗ ℎ$ = 0.1 ∗ ℎ" + 0.6 ∗ ℎ# +0.3 ∗ ℎ$
𝜶 = 0.2, 0.9,0.6, 0.6, 0.1 …
𝒉 = (ℎ!, ℎ", … ℎ#)
𝛽 = 1.0
𝜶: current weight
𝒉: encoderの出⼒
𝒄: Integrated embedding
Scaling Strategy
• 学習時にアラインメントの数を合わせる
J 𝒄 の⻑さと正解系列 𝒚の⻑さが⼀致しているとlossが計算しやすい
Quantity Loss
• ⻑さを合わせるためのloss関数ℒ)#*を⽤意
Tail Handling
• 終わった時点での𝛼の値が0.5を超えていたらアラインメントとする
• 終了を⽰す<EOS>の導⼊
CIF-basedモデルの⼯夫点 8
𝜶 = (𝛼!, 𝛼", … 𝛼#) 𝜶′ = (𝛼′!, 𝛼′", … 𝛼′#)
𝛼′$ =
+,
∑!"#
$ .!
𝛼$ ( :𝑆 =正解系列の⻑さ)
ℒ%&' = 6
()!
&
𝛼( − 8𝑆
Results on LibriSpeech (English) 9
• 先⾏研究monotonicのモデルよりも良い結果
• Offlineのモデルと⽐べても良い結果
Ablation study 10
• Scaling loss,Quantity loss,tail handling (提案⼿法)がそれぞれ効果あり
• CTC lossも効果はあるが,他ほどではない
• 英語ではautoregressiveは効果あるが,中国語 (AISHELL-2)では変化なし
• 中国語の⽅が⾳響的な境界が分かり易い?
Results on AISHELL-2 and HKUST (Chinese)11
ü 中国語でも同程度の傾向
アラインメント例 12
https://linhodong.github.io/cif_alignment/
• それっぽいところでアラインメントが取れている
ü フレームごとにアラインメントが正確に取れる
üCIF-based modelによって現在のASRが抱える問題を解決しつつ⾼精度
1. オンライン化ができない
Øself-attention型のCNNエンコーダを構成
2. タイムスタンプが取れない
Ø 𝛼$
% > 𝛽を超えた地点をアラインメントとすることで正確なアライ
ンメントが取れる!
3. Attentionを計算する際に無駄な計算がある
Ø以前にアラインメントとしたところは計算に組み込まない
⾯⽩いと思った点
• 簡単なモデルでなおかつ⾼精度を達成できる点
• 実際にそれっぽいアラインメントも取れている
まとめ 13

Mais conteúdo relacionado

Mais procurados

DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
ストリーム処理とSensorBee
ストリーム処理とSensorBeeストリーム処理とSensorBee
ストリーム処理とSensorBeeDaisuke Tanaka
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPythonKimikazu Kato
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014Jiro Nishitoba
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」Naonori Nagano
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Etsuji Nakai
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
A Chainer MeetUp Talk
A Chainer MeetUp TalkA Chainer MeetUp Talk
A Chainer MeetUp TalkYusuke Oda
 
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425RCCSRENKEI
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPyKenta Oono
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料Kensuke Otsuki
 

Mais procurados (20)

LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ストリーム処理とSensorBee
ストリーム処理とSensorBeeストリーム処理とSensorBee
ストリーム処理とSensorBee
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
SensorBeeのご紹介
SensorBeeのご紹介SensorBeeのご紹介
SensorBeeのご紹介
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
UsingChainerMN
UsingChainerMNUsingChainerMN
UsingChainerMN
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
A Chainer MeetUp Talk
A Chainer MeetUp TalkA Chainer MeetUp Talk
A Chainer MeetUp Talk
 
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPy
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料
 

Semelhante a ICASSP2020 論文読み会 資料 上乃聖

kagami_comput2016_01
kagami_comput2016_01kagami_comput2016_01
kagami_comput2016_01swkagami
 
Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!KAIKenzo
 
Kansai MT Pivot Arekore
Kansai MT Pivot ArekoreKansai MT Pivot Arekore
Kansai MT Pivot ArekoreAkiva Miura
 
2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会虎の穴 開発室
 
Effective python #5, #6
Effective python #5, #6Effective python #5, #6
Effective python #5, #6bontakun
 
JavaScript 講習会 #1
JavaScript 講習会 #1JavaScript 講習会 #1
JavaScript 講習会 #1Susisu
 
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用MITSUNARI Shigeo
 
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...TAUS - The Language Data Network
 
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャMasakazu Matsushita
 
kagamicomput201701
kagamicomput201701kagamicomput201701
kagamicomput201701swkagami
 
これからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツールこれからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツールNobuhisa Koizumi
 
Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)Yosuke Horio
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 finalJiro Nishitoba
 
HiroshimaR6_Introduction
HiroshimaR6_IntroductionHiroshimaR6_Introduction
HiroshimaR6_IntroductionSAKAUE, Tatsuya
 
The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)Hiroyuki Masuno
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索Masahiko Sawada
 
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & WalkthroughIsaac Mathis
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学MITSUNARI Shigeo
 

Semelhante a ICASSP2020 論文読み会 資料 上乃聖 (20)

kagami_comput2016_01
kagami_comput2016_01kagami_comput2016_01
kagami_comput2016_01
 
Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!
 
Mt basic as-os_on_danbot
Mt basic as-os_on_danbotMt basic as-os_on_danbot
Mt basic as-os_on_danbot
 
Kansai MT Pivot Arekore
Kansai MT Pivot ArekoreKansai MT Pivot Arekore
Kansai MT Pivot Arekore
 
2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会
 
Effective python #5, #6
Effective python #5, #6Effective python #5, #6
Effective python #5, #6
 
JavaScript 講習会 #1
JavaScript 講習会 #1JavaScript 講習会 #1
JavaScript 講習会 #1
 
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
 
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
 
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
 
kagamicomput201701
kagamicomput201701kagamicomput201701
kagamicomput201701
 
HPC Phys-20201203
HPC Phys-20201203HPC Phys-20201203
HPC Phys-20201203
 
これからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツールこれからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツール
 
Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
HiroshimaR6_Introduction
HiroshimaR6_IntroductionHiroshimaR6_Introduction
HiroshimaR6_Introduction
 
The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索
 
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 

ICASSP2020 論文読み会 資料 上乃聖

  • 1. 論⽂紹介: CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION Linhao Dong 1, Bo Xu 2 1Insitute of Automation, Chinese Academy of Sciences, China 2University of Chinese Academy of Sciences, China 京都⼤学 上乃 聖 ICASSP2020 論⽂読み会 (オンライン)
  • 2. 上乃 聖 (UENO Sei) • 同志社⼤学 理⼯学部 情報システムデザイン学科 (B1~B4) →京都⼤学⼤学院 (河原研, M1~D2) • 研究分野 • Automatic speech recognition (ASR) • Text-to-Speech (TTS) • ASR + TTS 個⼈ページ: http://sap.ist.i.kyoto-u.ac.jp/members/ueno/ Github: https://github.com/syoamakase ⾃⼰紹介 2
  • 3. ⽬的: オンライン⾳声認識 3 • ⾼精度なAttention-based ASRシステムの多くは応⽤時に問題あり 1. オンライン化ができない • エンコーダでBiLSTMを使うため発話全体の⼊⼒を待つ必要あり Ø self-attention型のCNNエンコーダを構成 2. タイムスタンプが取れない • Attentionを使っているためフレームとの同期が取れない 3. Attentionを計算する際に無駄な計算がある • Encoderの全体に毎回attentionを計算 ØContinuous Integrate-and-Fireを提案
  • 4. 提案⼿法 | アーキテクチャー 4 Self-attentionを使い, ⼀定間隔で区切る (Chunk-hopping) ことでオンラインに 提案⼿法: 𝜶の値をもとに アラインメントを決定
  • 5. 参考 | Self-Attention Aligner 5 https://arxiv.org/abs/1902.06450 • Self attentionを⽤いたモデル • ⼀定区間で区切る(Chunk-hopping)することでオンライン化 SANs = self attention network
  • 6. 提案⼿法 | Continuous Integrate-and-Fire (CIF) 6 𝒉 = (ℎ!, ℎ", … ℎ#): エンコーダの出⼒ 𝜶 = 𝛼!, 𝛼", … 𝛼# 𝛽: アラインメント決定のしきい値 現在のstep 𝑢の𝛼$を𝛼$ %に蓄積 𝛼$ % < 𝛽なら境界としない 𝛼$ % > 𝛽なら境界とする • 𝑐&を計算 • 𝛼$ %を初期化 Ø 次ステップでは𝛼':$は使わない
  • 7. アルゴリズムの例 7 1. 𝛼! + 𝛼" = 0.2 + 0.9 = 1.1 < 𝛽 なので切り分け (アラインメント) • 𝛼" = 0.8 = 𝛼"! + 0.1(= 𝛼"")として 𝛼""を保持 • 𝑐! = 𝛼! ∗ ℎ! + 𝛼"! ∗ ℎ" = 0.2 ∗ ℎ! + 0.8 ∗ ℎ" 2. 𝛼"" + 𝛼# = 0.7 > 𝛽なので次のステップへ 3. 𝛼"" + 𝛼# + 𝛼$ = 1.3 < 𝛽 なので切り分け • 𝛼$ = 0. 3 = 𝛼$! + 0.3(= 𝛼$")として 𝛼$"を保持 • 𝑐" = 𝛼"! ∗ ℎ" + 𝛼# ∗ ℎ# + 𝛼$! ∗ ℎ$ = 0.1 ∗ ℎ" + 0.6 ∗ ℎ# +0.3 ∗ ℎ$ 𝜶 = 0.2, 0.9,0.6, 0.6, 0.1 … 𝒉 = (ℎ!, ℎ", … ℎ#) 𝛽 = 1.0 𝜶: current weight 𝒉: encoderの出⼒ 𝒄: Integrated embedding
  • 8. Scaling Strategy • 学習時にアラインメントの数を合わせる J 𝒄 の⻑さと正解系列 𝒚の⻑さが⼀致しているとlossが計算しやすい Quantity Loss • ⻑さを合わせるためのloss関数ℒ)#*を⽤意 Tail Handling • 終わった時点での𝛼の値が0.5を超えていたらアラインメントとする • 終了を⽰す<EOS>の導⼊ CIF-basedモデルの⼯夫点 8 𝜶 = (𝛼!, 𝛼", … 𝛼#) 𝜶′ = (𝛼′!, 𝛼′", … 𝛼′#) 𝛼′$ = +, ∑!"# $ .! 𝛼$ ( :𝑆 =正解系列の⻑さ) ℒ%&' = 6 ()! & 𝛼( − 8𝑆
  • 9. Results on LibriSpeech (English) 9 • 先⾏研究monotonicのモデルよりも良い結果 • Offlineのモデルと⽐べても良い結果
  • 10. Ablation study 10 • Scaling loss,Quantity loss,tail handling (提案⼿法)がそれぞれ効果あり • CTC lossも効果はあるが,他ほどではない • 英語ではautoregressiveは効果あるが,中国語 (AISHELL-2)では変化なし • 中国語の⽅が⾳響的な境界が分かり易い?
  • 11. Results on AISHELL-2 and HKUST (Chinese)11 ü 中国語でも同程度の傾向
  • 13. üCIF-based modelによって現在のASRが抱える問題を解決しつつ⾼精度 1. オンライン化ができない Øself-attention型のCNNエンコーダを構成 2. タイムスタンプが取れない Ø 𝛼$ % > 𝛽を超えた地点をアラインメントとすることで正確なアライ ンメントが取れる! 3. Attentionを計算する際に無駄な計算がある Ø以前にアラインメントとしたところは計算に組み込まない ⾯⽩いと思った点 • 簡単なモデルでなおかつ⾼精度を達成できる点 • 実際にそれっぽいアラインメントも取れている まとめ 13