Enviar pesquisa
Carregar
ICASSP2020 論文読み会 資料 上乃聖
•
0 gostou
•
225 visualizações
S
SeiUeno
Seguir
ICASSP 2020 論文読み会の資料です https://connpass.com/event/176798/
Leia menos
Leia mais
Dados e análise
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 13
Baixar agora
Baixar para ler offline
Recomendados
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線
Kimikazu Kato
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConference
Kensuke Otsuki
Recomendados
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
Pythonによる機械学習の最前線
Pythonによる機械学習の最前線
Kimikazu Kato
アルゴリズムを楽しく!@PiyogrammerConference
アルゴリズムを楽しく!@PiyogrammerConference
Kensuke Otsuki
LT@Chainer Meetup
LT@Chainer Meetup
Shunta Saito
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
ストリーム処理とSensorBee
ストリーム処理とSensorBee
Daisuke Tanaka
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
SensorBeeのご紹介
SensorBeeのご紹介
Daisuke Tanaka
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
Kimikazu Kato
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
UsingChainerMN
UsingChainerMN
Takayoshi Yamashita
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
More modern gpu
More modern gpu
Preferred Networks
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
A Chainer MeetUp Talk
A Chainer MeetUp Talk
Yusuke Oda
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425
RCCSRENKEI
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
Tomoki Hayashi
Introduction to Chainer and CuPy
Introduction to Chainer and CuPy
Kenta Oono
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料
Kensuke Otsuki
kagami_comput2016_01
kagami_comput2016_01
swkagami
Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!
KAIKenzo
Mais conteúdo relacionado
Mais procurados
LT@Chainer Meetup
LT@Chainer Meetup
Shunta Saito
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
ストリーム処理とSensorBee
ストリーム処理とSensorBee
Daisuke Tanaka
Icml読み会 deep speech2
Icml読み会 deep speech2
Jiro Nishitoba
SensorBeeのご紹介
SensorBeeのご紹介
Daisuke Tanaka
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
Kimikazu Kato
Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
UsingChainerMN
UsingChainerMN
Takayoshi Yamashita
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
More modern gpu
More modern gpu
Preferred Networks
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
A Chainer MeetUp Talk
A Chainer MeetUp Talk
Yusuke Oda
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425
RCCSRENKEI
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
Tomoki Hayashi
Introduction to Chainer and CuPy
Introduction to Chainer and CuPy
Kenta Oono
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料
Kensuke Otsuki
Mais procurados
(20)
LT@Chainer Meetup
LT@Chainer Meetup
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
ストリーム処理とSensorBee
ストリーム処理とSensorBee
Icml読み会 deep speech2
Icml読み会 deep speech2
SensorBeeのご紹介
SensorBeeのご紹介
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
Chainer meetup20151014
Chainer meetup20151014
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
UsingChainerMN
UsingChainerMN
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
More modern gpu
More modern gpu
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
A Chainer MeetUp Talk
A Chainer MeetUp Talk
El text.tokuron a(2019).katagiri190425
El text.tokuron a(2019).katagiri190425
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
Introduction to Chainer and CuPy
Introduction to Chainer and CuPy
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
IT エンジニア本大賞 2021 講演資料
IT エンジニア本大賞 2021 講演資料
Semelhante a ICASSP2020 論文読み会 資料 上乃聖
kagami_comput2016_01
kagami_comput2016_01
swkagami
Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!
KAIKenzo
Mt basic as-os_on_danbot
Mt basic as-os_on_danbot
たけおか しょうぞう
Kansai MT Pivot Arekore
Kansai MT Pivot Arekore
Akiva Miura
2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会
虎の穴 開発室
Effective python #5, #6
Effective python #5, #6
bontakun
JavaScript 講習会 #1
JavaScript 講習会 #1
Susisu
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
MITSUNARI Shigeo
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
TAUS - The Language Data Network
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
Masakazu Matsushita
kagamicomput201701
kagamicomput201701
swkagami
HPC Phys-20201203
HPC Phys-20201203
MITSUNARI Shigeo
これからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツール
Nobuhisa Koizumi
Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)
Yosuke Horio
全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
HiroshimaR6_Introduction
HiroshimaR6_Introduction
SAKAUE, Tatsuya
The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)
Hiroyuki Masuno
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
Isaac Mathis
暗号技術の実装と数学
暗号技術の実装と数学
MITSUNARI Shigeo
Semelhante a ICASSP2020 論文読み会 資料 上乃聖
(20)
kagami_comput2016_01
kagami_comput2016_01
Enjoy handwritten digits recognition AI !!
Enjoy handwritten digits recognition AI !!
Mt basic as-os_on_danbot
Mt basic as-os_on_danbot
Kansai MT Pivot Arekore
Kansai MT Pivot Arekore
2017/12/21 虎の穴 Python勉強会
2017/12/21 虎の穴 Python勉強会
Effective python #5, #6
Effective python #5, #6
JavaScript 講習会 #1
JavaScript 講習会 #1
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
Recent Progress in Machine Translation between Japanese and Others, by Mick E...
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
kagamicomput201701
kagamicomput201701
HPC Phys-20201203
HPC Phys-20201203
これからの「言語」の話をしよう ―― 未来を生きるためのツール
これからの「言語」の話をしよう ―― 未来を生きるためのツール
Transformerについて解説!!(Encoder部分)
Transformerについて解説!!(Encoder部分)
全体セミナー20180124 final
全体セミナー20180124 final
HiroshimaR6_Introduction
HiroshimaR6_Introduction
The beginners guide of real-time audio processing (Part 1:Equalizer)
The beginners guide of real-time audio processing (Part 1:Equalizer)
pg_bigmと類似度検索
pg_bigmと類似度検索
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
“Stay Right”ペンテスト体験:SANS Holiday Hack Challenge 2017の解説 & Walkthrough
暗号技術の実装と数学
暗号技術の実装と数学
ICASSP2020 論文読み会 資料 上乃聖
1.
論⽂紹介: CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR
END-TO-END SPEECH RECOGNITION Linhao Dong 1, Bo Xu 2 1Insitute of Automation, Chinese Academy of Sciences, China 2University of Chinese Academy of Sciences, China 京都⼤学 上乃 聖 ICASSP2020 論⽂読み会 (オンライン)
2.
上乃 聖 (UENO
Sei) • 同志社⼤学 理⼯学部 情報システムデザイン学科 (B1~B4) →京都⼤学⼤学院 (河原研, M1~D2) • 研究分野 • Automatic speech recognition (ASR) • Text-to-Speech (TTS) • ASR + TTS 個⼈ページ: http://sap.ist.i.kyoto-u.ac.jp/members/ueno/ Github: https://github.com/syoamakase ⾃⼰紹介 2
3.
⽬的: オンライン⾳声認識 3 •
⾼精度なAttention-based ASRシステムの多くは応⽤時に問題あり 1. オンライン化ができない • エンコーダでBiLSTMを使うため発話全体の⼊⼒を待つ必要あり Ø self-attention型のCNNエンコーダを構成 2. タイムスタンプが取れない • Attentionを使っているためフレームとの同期が取れない 3. Attentionを計算する際に無駄な計算がある • Encoderの全体に毎回attentionを計算 ØContinuous Integrate-and-Fireを提案
4.
提案⼿法 | アーキテクチャー
4 Self-attentionを使い, ⼀定間隔で区切る (Chunk-hopping) ことでオンラインに 提案⼿法: 𝜶の値をもとに アラインメントを決定
5.
参考 | Self-Attention
Aligner 5 https://arxiv.org/abs/1902.06450 • Self attentionを⽤いたモデル • ⼀定区間で区切る(Chunk-hopping)することでオンライン化 SANs = self attention network
6.
提案⼿法 | Continuous
Integrate-and-Fire (CIF) 6 𝒉 = (ℎ!, ℎ", … ℎ#): エンコーダの出⼒ 𝜶 = 𝛼!, 𝛼", … 𝛼# 𝛽: アラインメント決定のしきい値 現在のstep 𝑢の𝛼$を𝛼$ %に蓄積 𝛼$ % < 𝛽なら境界としない 𝛼$ % > 𝛽なら境界とする • 𝑐&を計算 • 𝛼$ %を初期化 Ø 次ステップでは𝛼':$は使わない
7.
アルゴリズムの例 7 1. 𝛼!
+ 𝛼" = 0.2 + 0.9 = 1.1 < 𝛽 なので切り分け (アラインメント) • 𝛼" = 0.8 = 𝛼"! + 0.1(= 𝛼"")として 𝛼""を保持 • 𝑐! = 𝛼! ∗ ℎ! + 𝛼"! ∗ ℎ" = 0.2 ∗ ℎ! + 0.8 ∗ ℎ" 2. 𝛼"" + 𝛼# = 0.7 > 𝛽なので次のステップへ 3. 𝛼"" + 𝛼# + 𝛼$ = 1.3 < 𝛽 なので切り分け • 𝛼$ = 0. 3 = 𝛼$! + 0.3(= 𝛼$")として 𝛼$"を保持 • 𝑐" = 𝛼"! ∗ ℎ" + 𝛼# ∗ ℎ# + 𝛼$! ∗ ℎ$ = 0.1 ∗ ℎ" + 0.6 ∗ ℎ# +0.3 ∗ ℎ$ 𝜶 = 0.2, 0.9,0.6, 0.6, 0.1 … 𝒉 = (ℎ!, ℎ", … ℎ#) 𝛽 = 1.0 𝜶: current weight 𝒉: encoderの出⼒ 𝒄: Integrated embedding
8.
Scaling Strategy • 学習時にアラインメントの数を合わせる J
𝒄 の⻑さと正解系列 𝒚の⻑さが⼀致しているとlossが計算しやすい Quantity Loss • ⻑さを合わせるためのloss関数ℒ)#*を⽤意 Tail Handling • 終わった時点での𝛼の値が0.5を超えていたらアラインメントとする • 終了を⽰す<EOS>の導⼊ CIF-basedモデルの⼯夫点 8 𝜶 = (𝛼!, 𝛼", … 𝛼#) 𝜶′ = (𝛼′!, 𝛼′", … 𝛼′#) 𝛼′$ = +, ∑!"# $ .! 𝛼$ ( :𝑆 =正解系列の⻑さ) ℒ%&' = 6 ()! & 𝛼( − 8𝑆
9.
Results on LibriSpeech
(English) 9 • 先⾏研究monotonicのモデルよりも良い結果 • Offlineのモデルと⽐べても良い結果
10.
Ablation study 10 •
Scaling loss,Quantity loss,tail handling (提案⼿法)がそれぞれ効果あり • CTC lossも効果はあるが,他ほどではない • 英語ではautoregressiveは効果あるが,中国語 (AISHELL-2)では変化なし • 中国語の⽅が⾳響的な境界が分かり易い?
11.
Results on AISHELL-2
and HKUST (Chinese)11 ü 中国語でも同程度の傾向
12.
アラインメント例 12 https://linhodong.github.io/cif_alignment/ • それっぽいところでアラインメントが取れている ü
フレームごとにアラインメントが正確に取れる
13.
üCIF-based modelによって現在のASRが抱える問題を解決しつつ⾼精度 1. オンライン化ができない Øself-attention型のCNNエンコーダを構成 2.
タイムスタンプが取れない Ø 𝛼$ % > 𝛽を超えた地点をアラインメントとすることで正確なアライ ンメントが取れる! 3. Attentionを計算する際に無駄な計算がある Ø以前にアラインメントとしたところは計算に組み込まない ⾯⽩いと思った点 • 簡単なモデルでなおかつ⾼精度を達成できる点 • 実際にそれっぽいアラインメントも取れている まとめ 13
Baixar agora