Enviar pesquisa
Carregar
Learning to forget continual prediction with lstm
•
29 gostaram
•
67,315 visualizações
Fujimoto Keisuke
Seguir
第29回CV勉強会@関東 有名論文読み会発表資料
Leia menos
Leia mais
Engenharia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 28
Baixar agora
Baixar para ler offline
Recomendados
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
hoxo_m
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
音声認識と深層学習
音声認識と深層学習
Preferred Networks
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
Recomendados
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
hoxo_m
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
音声認識と深層学習
音声認識と深層学習
Preferred Networks
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
Deep Learning JP
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Long Short-term Memory
Long Short-term Memory
nishio
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino
Mais conteúdo relacionado
Mais procurados
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
Deep Learning JP
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Long Short-term Memory
Long Short-term Memory
nishio
Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
Mais procurados
(20)
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Long Short-term Memory
Long Short-term Memory
Soft Actor Critic 解説
Soft Actor Critic 解説
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Semelhante a Learning to forget continual prediction with lstm
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
Hokuto Kagaya
全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
marsee101
[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ
Yusuke Iwasawa
PFI Christmas seminar 2009
PFI Christmas seminar 2009
Preferred Networks
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
cvpaper. challenge
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII
Rainbow
Rainbow
Takahiro Yoshinaga
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
JOI-summer-seminar
JOI-summer-seminar
chigichan24
Kaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular Properties
Kazuki Fujikawa
質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
Semelhante a Learning to forget continual prediction with lstm
(20)
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
全体セミナー20180124 final
全体セミナー20180124 final
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ
PFI Christmas seminar 2009
PFI Christmas seminar 2009
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
Rainbow
Rainbow
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
JOI-summer-seminar
JOI-summer-seminar
Kaggle参加報告: Champs Predicting Molecular Properties
Kaggle参加報告: Champs Predicting Molecular Properties
質問応答システム入門
質問応答システム入門
Mais de Fujimoto Keisuke
A quantum computational approach to correspondence problems on point sets
A quantum computational approach to correspondence problems on point sets
Fujimoto Keisuke
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
Fujimoto Keisuke
YOLACT real-time instance segmentation
YOLACT real-time instance segmentation
Fujimoto Keisuke
Product Managerの役割、周辺ロールとの差異
Product Managerの役割、周辺ロールとの差異
Fujimoto Keisuke
ChainerRLで株売買を結構頑張ってみた(後編)
ChainerRLで株売買を結構頑張ってみた(後編)
Fujimoto Keisuke
Temporal Cycle Consistency Learning
Temporal Cycle Consistency Learning
Fujimoto Keisuke
ML@Loft
ML@Loft
Fujimoto Keisuke
20190414 Point Cloud Reconstruction Survey
20190414 Point Cloud Reconstruction Survey
Fujimoto Keisuke
Chainer meetup 9
Chainer meetup 9
Fujimoto Keisuke
20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説
Fujimoto Keisuke
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
Fujimoto Keisuke
Stock trading using ChainerRL
Stock trading using ChainerRL
Fujimoto Keisuke
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Fujimoto Keisuke
Representation learning by learning to count
Representation learning by learning to count
Fujimoto Keisuke
Dynamic Routing Between Capsules
Dynamic Routing Between Capsules
Fujimoto Keisuke
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
Fujimoto Keisuke
ICCV2017一人読み会
ICCV2017一人読み会
Fujimoto Keisuke
Global optimality in neural network training
Global optimality in neural network training
Fujimoto Keisuke
CVPR2017 oral survey
CVPR2017 oral survey
Fujimoto Keisuke
Mais de Fujimoto Keisuke
(20)
A quantum computational approach to correspondence problems on point sets
A quantum computational approach to correspondence problems on point sets
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Auto...
YOLACT real-time instance segmentation
YOLACT real-time instance segmentation
Product Managerの役割、周辺ロールとの差異
Product Managerの役割、周辺ロールとの差異
ChainerRLで株売買を結構頑張ってみた(後編)
ChainerRLで株売買を結構頑張ってみた(後編)
Temporal Cycle Consistency Learning
Temporal Cycle Consistency Learning
ML@Loft
ML@Loft
20190414 Point Cloud Reconstruction Survey
20190414 Point Cloud Reconstruction Survey
Chainer meetup 9
Chainer meetup 9
20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
Stock trading using ChainerRL
Stock trading using ChainerRL
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Representation learning by learning to count
Representation learning by learning to count
Dynamic Routing Between Capsules
Dynamic Routing Between Capsules
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
ICCV2017一人読み会
ICCV2017一人読み会
Global optimality in neural network training
Global optimality in neural network training
CVPR2017 oral survey
CVPR2017 oral survey
Learning to forget continual prediction with lstm
1.
2015/05/30 CV勉強会@関東 有名論文読み会 発表資料 2015/05/30 peisuke
2.
ニューラルネットワークの最近の展開 • 最近の流れ • 層を深くして高精度な認識を実現 →人と同程度の画像認識精度を達成 •
課題 • 対象の状況や前後状態まで推測できない • 近年の流れ • 動画や音声、文章などの時系列データを対象としたより深い理解へ →リカレントニューラルネットワークの研究 • 最近の時系列データに関する研究事例 • 強化学習(Deep Q-Networkによるゲーム自動学習、ノウハウ習得) • 複合学習(画像と文章を学習させて画像のキャプション生成) • アルゴリズム学習(チューリングマシン学習、Neural Turing Machine) http://wallpaperswide.com/
3.
リカレントニューラルネットワーク • 概要 • ネットワーク内にループを持たせ、過去データを次回の 入力に利用 •
過去データと現在データを両方用いた状態変化に関す る学習を行える • 次の状態の予測など、状態遷移の認識が可能 時 系 列 デ ー タ 入 力 出力層と共に新たに追加した記憶用の 層にも出力 時刻tの隠れ層の内容が時刻t+1の入 力として扱われる Elman network
4.
本発表の概要 • 発表論文 • Learning
to Forget: Continual Prediction with LSTM • どんな論文? • リカレントニューラルネットワークで最も成功している手法 • 発表は古いが今でも主流の手法として利用されている • 何に使える? • 時系列データの認識 • 動画解析、ロボット制御、文章解析、音声認識など • 特徴は? • LSTMでは、リカレントニューラルネットワークが時系列データ を学習する際に最も大きな問題であった、近い過去のみし か記憶できなかった問題を解決 • 上記LSTMは過去のデータを全て覚えてしまい実用性低、本 論文ではLSTMに忘却機能を追加する方法を発表、実用可 能な構成となった 本発表ではLSTMおよび忘却機能付きLSTMについて紹介
5.
Learning to Forget:
Continual Prediction with LSTM Felix A. Gers Jürgen Schmidhuber Fred Cummins 発表:peisuke
6.
背景(1/2) • リカレントニューラルネット(RNN)について • ループ付きNNにより、過去データを次回の入力に利用 •
過去データを用いた状態変化に関する学習 • 次の状態の予測など、状態遷移の認識が可能 • 問題設定 • 入力データ・予測対象に可変長の系列を許す (通常のNNは、入力層の数が固定であり、 可変長データの扱いは難しい。全ての時間のデータを 一度に入力すると次元数が膨大となり扱い困難。) • 事例 • 音声認識:音声データから単語列を出力 • 機械翻訳:元言語の文章から翻訳先言語の文章生成 Elman network
7.
背景(2/2) • 従来のRNNの課題 • 学習の困難性、誤差の消失・発散 •
誤差消失のため10ステップ時間までが限界 • Back Propagation Through Time 展開 t0 t1 t2 展開後RNN (展開により多層NNと同様に扱える) BP 教師データ 多層NN同様に誤差が 消失・発散 RNN t0,t1,t2 学習データの流れ
8.
Long short-term memory
(S. Hochreiter, 1997) • 効果 • 学習によって誤差が発散・消失しない • 従来10ステップに対し、1000ステップ 以上の過去を記憶 • 計算コストも時間当たりO(1) • 課題 • データを忘れないため、状況が変化に 対応不可能 • オリジナルLSTMでは状況に合わせ手 動で記憶をリセットしているが、実用上 は手動リセットは難しい • 概要 • データをループさせる際に、重みを1とし維持し続ける • 誤ったデータを記憶し続けないように、入力・出力部にゲートを設 置し、正しいデータのみ通過させる
9.
Long short-term memory
with Forget Gate • 概要 • 記憶セルを、忘却ゲートの値に 応じてリセットできるようにする • 効果 • 状況変化を自動で判別し記憶を リセットできるようになるため、区 切りがないデータでも扱える • 実用上において非常に有効
10.
LSTMの構成について • 通常のNN Σ sigmoid y1 y2 y3 𝑦𝑐 𝑡 =
𝑔( 𝑤𝑐 𝑦 𝑡−1)
11.
LSTMの構成について • 過去情報を減衰させずに再利用 Σy1 y2 y3 1.0 係数を1.0にすることで過去 のデータを記憶し続ける。 Constant Error
Carousel (CEC) 全てのデータを記憶し続けるため、 外れ値やノイズも溜め込んでしまう 𝑦𝑐 𝑡 𝑠 𝑡 = 𝑦𝑐 𝑡 + 𝑠 𝑡−1 𝑠 𝑡 𝑦 𝑡 𝑦 𝑡 = ℎ(𝑠 𝑡 )
12.
LSTMの構成について • データの選択的取り込み sigmoid Σ y1 y2
y3 yin ゲートが開いているときに 入力データを記憶 𝑠 𝑡 = 𝑦𝑖𝑛 𝑦𝑐 𝑡 + 𝑠 𝑡−1
13.
LSTMの構成について • データの選択的に出力 sigmoid sigmoid Σ y1 y2
y3 𝑦 𝑡 = ℎ 𝑦 𝑜𝑢𝑡 𝑠 𝑡 𝑠 𝑡 𝑦𝑖𝑛
14.
LSTMの構成について • 忘却ゲートの追加 sigmoid Σ y1
y2 y3 yf 𝑠 𝑡 = 𝑦𝑖𝑛 𝑦𝑐 𝑡 + 𝑦𝑓 𝑠 𝑡−1
15.
Long short- term
memory with Forget gate • 計算式まとめ 𝑦𝑖𝑛 𝑡 = 𝑓 𝑤𝑖𝑛 𝑦 𝑡−1 𝑦𝑐 𝑡 = 𝑔 𝑤𝑐 𝑦 𝑡−1 𝑦𝑓 𝑡 = 𝑓 𝑤𝑓 𝑦 𝑡−1 , 𝑠 𝑡 = 𝑦𝑖𝑛 𝑡 𝑦𝑐 𝑡 + 𝑦𝑓 𝑠 𝑡−1 𝑦 𝑜𝑢𝑡 𝑡 = 𝑓 𝑤 𝑜𝑢𝑡 𝑦 𝑡−1 , 𝑦 𝑡 = ℎ 𝑦 𝑜𝑢𝑡 𝑡 𝑠 𝑡 (𝑤𝑐, 𝑤𝑖𝑛 , 𝑤 𝑜𝑢𝑡, 𝑤𝑓)をBP、RTRLで学習
16.
入出力ゲートがどのように影響するか • 入力ゲート • 記憶したくないデータを入力ゲートで除去 •
不要なデータかどうかは𝑤𝑖𝑛の学習によって判別可能 • データと𝑤𝑖𝑛の内積で入力可否を判別するため • 出力ゲート • 出力したくないデータを出力ゲートで除去 • 入力ゲート同様、不要なデータかどうかを𝑤 𝑜𝑢𝑡の学習 により判別 • LSTMの論文によると無くても動作可能とのことだが、 有ったほうが高性能
17.
実験 • Reber Grammar
Problem (RG問題) • 最もシンプルなベンチマーク方法の一つ • 文字列を入力した際に、次の文字を予測 • 例:BTSSXと入力すると、出力は(X, S) • 従来のRNNでも学習可能 • 最新の入力がPの場合、次候補は(V, T)か(S, X)の2種 • Pの前がBであった場合は(V, T)、Pの前がVであった場合は (X, S)と確定できる • 数個分の履歴を記憶すれば予測実行可能
18.
実験 • Embedded Reber
Grammar Problem (ERG問題) • 遠い過去のデータを記憶する必要のある少し難しいベ ンチマーク方法 • 図のようにRGPを二つ組み込んだルールを用いて予測 • 例:BTBTSSXと入力すると、出力は(X, S) • 従来のRNNでは学習不可 • E(赤丸)という入力があった 場合、次候補はTかPの2種 • Eの次がTである場合、系列 ①に進んだこととなる • 系列を判別するには、2つ めの入力データT, P(青丸) を記憶する必要がある • 長時間の記憶が必要 ① ②
19.
実験 • Continual Embedded
Reber Grammar Problem (CERG問題) • ERGを区切り文字なしで連続で並べた問題 • 過去数ステップ分の記憶は必要であるが、前回ループ 分までの記憶は不要 • 一回のループ長は不定、必 要な記憶長は定義できない • 昔の記憶を保持するだけで はなく、必要なタイミングで 記憶を破棄
20.
ERG問題におけるLSTMと従来手法の比較 • ERG問題に対する必要記憶ステップ数の解析 • 平均の文長:11.54文字 •
80000回試行した際の最長の文字数:50文字 →50ステップ以上の記憶保持
21.
ERG問題におけるLSTMと従来手法の比較 • 比較対処(LSTM論文の結果の再掲) • RTRL
(Smith and Zipser, 1989) • Eleman net (Cleeremans et al., 1989) • Reccurent Cascade Correlation (Fahlman, 1991) • 比較結果 • LSTMのみ正しく学習 • 学習回数もLSTMが最も少ない →LSTMでは唯一50文字の文字列の記憶が可能
22.
CERG問題における忘却付きLSTMの評価 • ネットワーク構成 • 4メモリブロック、ブロックあたり2メモリセル •
入出力層は7ノード
23.
CERG問題における忘却付きLSTMの評価 • 実験結果 • 学習は30000回 •
テストは10000回連続成功した場合に成功とし10回行う • 従来型LSTMではほぼ失敗(2,3行目) • 忘却付きLSTMでは成功率向上 Solutions:全てのテストに成功 Good Results: 平均文長が1000以上
24.
CERG問題における忘却付きLSTMの評価 • 解析 • 忘却機能付きLSTMでは文が切り替わる度に ForgetGateが変化し、セルの状態が初期化されている
25.
論文のまとめ • 背景 • 時系列データの認識(文章・動画・音声などの学習) •
従来のリカレントニューラルネットワークは、(a)高々10ステッ プ分しか記憶できない、(b)学習の困難性あり • 目的 • 効率よく学習可能で、古い記憶を保持できること • 手法 • ループ時にデータを維持すると共に、入出力ゲートを用いる ことで、有効なデータのみ記憶 • 忘却ゲートを利用することで必要に応じ状態をリセット • 結果 • CERG問題について6割の成功率達成 • 安定かつ高効率な学習
26.
LSTMの応用事例について • Long-term Recurrent
Convolutional Networks for Visual Recognition and Description • 抽出した動画上の特徴量を用いLSTMで説明文を出力
27.
LSTMの応用事例について • Unsupervised Learning
of Video Representations using LSTMs • AutoEncoderのLSTM版、入力データをAutoEndoerで 自己符号化することで教師無し学習
28.
発表まとめ • 近年のディープラーニングにおいて、主な研究対 象となっていた静止画のみでは、その状況までは 認識困難 • ニューラルネットワークの研究の流れは、近年で は時系列データを学習可能なリカレントニューラル ネットワークに向かっている •
本発表では、リカレントニューラルネットワークの構 成手法の一つである、過去のデータを保持可能な LSTMを紹介した
Baixar agora