Learning to forget continual prediction with lstm

2015/05/30 CV勉強会@関東
有名論文読み会発表資料
2015/05/30
peisuke

ニューラルネットワークの最近の展開
• 最近の流れ
• 層を深くして高精度な認識を実現
→人と同程度の画像認識精度を達成
• 課題
• 対象の状況や前後状態まで推測できない
• 近年の流れ
• 動画や音声、文章などの時系列データを対象としたより深い理解へ
→リカレントニューラルネットワークの研究
• 最近の時系列データに関する研究事例
• 強化学習（Deep Q-Networkによるゲーム自動学習、ノウハウ習得）
• 複合学習（画像と文章を学習させて画像のキャプション生成）
• アルゴリズム学習（チューリングマシン学習、Neural Turing Machine）
http://wallpaperswide.com/

リカレントニューラルネットワーク
• 概要
• ネットワーク内にループを持たせ、過去データを次回の
入力に利用
• 過去データと現在データを両方用いた状態変化に関す
る学習を行える
• 次の状態の予測など、状態遷移の認識が可能
時
系
列
デ
ー
タ
入
力
出力層と共に新たに追加した記憶用の
層にも出力
時刻tの隠れ層の内容が時刻t+1の入
力として扱われる
Elman
network

本発表の概要
• 発表論文
• Learning to Forget: Continual Prediction with LSTM
• どんな論文？
• リカレントニューラルネットワークで最も成功している手法
• 発表は古いが今でも主流の手法として利用されている
• 何に使える？
• 時系列データの認識
• 動画解析、ロボット制御、文章解析、音声認識など
• 特徴は？
• LSTMでは、リカレントニューラルネットワークが時系列データ
を学習する際に最も大きな問題であった、近い過去のみし
か記憶できなかった問題を解決
• 上記LSTMは過去のデータを全て覚えてしまい実用性低、本
論文ではLSTMに忘却機能を追加する方法を発表、実用可
能な構成となった
本発表ではLSTMおよび忘却機能付きLSTMについて紹介

Learning to Forget: Continual
Prediction with LSTM
Felix A. Gers
Jürgen Schmidhuber
Fred Cummins
発表：peisuke

背景（1/2）
• リカレントニューラルネット（RNN)について
• ループ付きNNにより、過去データを次回の入力に利用
• 過去データを用いた状態変化に関する学習
• 次の状態の予測など、状態遷移の認識が可能
• 問題設定
• 入力データ・予測対象に可変長の系列を許す
（通常のNNは、入力層の数が固定であり、
可変長データの扱いは難しい。全ての時間のデータを
一度に入力すると次元数が膨大となり扱い困難。）
• 事例
• 音声認識：音声データから単語列を出力
• 機械翻訳：元言語の文章から翻訳先言語の文章生成
Elman network

背景（2/2）
• 従来のRNNの課題
• 学習の困難性、誤差の消失・発散
• 誤差消失のため10ステップ時間までが限界
• Back Propagation Through Time
展開
t0 t1 t2
展開後RNN
（展開により多層NNと同様に扱える）
BP
教師データ
多層NN同様に誤差が
消失・発散
RNN
t0,t1,t2
学習データの流れ

Long short-term memory (S. Hochreiter, 1997)
• 効果
• 学習によって誤差が発散・消失しない
• 従来１０ステップに対し、1000ステップ
以上の過去を記憶
• 計算コストも時間当たりO(1)
• 課題
• データを忘れないため、状況が変化に
対応不可能
• オリジナルLSTMでは状況に合わせ手
動で記憶をリセットしているが、実用上
は手動リセットは難しい
• 概要
• データをループさせる際に、重みを１とし維持し続ける
• 誤ったデータを記憶し続けないように、入力・出力部にゲートを設
置し、正しいデータのみ通過させる

Long short-term memory with Forget Gate
• 概要
• 記憶セルを、忘却ゲートの値に
応じてリセットできるようにする
• 効果
• 状況変化を自動で判別し記憶を
リセットできるようになるため、区
切りがないデータでも扱える
• 実用上において非常に有効

LSTMの構成について
• 通常のNN
Σ
sigmoid
y1
y2
y3
𝑦𝑐
𝑡 = 𝑔( 𝑤𝑐 𝑦 𝑡−1)

• 過去情報を減衰させずに再利用
Σy1
y2
y3
1.0
係数を1.0にすることで過去
のデータを記憶し続ける。
Constant Error Carousel (CEC)
全てのデータを記憶し続けるため、
外れ値やノイズも溜め込んでしまう
𝑦𝑐
𝑡
𝑠 𝑡
= 𝑦𝑐
𝑡
+ 𝑠 𝑡−1
𝑠 𝑡
𝑦 𝑡
𝑦 𝑡
= ℎ(𝑠 𝑡
)

• データの選択的取り込み
sigmoid
Σ
y1 y2 y3
yin
ゲートが開いているときに
入力データを記憶
𝑠 𝑡
= 𝑦𝑖𝑛 𝑦𝑐
𝑡
+ 𝑠 𝑡−1

• データの選択的に出力
sigmoid
sigmoid
Σ
y1 y2 y3
𝑦 𝑡
= ℎ 𝑦 𝑜𝑢𝑡 𝑠 𝑡
𝑠 𝑡
𝑦𝑖𝑛

• 忘却ゲートの追加
sigmoid Σ
y1 y2 y3
yf
𝑠 𝑡
= 𝑦𝑖𝑛 𝑦𝑐
𝑡
+ 𝑦𝑓 𝑠 𝑡−1

Long short- term memory with Forget gate
• 計算式まとめ
𝑦𝑖𝑛
𝑡
= 𝑓 𝑤𝑖𝑛 𝑦 𝑡−1 𝑦𝑐
𝑡 = 𝑔 𝑤𝑐 𝑦 𝑡−1
𝑦𝑓
𝑡
= 𝑓 𝑤𝑓 𝑦 𝑡−1 , 𝑠 𝑡 = 𝑦𝑖𝑛
𝑡
𝑦𝑐
𝑡 + 𝑦𝑓 𝑠 𝑡−1
𝑦 𝑜𝑢𝑡
𝑡
= 𝑓 𝑤 𝑜𝑢𝑡 𝑦 𝑡−1 , 𝑦 𝑡 = ℎ 𝑦 𝑜𝑢𝑡
𝑡
𝑠 𝑡
(𝑤𝑐, 𝑤𝑖𝑛 , 𝑤 𝑜𝑢𝑡, 𝑤𝑓)をBP、RTRLで学習

入出力ゲートがどのように影響するか
• 入力ゲート
• 記憶したくないデータを入力ゲートで除去
• 不要なデータかどうかは𝑤𝑖𝑛の学習によって判別可能
• データと𝑤𝑖𝑛の内積で入力可否を判別するため
• 出力ゲート
• 出力したくないデータを出力ゲートで除去
• 入力ゲート同様、不要なデータかどうかを𝑤 𝑜𝑢𝑡の学習
により判別
• LSTMの論文によると無くても動作可能とのことだが、
有ったほうが高性能

実験
• Reber Grammar Problem (RG問題)
• 最もシンプルなベンチマーク方法の一つ
• 文字列を入力した際に、次の文字を予測
• 例：BTSSXと入力すると、出力は(X, S)
• 従来のRNNでも学習可能
• 最新の入力がPの場合、次候補は(V, T)か(S, X)の2種
• Pの前がBであった場合は(V, T)、Pの前がVであった場合は
(X, S)と確定できる
• 数個分の履歴を記憶すれば予測実行可能

実験
• Embedded Reber Grammar Problem (ERG問題)
• 遠い過去のデータを記憶する必要のある少し難しいベ
ンチマーク方法
• 図のようにRGPを二つ組み込んだルールを用いて予測
• 例：BTBTSSXと入力すると、出力は(X, S)
• 従来のRNNでは学習不可
• E（赤丸）という入力があった
場合、次候補はTかPの2種
• Eの次がTである場合、系列
①に進んだこととなる
• 系列を判別するには、２つ
めの入力データT, P（青丸）
を記憶する必要がある
• 長時間の記憶が必要
①
②

実験
• Continual Embedded Reber Grammar Problem
(CERG問題)
• ERGを区切り文字なしで連続で並べた問題
• 過去数ステップ分の記憶は必要であるが、前回ループ
分までの記憶は不要
• 一回のループ長は不定、必
要な記憶長は定義できない
• 昔の記憶を保持するだけで
はなく、必要なタイミングで
記憶を破棄

ERG問題におけるLSTMと従来手法の比較
• ERG問題に対する必要記憶ステップ数の解析
• 平均の文長:11.54文字
• ８００００回試行した際の最長の文字数：50文字
→５０ステップ以上の記憶保持

ERG問題におけるLSTMと従来手法の比較
• 比較対処（LSTM論文の結果の再掲）
• RTRL (Smith and Zipser, 1989)
• Eleman net (Cleeremans et al., 1989)
• Reccurent Cascade Correlation (Fahlman, 1991)
• 比較結果
• LSTMのみ正しく学習
• 学習回数もLSTMが最も少ない
→LSTMでは唯一50文字の文字列の記憶が可能

CERG問題における忘却付きLSTMの評価
• ネットワーク構成
• 4メモリブロック、ブロックあたり2メモリセル
• 入出力層は７ノード

• 実験結果
• 学習は30000回
• テストは10000回連続成功した場合に成功とし10回行う
• 従来型LSTMではほぼ失敗（２，３行目）
• 忘却付きLSTMでは成功率向上
Solutions:全てのテストに成功
Good Results: 平均文長が1000以上

• 解析
• 忘却機能付きLSTMでは文が切り替わる度に
ForgetGateが変化し、セルの状態が初期化されている

論文のまとめ
• 背景
• 時系列データの認識（文章・動画・音声などの学習）
• 従来のリカレントニューラルネットワークは、(a)高々10ステッ
プ分しか記憶できない、(b)学習の困難性あり
• 目的
• 効率よく学習可能で、古い記憶を保持できること
• 手法
• ループ時にデータを維持すると共に、入出力ゲートを用いる
ことで、有効なデータのみ記憶
• 忘却ゲートを利用することで必要に応じ状態をリセット
• 結果
• CERG問題について6割の成功率達成
• 安定かつ高効率な学習

LSTMの応用事例について
• Long-term Recurrent Convolutional Networks for
Visual Recognition and Description
• 抽出した動画上の特徴量を用いLSTMで説明文を出力

LSTMの応用事例について
• Unsupervised Learning of Video Representations
using LSTMs
• AutoEncoderのLSTM版、入力データをAutoEndoerで
自己符号化することで教師無し学習

発表まとめ
• 近年のディープラーニングにおいて、主な研究対
象となっていた静止画のみでは、その状況までは
認識困難
• ニューラルネットワークの研究の流れは、近年で
は時系列データを学習可能なリカレントニューラル
ネットワークに向かっている
• 本発表では、リカレントニューラルネットワークの構
成手法の一つである、過去のデータを保持可能な
LSTMを紹介した

Learning to forget continual prediction with lstm

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Learning to forget continual prediction with lstm

Semelhante a Learning to forget continual prediction with lstm (20)

Mais de Fujimoto Keisuke

Mais de Fujimoto Keisuke (20)

Learning to forget continual prediction with lstm