O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Recurrent Neural Networks

2014年10月30日のPFIセミナーで話したRecurrent Neural Networksの話です。LSTMの解説と4つの応用の紹介を含みます(機械翻訳、簡単なPythonコードの実行、Neural Turing Machines、Visual Attention)。

  • Entre para ver os comentários

Recurrent Neural Networks

  1. 1. Recurrent Neural Networks 2014/10/30 PFIセミナー Seiya Tokui, Preferred Networks
  2. 2. ⾃自⼰己紹介 l 得居 誠也 (Seiya Tokui) l アカウント:beam2d (Twitter, GitHub, etc.) l 東⼤大情報理理⼯工で修⼠士を取ってから PFI ⼊入社 – 最初は⾃自然⾔言語処理理やってた(潜在変数を⼊入れた系列列ラベリング学習) – 次に画像・⾔言語対象に近傍探索索やった(ハッシュ関数の学習) – ⼊入社後は Jubatus のアルゴリズム開発 – 今は PFN で Deep Learning とか映像解析とかとか l 前回スキップしたせいで PFI セミナーは 16 ヶ⽉月ぶり l 今⽇日話す RNN は⾳音声認識識でもよくやられていて⾼高い精度度も出てますが 僕が⾳音声に不不慣れなので今⽇日は話しません(すみません) 2
  3. 3. もくじ l 問題設定 l Recurrent Neural Networks l Backpropagation through Time l Long Short-‐‑‒Term Memory l Deep RNN l 応⽤用:機械翻訳 l 応⽤用:⾔言語処理理系の学習 l 応⽤用:アルゴリズムの学習 l 応⽤用:Visual Attention 3
  4. 4. 問題設定 ⼊入⼒力力データ and/or 予測対象が可変⻑⾧長の系列列 課題⼊入⼒力力予測 ⾳音声認識識周波数空間の ベクトル列列 4 ⾳音素列列、単語列列 など 機械翻訳翻訳元⾔言語の⽂文 (単語/⽂文字列列) 翻訳先⾔言語の⽂文 (単語/⽂文字列列)
  5. 5. Feedforward Neural Networks l 固定⻑⾧長⼊入⼒力力・出⼒力力の場合に⼀一般的に使われるニューラルネット l 可変⻑⾧長の場合には使いにくい – 何かしらの⽅方法で⼊入⼒力力を固定⻑⾧長に直さないといけない (e.g. BoW, N-‐‑‒gram) – 多くの場合、固定⻑⾧長への変換で順序の情報が失われるか、順序の情 報をすべて保存しようとすると次元が⾼高くなりすぎる 5
  6. 6. Recurrent Neural Networks(Elman 型) l 状態を持ったニューラルネット l ⼊入⼒力力→隠れ、隠れ→隠れ、隠れ→出⼒力力 の3種類の結合を持つ 6 ⼊入⼒力力 隠れユニット 出⼒力力
  7. 7. RNNを時間⽅方向に展開すると静的に⾒見見ることができる t = 1 t = 2 t = 3 t = T 7
  8. 8. 勾配計算:Backpropagation through Time (BPTT) l 時間⽅方向に展開した計算グラフ上で、単純に誤差逆伝播する l これで勾配を計算して、勾配ベースの⼿手法を使ってパラメータを最適化する l 系列列全体でBPTTを実⾏行行する以外に、系列列を適当な⻑⾧長さでぶった切切ってBPTTす ることもある(最適化の効率率率を上げるため、実装を簡単にするため etc.) – ぶった切切った場合でも初期状態は正しく計算する必要がある 8
  9. 9. BPTTは勾配が消えたり爆発したりする l エラーが⻑⾧長い系列列をたどる場合、重みがたくさん掛け算される l 重みが何度度も掛けられることで、勾配が系列列⻑⾧長に対して指数的に消失したり爆 発したりする l 爆発に対しては、max-‐‑‒normや勾配の正規化などで対処 l 消失する場合、これは⻑⾧長期依存 (long-‐‑‒term dependency) を学習できなくなる (短いパスの勾配だけが効いてしまうので) 9
  10. 10. ⻑⾧長期依存を学習する Long Short-‐‑‒Term Memory l エラーが重みをかけずに伝搬するようにする 10
  11. 11. ⻑⾧長期依存を学習する Long Short-‐‑‒Term Memory l エラーが重みをかけずに伝搬するようにする Constant Error Carousel (CEC) ct = ct

×