O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Overcoming Catastrophic Forgetting in Neural Networks読んだ

Summary of "Overcoming Catastrophic Forgetting in Neural Networks"

  • Entre para ver os comentários

Overcoming Catastrophic Forgetting in Neural Networks読んだ

  1. 1. Overcoming catastrophic forge2ng in neural networks Yusuke Uchida@DeNA
  2. 2. なにこれ? •  ニューラルネットワークが持つ⽋陥「破滅的忘却」 を回避するアルゴリズムをDeepMindが開発
 http://gigazine.net/news/20170315-elastic-weight- consolidation/ •  なんか凄そうだし、論⽂中に汎⽤⼈⼯知能とか書い てあるけど、やっていることはシンプル •  端的にいうと、NNのパラメータのフィッシャー情 報⾏列をパラメータの重要度として利⽤する
  3. 3. 背景 •  汎⽤⼈⼯知能は多数の異なるタスクをこなすことが 求められる •  これらのタスクは明⽰的にラベル付けされていな かったり、突然⼊れ替わったり、⻑い間再び発⽣し なかったりする •  連続的に与えられるタスクを、以前に学習したワス クを忘れることなく学習するContinual Learning(継続学習)が重要となる •  なぜならNNは現在のタスク(e.g. task B)に関する 情報を扱うと、以前のタスク(e.g. task A)に関す る情報を急に失ってしまう=catastrophic forgetting
  4. 4. 背景 •  現状のcatastrophic forgettingに対するアプローチは、 全てのタスクに関するデータを予め揃え、同時にす べてのテスクを学習する(各タスクのデータを細切 れに並べて学習させる)multitask learning •  もしタスクが逐次的にしか与えられない場合、デー タを⼀時的に記憶し、学習時に再⽣する(system- level consolidation; システムレベルの記憶固定)し かない •  タスクが多いと⾮現実的
 ※この辺の⽤語は脳神経科学系?
  5. 5. 背景 •  継続学習はtask-specific synaptic consolidationによ り実現されていると解釈することができる(?)
 =以前のタスクに対する知識は、⾮可塑的になった シナプスの割合に⽐例して⻑持ちする •  このsynaptic consolidationに着想を得たelastic weight consolidation (EWC) を提案する
 > synaptic consolidationは、前回お話ししたLTPを起因とするシナ プスの構造変化のことです。 > system consolidationは、もっとマクロなレベルの変化のことで、 脳全体の異なる脳領域間で起こるゆるやかな再編成です。 http://ameblo.jp/neuroscience2013/entry-11860086069.html
  6. 6. EWCの導出 •  EWCは、タスクAのエラーがなるべく⼩さくなるパラ メータ空間内でタスクBのパラメータを学習
 =重要なパラメータは変化させない(イメージ) •  L2は、元のパラメータからのL2距離をタスクBの学習時 に加える=全パラメータの重要度が同じと仮定 •  No penaltyはタスクAを無視 パラメータ空間 タスクA学習後の 最良パラメータ
  7. 7. EWCの導出 •  今、データDが与えられとき、その事後確率を求めたいとする •  対数をとると •  Dが、タスクAのデータDAと、タスクBのデータDBから構成され、互いに 独⽴に⽣成されると仮定する •  変形すると •  つまり…?
 全体のデータセットに対して学習することを考える際に、
 タスクAに関しては、上記の事後確率に全ての情報が含まれている どのパラメータが重要か
  8. 8. EWCの導出 •  真の事後分布を求めることは不可能なので、
 MackayのLaplace approximationに従い、
 この事後確率を
 平均がθA *、対⾓の精度がフィッシャー情報⾏列Fの対⾓成分 で与えられる多変量ガウス分布で近似する
 (対⾓じゃないと、パラメータの⼆乗個の値が必要) •  これにより、EWCの⽬的関数は下記となる θA * 精度高 フィッシャー情報量大 精度低 フィッシャー 情報量小
  9. 9. 直感的理解 •  結局やりたいことは、タスクAで学習したパラメー タθA *をなるべく維持しながらタスクBにも適⽤する ようにパラメータを修正する •  なるべく維持=L2距離を⼩さくでは駄⽬ •  なぜならパラメータは多様体上にあり、適切な計量 を考慮した測地線で距離を測らないといけない
 (e.g. 地図上の2点を結ぶ直線が最短ルートではない) •  確率分布における計量=フィッシャー情報⾏列 •  KLダイバージェンスのテイラー展開の2次の項が フィッシャー情報⾏列 •  局所的には、KLダイバージェンスの観点から、θA * から⼤きく外れないようにタスクBを学習する
  10. 10. どうやって求めるの? •  フィッシャー情報⾏列を対⾓と仮定しているので、 単に各パラメータのフィッシャー情報量 •  すなわち、対数尤度関数(ロス関数)の分散
 →⼀定数の学習サンプル毎に勾配を求め、それらの ⼆乗和の平均
  11. 11. 余談 •  結局フィッシャー情報⾏列のFiiが⼤きい=θiが重要 •  TOWARDS THE LIMIT OF NETWORK QUANTIZATION, ICLR’17.
 では、ロス関数のHessian=フィッシャー情報⾏列 を考慮したパラメータの量⼦化を⾏っている
  12. 12. 参考 •  丁寧な記事(数式はこちらから引⽤) –  https://rylanschaeffer.github.io/content/research/ overcoming_catastrophic_forgetting/main.html •  これも良い –  http://www.inference.vc/comment-on-overcoming- catastrophic-forgetting-in-nns-are-multiple-penalties- needed-2/ •  TensorFlow実装 –  https://github.com/ariseff/overcoming-catastrophic

×