[DL輪読会]High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

High Fidelity Video Prediction with Large
Stochastic Recurrent Neural Networks

概要
● High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks
● University of Michigan, Google Research, Adobe Research
● NeurIPS2019
● 映像予測系。
● 映像の自由度が高く、未来が一意に定まらない場合に広く使える手法を提案
○ モデルのキャパシティを大きくすることは正義
● (自分の卒論の上位互換説…)

生成されたもの
● 映像
○ https://sites.google.com/view/videopredictioncapacity
● すごい
● 厳しめに見ると、
● タオル
○ ◎引っ張られることは理解してそう
○ △テクスチャはとろけてる
● Human
○ ◎予測した動きは違っても鮮明
○ △smallは足がもつれてそう・人がフェードアウトしがち
● KITTI
○ ◎並木道の木はヒントがなくても生成できてる。
○ △前方車両、歩道の白線がフェードアウトしてる

モチベーション
● 映像予測は大事。
○ 映像を予測できる ≒ 環境のダイナミクスを捉えている
○ 人間は結果を予測しながら行動してる(ボール投げる/車を運転する)
● モデルベース強化学習でもやってる
○ 先に内部モデルを学習して、内部モデルでプランニングをする
○ PlaNet (Learning Latent Dynamics for Planning from Pixels, ICML 2019)
■ world model + cross entropy method (方策のネットワークなし)
○ SimPle (Model-Based Reinforcement Learning for Atari, CoRR 2019)
■ world model (1フレームだけ予測) + PPO
○ Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic
Control
● inductive bias(帰納バイアス)多すぎ
○ データの構造というメタ知識をモデル/学習の制約に入れる
○ segmentation mask, optical flow, 前景・背景の分割, adversarial loss

モチベーション
● 深層学習は、モデルの大きさが正義だったことが多い
○ 画像分類、自然言語処理、GAN…
● inductive bias なしでどこまでできるか
● 調べること
○ モデルを大きくすると定量・定性的に改善するのか
○ 結局recurrentが大事か
○ 結局確率的な遷移を仮定することは大事か
● →すごくよくなった

ベースモデル
● SVG (Stochastic Video Generation with a Learned Prior, ICML2018)
○ SSMっぽい
○ 当時のsota
○ ConvLSTMあり
○ skip connectionあり
○ (actionは捨てて実験してる)

ベースモデル
● 普通のSSMは
● ELBO = 再構成誤差 + KL divergence(sの距離)

ベースモデル
○ zのprior(生成過程)、posterior(近似)に今までのxを全部入れる
○ β = 0.0001

ベースモデル
○ 確率的なサンプリングになっている
○ LSTMθは1レイヤー、LSTMθは2レイヤー
○ zは64(タオル), 128次元(人、車)
○ M, Kは後述

提案手法(大きくしかた)
● モデルのキャパシティによる性能の比較
● 単純に、
○ LSTMのunit数をM倍(M=1~3)。デフォルト512
○ FC層のunit数をK倍(K=1~5)。
● パラメータ数は30万~7.5億
● BERTが3億

Ablation Study
● SVG(デフォルト)
● LSTM
○ 確率的な遷移を取り払う
● CNN
○ LSTMも取り払う
○ 直前の画像+初期状態の画像で次の画像を予測

評価指標
● FVDスコア(FVD(Frechet Video Distance)ﾌﾚｼｪ)
○ FIDスコアがベース　Frechet Inception Distance
■ 画像系GANの綺麗さの評価に使うやつ
○ 各フレームのクオリティ+時間的一貫性を評価
○ 本物と生成物のビデオの分布の距離(正規分布を仮定)
○ FIDではinceptionモデルだったのを、
Inflated 3D Convnet(kietics600で学習)に変える
■ DeepMindのaction recongition用
データセット

実験
● 主観評価
○ (CNNが勝ってるところがある…)

まとめ
● モデルのキャパシティを大きくすればよい。
● リカレントは大事(CNN比)
● 確率的は大事(LSTM比)
○ (階層的な気が…)

[DL輪読会]High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (20)

[DL輪読会]High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks