SlideShare a Scribd company logo
1 of 20
Download to read offline
VIDEO PIXEL NETWORKS
NAL KALCHBRENNER, A¨ARON VAN DEN OORD, KAREN SIMONYAN
IVO DANIHELKA, ORIOL VINYALS, ALEX GRAVES, KORAY KAVUKCUOGLU
2016/10/28 河野 慎
1
PIXEL VIDEO NETWORKS
書誌情報
▸ 2016年10月3日ArXivに投稿
• まだ被引用はなし
▸ Deep Mind
• PixelRNN, PixelCNN, Wavenetの著者Äaron van den Oordが共著にいる
• ついに映像予測にも手を出した
2
VIDEO PIXEL NETWORKS
背景
▸ 映像のモデリングの難しさ
• 内在する複雑性と曖昧さによって難化
• 今までのアプローチ:
- 平均二乗誤差とDNNの組み合わせ
- 量子化された画像のパッチ(穴埋め?)
- incorporate motion priors
- adversarial lossを使う?
• MovingMNISTなどの単純な予測でも構造的人工物(ぼけなど)をのぞけない
3
VIDEO PIXEL NETWORKS
提案モデル
▸ 映像のピクセルのRGB値の同時確率をモデル化
• x:映像
• xt:t番目のフレーム
• i, j:行・列のインデックス
• RGB:赤緑青の値(0-255)
- 各分布は256次元の離散多項分布(Softmax出力)
• x<:x(t, <i, <j, :) x(<t, :, :, :)
• 分解順は,時系列かつPixelCNNの知見
4
x(t, <i, <j, :)
x(<t, :, :, :)
これを求めるために
VIDEO PIXEL NETWORKS
Video Pixel Networks (VPN)
▸ 2つの構造を有している
• Resolution Preserving CNN Encoders
- データの時系列情報をモデリング
- Convolutional LSTMで構成される

• PixelCNN Decoders
- 映像の空間と色の依存性をモデリング
- PixelCNNで構成されている
5
VIDEO PIXEL NETWORKS
Resolution Preserving CNN Encoders
▸ フレームF0,...,FTを与えられた時
• F0,…,FT-1をまずCNNに入力する
- CNNは8個のResidual Blocksで構成されている(実験則)
✓ 解像度を保持->表現力を失わずにピクセルを生成できるから
- Dilation(Wavenetにも出てきた受容野をコストかけずに広げる方法)
✓ [1, 2, 4, 8] * 2
• T個の出力をConvolutional LSTMに入力する
6
VIDEO PIXEL NETWORKS
PixelCNN Decoders
▸ エンコーダのT個の出力をそれぞれPixelCNNに入力
• PixelCNNは12個のResidual Blocksで構成される
• 出力は,Softmax層で各ピクセルの各色の強さの値(256)
7
Conditional Image Generation 

with PixelCNN DecodersからフレームFtでそれまでに出力したピクセルの値
VIDEO PIXEL NETWORKS
Multiplicative Units
▸ 独自のユニットを定義
• LSTMのゲートを参考
- LSTMのようにセルとメモリは区別しない
- Highway NetworksやGrid LSTMのように恒等写像するゲートはない
✓ 常に非線形に処理される
• W1-4は3 3のカーネル
8
VIDEO PIXEL NETWORKS
Residual Multiplicative Blocks
▸ MUを2つ積んだresidual blocks
• チャンネル数は内部で半分になる
• 一応MUではなくReLUを使った普通のresidual blocksも使う
9
VIDEO PIXEL NETWORKS
ベースラインモデル
10
ない
▸ 前のフレームから次のフレームを予測
• ただし,同フレーム内のピクセル同士の色・位置依存は無視
• 例:ロボットアームの映像
- 時刻tに写っているアームは時刻t+1に左か右に移動
✓ 隣接してるピクセルを考慮しないと

ピクセルxは左に移動,ピクセルyは右に移動

と生成してしまう
✓ VPNなら考慮するから一貫性の取れた生成ができる
VIDEO PIXEL NETWORKS
Moving MNIST
▸ 64 64の20フレーム
• 2つのMNISTの数字が重なったりしながら一定速度で動く動画
• 最初の10フレームを与えて次の10フレームを予想する
▸ MNISTはグレースケールなので,PixelCNNの出力は2値で,損失関数も
• 予測yが完全に正解zと一致した場合(zi = yi)
- H(z, y) = 86.3 nats/frame
11
※実装の詳細は論文参照
VIDEO PIXEL NETWORKS
▸ ベースライン
▸ VPN
▸ 正解
12
あらかじめ与えられたフレーム 予測するべきフレーム
Moving MNISTの結果
VIDEO PIXEL NETWORKS
Moving MNISTの結果
▸ VPNの方がかなり良い
• ボケも少ない
▸ ベースラインはボケ多い
• フレームを生成するに

つれて,不確かさが

増えていくため
13
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 64 64の20フレーム
• カゴの中でロボットアームがものを押す動画
- 各フレームには,ロボットアームの状態と望まれる動作のベクトルが付与
• 学習時
- 2フレームに2状態,2動作を条件付けて,入力
- 動作ベクトルを条件付けて10フレームを予測する
• テスト時は,動作は条件付けて18フレームを予測する
14
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 学習データにあった物体:アームと背景を区別できてる
15
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 学習データにない物体
• ちゃんと物体も生成できているし,もっともらしい動きをさせてる
16
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 同じ2フレームから3パターンのフレーム生成
• 汎化性能の良さを示す
17
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ ベースラインによる生成
• かなりのノイズが含まれている→空間と色の依存関係を考慮してないから
18
VIDEO PIXEL NETWORKS
Robotic Pushing
▸ ベースライン(1, 2),VPN(3, 4),正解データ(5)
19
VIDEO PIXEL NETWORKS
まとめと感想
▸ ビデオの同時確率をモデリングするVideo Pixel Networksを提案
• 動作の事前情報やsurrogate lossesなしにMoving MNISTでSOTA
• Robotic Pushingにおいて,ベースラインよりすぐれている
- 将来予測は,ぼけなどの人工物なしかつ詳細に可能
- 対角の空間依存によって,ロバストで一般的な方法を実現
▸ 順当にPixelRNN->PixelCNN->WaveNet->VPNと発展・拡張してきている
• 研究の流れとして参考にしたい
20

More Related Content

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

[Dl輪読会]video pixel networks

  • 1. VIDEO PIXEL NETWORKS NAL KALCHBRENNER, A¨ARON VAN DEN OORD, KAREN SIMONYAN IVO DANIHELKA, ORIOL VINYALS, ALEX GRAVES, KORAY KAVUKCUOGLU 2016/10/28 河野 慎 1
  • 2. PIXEL VIDEO NETWORKS 書誌情報 ▸ 2016年10月3日ArXivに投稿 • まだ被引用はなし ▸ Deep Mind • PixelRNN, PixelCNN, Wavenetの著者Äaron van den Oordが共著にいる • ついに映像予測にも手を出した 2
  • 3. VIDEO PIXEL NETWORKS 背景 ▸ 映像のモデリングの難しさ • 内在する複雑性と曖昧さによって難化 • 今までのアプローチ: - 平均二乗誤差とDNNの組み合わせ - 量子化された画像のパッチ(穴埋め?) - incorporate motion priors - adversarial lossを使う? • MovingMNISTなどの単純な予測でも構造的人工物(ぼけなど)をのぞけない 3
  • 4. VIDEO PIXEL NETWORKS 提案モデル ▸ 映像のピクセルのRGB値の同時確率をモデル化 • x:映像 • xt:t番目のフレーム • i, j:行・列のインデックス • RGB:赤緑青の値(0-255) - 各分布は256次元の離散多項分布(Softmax出力) • x<:x(t, <i, <j, :) x(<t, :, :, :) • 分解順は,時系列かつPixelCNNの知見 4 x(t, <i, <j, :) x(<t, :, :, :) これを求めるために
  • 5. VIDEO PIXEL NETWORKS Video Pixel Networks (VPN) ▸ 2つの構造を有している • Resolution Preserving CNN Encoders - データの時系列情報をモデリング - Convolutional LSTMで構成される
 • PixelCNN Decoders - 映像の空間と色の依存性をモデリング - PixelCNNで構成されている 5
  • 6. VIDEO PIXEL NETWORKS Resolution Preserving CNN Encoders ▸ フレームF0,...,FTを与えられた時 • F0,…,FT-1をまずCNNに入力する - CNNは8個のResidual Blocksで構成されている(実験則) ✓ 解像度を保持->表現力を失わずにピクセルを生成できるから - Dilation(Wavenetにも出てきた受容野をコストかけずに広げる方法) ✓ [1, 2, 4, 8] * 2 • T個の出力をConvolutional LSTMに入力する 6
  • 7. VIDEO PIXEL NETWORKS PixelCNN Decoders ▸ エンコーダのT個の出力をそれぞれPixelCNNに入力 • PixelCNNは12個のResidual Blocksで構成される • 出力は,Softmax層で各ピクセルの各色の強さの値(256) 7 Conditional Image Generation 
 with PixelCNN DecodersからフレームFtでそれまでに出力したピクセルの値
  • 8. VIDEO PIXEL NETWORKS Multiplicative Units ▸ 独自のユニットを定義 • LSTMのゲートを参考 - LSTMのようにセルとメモリは区別しない - Highway NetworksやGrid LSTMのように恒等写像するゲートはない ✓ 常に非線形に処理される • W1-4は3 3のカーネル 8
  • 9. VIDEO PIXEL NETWORKS Residual Multiplicative Blocks ▸ MUを2つ積んだresidual blocks • チャンネル数は内部で半分になる • 一応MUではなくReLUを使った普通のresidual blocksも使う 9
  • 10. VIDEO PIXEL NETWORKS ベースラインモデル 10 ない ▸ 前のフレームから次のフレームを予測 • ただし,同フレーム内のピクセル同士の色・位置依存は無視 • 例:ロボットアームの映像 - 時刻tに写っているアームは時刻t+1に左か右に移動 ✓ 隣接してるピクセルを考慮しないと
 ピクセルxは左に移動,ピクセルyは右に移動
 と生成してしまう ✓ VPNなら考慮するから一貫性の取れた生成ができる
  • 11. VIDEO PIXEL NETWORKS Moving MNIST ▸ 64 64の20フレーム • 2つのMNISTの数字が重なったりしながら一定速度で動く動画 • 最初の10フレームを与えて次の10フレームを予想する ▸ MNISTはグレースケールなので,PixelCNNの出力は2値で,損失関数も • 予測yが完全に正解zと一致した場合(zi = yi) - H(z, y) = 86.3 nats/frame 11 ※実装の詳細は論文参照
  • 12. VIDEO PIXEL NETWORKS ▸ ベースライン ▸ VPN ▸ 正解 12 あらかじめ与えられたフレーム 予測するべきフレーム Moving MNISTの結果
  • 13. VIDEO PIXEL NETWORKS Moving MNISTの結果 ▸ VPNの方がかなり良い • ボケも少ない ▸ ベースラインはボケ多い • フレームを生成するに
 つれて,不確かさが
 増えていくため 13
  • 14. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 64 64の20フレーム • カゴの中でロボットアームがものを押す動画 - 各フレームには,ロボットアームの状態と望まれる動作のベクトルが付与 • 学習時 - 2フレームに2状態,2動作を条件付けて,入力 - 動作ベクトルを条件付けて10フレームを予測する • テスト時は,動作は条件付けて18フレームを予測する 14
  • 15. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 学習データにあった物体:アームと背景を区別できてる 15
  • 16. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 学習データにない物体 • ちゃんと物体も生成できているし,もっともらしい動きをさせてる 16
  • 17. VIDEO PIXEL NETWORKS Robotic Pushing ▸ 同じ2フレームから3パターンのフレーム生成 • 汎化性能の良さを示す 17
  • 18. VIDEO PIXEL NETWORKS Robotic Pushing ▸ ベースラインによる生成 • かなりのノイズが含まれている→空間と色の依存関係を考慮してないから 18
  • 19. VIDEO PIXEL NETWORKS Robotic Pushing ▸ ベースライン(1, 2),VPN(3, 4),正解データ(5) 19
  • 20. VIDEO PIXEL NETWORKS まとめと感想 ▸ ビデオの同時確率をモデリングするVideo Pixel Networksを提案 • 動作の事前情報やsurrogate lossesなしにMoving MNISTでSOTA • Robotic Pushingにおいて,ベースラインよりすぐれている - 将来予測は,ぼけなどの人工物なしかつ詳細に可能 - 対角の空間依存によって,ロバストで一般的な方法を実現 ▸ 順当にPixelRNN->PixelCNN->WaveNet->VPNと発展・拡張してきている • 研究の流れとして参考にしたい 20