SlideShare uma empresa Scribd logo
1 de 23
NeRF: Representing Scenes as Neural
Radiance Fields for View Synthesis
概要: 何がすごいか??
• 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点生
成のタスクで非常に素晴らしい結果を達成
• 新規視点生成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を生成する
こと
• まずはproject pageからダウンロードした結果を見てください
• http://www.matthewtancik.com/nerf
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
書誌情報、選定理由など
• UC Berkeley, Google Research, UC San Diegoの研究者が著者
• equal contributionが3人!!
• 論文のフォーマットからECCV2020への投稿と思われる
• 選定理由
• 結果の動画を見て、非常に高精細な画像が生成できていると驚いた
• 画像生成形の論文情報はroadrunnerさんが早い (Twitter: @ak92501)
• 生成結果のインパクトが大きく各所で話題になっていた
• 軽く読んでみてアイデアが (自分にとって) 新しく面白かったため
概要: どうやって実現している?
• MLPでNeural Radiance Field (NeRF) を学習
• Neural Radiance Fieldとは
• 三次元空間のある点の位置と視線方向 (角度) を与えると、その点の密
度 (density) と色が定まるNNにより表現された「場」
• 場とは … 時空の各点に関する物理量で、座標と時間を指定すると一つの
物理量が定まる。数学的には空間座標が独立変数となる関数で表現可能*
• 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター
(densityが高いほど光を通しにくいということだと思います)
• カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、
古典的なレンダリング手法 (volume rendering) を用いて視点に対応す
る画像をレンダリングできる
• volume renderingが微分可能なので画像を使ってend-to-endで学習できる
• 複数の観測 (画像と視点のペア) でNeRFを訓練する方法を提案
*https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
レンダリングの手順
1. カメラレイをシーンの中を進ませ、三次元点をサンプル
• カメラに入ってくる光を逆向きに進ませるイメージ
• その光が通る点を考慮して画像をレンダリングする
2. サンプルした点と対応する視線の方向をNNに入力し各点の色と密度を生成
3. 古典的なボリュームレンダリングの技術で色と密度から画像を合成
• カメラレイを逆向きに辿り密度を考慮しながら色を足し合わせていくイメージ
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
技術的な貢献
• 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field
で表現したこと
• 古典的なボリュームレンダリングの手法に基づく微分可能なレンダリング手法の
提案
• MLPのキャパシティを考慮した三次元点の階層的なサンプリング手法も提案
• 複雑な形状を持つシーンを表現するために5D (三次元位置、視線方向) を高次元
空間に埋め込むテクニックの提案
新規視点合成の既存手法と比較しstate-of-the-artの結果を得た
次のスライドから詳細について説明します
NeRFによるシーン表現の獲得
• シーンを5Dベクトル (三次元位置、視線方向) を入力として、とvolume density
を出力する関数として表現
• 三次元位置: x = (x, y, z)
• 視線方向: (θ, φ)
• 色: c = (r, g, b)
• volume density: σ
• volume densityは、xのみにより定まる値
• 色はxと (θ, φ) により定まる値
• 上の制約からMLPは2つに分かれる
1. xを入力としσと256次元のベクトルを出力
2. 1の出力の256次元のベクトルと(θ, φ)からc = (r, g, b)を出力
• 色を視線方向に依存するように設計する理由
 鏡面反射など、方向に依存する現象 (non-Lambertian) を考慮できるようにするため
視点に依存する効果のモデリング
• (a), (b) 同じ箇所を異なる方向から見ると、色が変わるということが再現できて
いる
• (c) あらゆる方向から同じ箇所を見た場合の色の変化を可視化
• 半球状のあらゆる視点から同じ箇所を見ようとした場合の色を円の中に表示している
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
Radiance fieldからのボリュームレンダリング 1
• 古典的なボリュームレンダリングの原理に基づいた方法を使用
• 1984年にKajitaらが提案した手法 (Ray Tracing Volume Densities) を引用していた
• Ray Tracingとは、カメラに届く光線を逆方向に辿ることにより画像を生成する手法のこと
• 本物の写真に近い画像をレンダリングできる手法として知られている
• レイトレーシングによるボリュームレンダリングでは、光線を逆方向に辿りながら、物体のvolume
density (透過率) を考慮しつつ各点の色を足し合わせ2D画像のあるピクセルの色を計算するイメー
ジ (私の理解です)
• 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる
• カメラの光線を表すベクトル (oを通りdの方向に伸びる) :
• t_n, t_fは仮想的に設定した最も近い点と遠い点
• T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで
粒子にぶつかることなく移動する確率を表す
Radiance fieldからのボリュームレンダリング 2
• 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を用
いて区分求積法に基づいた近似計算を行う
• この方法についてはMaxのボリュームレンダリングのレビュー論文で議論されている
• サンプルする点の間隔は学習時には毎回ランダムに変化させている
NeRFの最適化 1: Positional encoding
• xyzθφをMLPにそのまま入力しても画像の高周波成分は再現できない
• DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018)
• 入力を一旦、高周波関数(high frequency functions)で高次元空間にマッピングしてからDNN
に入力すると高周波成分を持つデータにfitしやすいらしい
• 以下の埋め込み関数を用いて入力のベクトルを高次元空間に写像
• 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に入力
• 視線方向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に入力
• このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい
• 詳しい人教えてください
NeRFの最適化 2 : 階層的ボリュームサンプリング
• 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、
出力画像により寄与する点を選ぶのが良い
階層的サンプリングという手法を提案
• 発想自体はボリュームレンダリングの研究で既出 (Levoy, 1990)
1. “corse”と”fine“の2つのネットワークを準備
2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに入力し色と密度を
得たのちレンダリング
3. 得られた各点の重要度を用いて再度点をサンプルしなおす
4. 全ての点から”fine”ネットワークで色と密度を計算し画像をレンダリング
実装詳細
• データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲)
• シミュレーションデータのデータセットからは自明に得られる
• 実データでは三次元復元のソフトウェアを用い推定したパラメータを使用
• 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を
サンプルした
• ボリュームレンダリングによりそれぞれの光線に対応するピクセルの色を計算
• 計算したピクセル値とGTとの二乗誤差を計算
• Rは光線の集合を表す, Cはピクセル値 (色), 添字のc, rはcoarse, fine networkに対応
• 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル
• 10~30万iteration, NVIDIA V100 1個を用いて1~2日間学習
実験 : dataset
• 合成データ
• Deep Voxels dataset (Sitzmann et al. 2019)
• 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット
• 鏡面反射なし
• 画像のサイズは512x512
• 新しくCGでデータセットを作成
• 8種類のオブジェクト
• 学習用に100視点、テスト用に200視点レンダリング
• 画像のサイズは800x800
• 実データ
• 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ
• 一部はMildenhallらが作成したデータ
• 20~62枚撮影
• 学習:テスト = 8:2
• 画像のサイズは1008x756
実験: 比較手法
• Neural Volumes (NV) (S. Lombardi et al. 2019.)
• ダイナミックな3Dシーンをモデリング
• 観測からRGBαボクセルグリッドとそのワープを推定
• クエリ視点でレイマーチング (カメラに入る光線を逆方向に辿るレンダリング手法)
により新規視点のビューをレンダリング
• Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.)
• シーンを不透明な表面として表現
• MLPで各点 (x, y, z) のfeatureを計算
• RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す
• 最終ステップの時の位置を物体の表面とし、色をfeatureからデコードする
• Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019)
• 3D convolution により入力の各視点のRGBαグリッド (multiplane image (MPI))を
直接推定
• クエリ視点でに対応する画像を複数のMPIから合成する
実験: 定量評価
• 3つの画質評価指標を用いて、新規視点画像合成のパフォーマンスを比較
• LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい人
教えてください)
実験: 定性評価
• 提案手法とLLFFは細かく復元ができ
ている
• LLFFは観測画像を再利用するような手
法であることが大きい
• SRNとNVは細かい画像を生成する表現
力がない
• NVではシーン表現が粗いボクセルなの
が原因
• SRNはちょっとわかりません。。。
実験: 定性評価
artifactが出やすい、視点間の一貫性がない場合がある
視点間の一貫性はあるが、解像度が低い
細かい形状を合成できない、視点間の一貫性がない
引用元 : https://www.youtube.com/watch?v=JuH79E8rdKc
詳しい結果は上記リンクからYouTubeの動画をご
覧ください
実験: 定量評価
• シーン表現を計算するのにかかる時間
• 提案手法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要
がある
• LLFFなど、事前に色々なシーンでモデルを学習しておくことで推論に時間が
かからないものもある
• 計算コスト
• 提案手法は、ネットワークの重みが5MBでマシンの負荷が少ない
• LLFFでは観測した画像データをメモリに保持するので15GBと負荷が大きい
実験: Ablation study
• CGのシーンで色々条件を変えた結果を比較
• 提案手法でどこが結果に効いているか
• Positional encoding, view dependenceは結果にかなり効く
• 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与)
• 画像の枚数が少なすぎると性能が低下
• positional encoding時の周波数の数が少なすぎると性能が低下
• この辺りは順当な結果
まとめ
• 提案手法まとめ
• MLPを訓練することで、ある点の三次元空間の座標と視線方向を入力すると
色と密度を出力する Neural Radiance Field (NeRF)を獲得
• NeRFから古典的なボリュームレンダリングの手法を用いて新たな視点の
ビューを生成することができる
• 新規視点画像合成のタスクでSoTA
• Future work
• よりサンプル効率の高い方法 (学習時も推論時も)
• 解釈性の問題
• シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
色々なシーンにおける結果
YouTubeの動画の後半をご覧ください
参考文献
• B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
arxiv prepring, 2020.
• J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984.
• N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and
Computer Graphics 1995.
• M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990.
• N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018.
• A. Vaswani et al.: Attention is all you need. in NeurIPS 2018.
• S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images.
SIGGRAPH 2019.
• V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural
Scene Representations. in NurIPS, 2019.
• B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling
guidelines. SIGGRAPH 2019.

Mais conteúdo relacionado

Mais procurados

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

Mais procurados (20)

[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 

Semelhante a [解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Semelhante a [解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 

Mais de Kento Doi

Mais de Kento Doi (11)

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Último

Último (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

  • 1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
  • 2. 概要: 何がすごいか?? • 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点生 成のタスクで非常に素晴らしい結果を達成 • 新規視点生成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を生成する こと • まずはproject pageからダウンロードした結果を見てください • http://www.matthewtancik.com/nerf B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 3. 書誌情報、選定理由など • UC Berkeley, Google Research, UC San Diegoの研究者が著者 • equal contributionが3人!! • 論文のフォーマットからECCV2020への投稿と思われる • 選定理由 • 結果の動画を見て、非常に高精細な画像が生成できていると驚いた • 画像生成形の論文情報はroadrunnerさんが早い (Twitter: @ak92501) • 生成結果のインパクトが大きく各所で話題になっていた • 軽く読んでみてアイデアが (自分にとって) 新しく面白かったため
  • 4. 概要: どうやって実現している? • MLPでNeural Radiance Field (NeRF) を学習 • Neural Radiance Fieldとは • 三次元空間のある点の位置と視線方向 (角度) を与えると、その点の密 度 (density) と色が定まるNNにより表現された「場」 • 場とは … 時空の各点に関する物理量で、座標と時間を指定すると一つの 物理量が定まる。数学的には空間座標が独立変数となる関数で表現可能* • 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター (densityが高いほど光を通しにくいということだと思います) • カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、 古典的なレンダリング手法 (volume rendering) を用いて視点に対応す る画像をレンダリングできる • volume renderingが微分可能なので画像を使ってend-to-endで学習できる • 複数の観測 (画像と視点のペア) でNeRFを訓練する方法を提案 *https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
  • 5. レンダリングの手順 1. カメラレイをシーンの中を進ませ、三次元点をサンプル • カメラに入ってくる光を逆向きに進ませるイメージ • その光が通る点を考慮して画像をレンダリングする 2. サンプルした点と対応する視線の方向をNNに入力し各点の色と密度を生成 3. 古典的なボリュームレンダリングの技術で色と密度から画像を合成 • カメラレイを逆向きに辿り密度を考慮しながら色を足し合わせていくイメージ B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 6. 技術的な貢献 • 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field で表現したこと • 古典的なボリュームレンダリングの手法に基づく微分可能なレンダリング手法の 提案 • MLPのキャパシティを考慮した三次元点の階層的なサンプリング手法も提案 • 複雑な形状を持つシーンを表現するために5D (三次元位置、視線方向) を高次元 空間に埋め込むテクニックの提案 新規視点合成の既存手法と比較しstate-of-the-artの結果を得た 次のスライドから詳細について説明します
  • 7. NeRFによるシーン表現の獲得 • シーンを5Dベクトル (三次元位置、視線方向) を入力として、とvolume density を出力する関数として表現 • 三次元位置: x = (x, y, z) • 視線方向: (θ, φ) • 色: c = (r, g, b) • volume density: σ • volume densityは、xのみにより定まる値 • 色はxと (θ, φ) により定まる値 • 上の制約からMLPは2つに分かれる 1. xを入力としσと256次元のベクトルを出力 2. 1の出力の256次元のベクトルと(θ, φ)からc = (r, g, b)を出力 • 色を視線方向に依存するように設計する理由  鏡面反射など、方向に依存する現象 (non-Lambertian) を考慮できるようにするため
  • 8. 視点に依存する効果のモデリング • (a), (b) 同じ箇所を異なる方向から見ると、色が変わるということが再現できて いる • (c) あらゆる方向から同じ箇所を見た場合の色の変化を可視化 • 半球状のあらゆる視点から同じ箇所を見ようとした場合の色を円の中に表示している B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 9. Radiance fieldからのボリュームレンダリング 1 • 古典的なボリュームレンダリングの原理に基づいた方法を使用 • 1984年にKajitaらが提案した手法 (Ray Tracing Volume Densities) を引用していた • Ray Tracingとは、カメラに届く光線を逆方向に辿ることにより画像を生成する手法のこと • 本物の写真に近い画像をレンダリングできる手法として知られている • レイトレーシングによるボリュームレンダリングでは、光線を逆方向に辿りながら、物体のvolume density (透過率) を考慮しつつ各点の色を足し合わせ2D画像のあるピクセルの色を計算するイメー ジ (私の理解です) • 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる • カメラの光線を表すベクトル (oを通りdの方向に伸びる) : • t_n, t_fは仮想的に設定した最も近い点と遠い点 • T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで 粒子にぶつかることなく移動する確率を表す
  • 10. Radiance fieldからのボリュームレンダリング 2 • 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を用 いて区分求積法に基づいた近似計算を行う • この方法についてはMaxのボリュームレンダリングのレビュー論文で議論されている • サンプルする点の間隔は学習時には毎回ランダムに変化させている
  • 11. NeRFの最適化 1: Positional encoding • xyzθφをMLPにそのまま入力しても画像の高周波成分は再現できない • DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018) • 入力を一旦、高周波関数(high frequency functions)で高次元空間にマッピングしてからDNN に入力すると高周波成分を持つデータにfitしやすいらしい • 以下の埋め込み関数を用いて入力のベクトルを高次元空間に写像 • 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に入力 • 視線方向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に入力 • このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい • 詳しい人教えてください
  • 12. NeRFの最適化 2 : 階層的ボリュームサンプリング • 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、 出力画像により寄与する点を選ぶのが良い 階層的サンプリングという手法を提案 • 発想自体はボリュームレンダリングの研究で既出 (Levoy, 1990) 1. “corse”と”fine“の2つのネットワークを準備 2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに入力し色と密度を 得たのちレンダリング 3. 得られた各点の重要度を用いて再度点をサンプルしなおす 4. 全ての点から”fine”ネットワークで色と密度を計算し画像をレンダリング
  • 13. 実装詳細 • データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲) • シミュレーションデータのデータセットからは自明に得られる • 実データでは三次元復元のソフトウェアを用い推定したパラメータを使用 • 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を サンプルした • ボリュームレンダリングによりそれぞれの光線に対応するピクセルの色を計算 • 計算したピクセル値とGTとの二乗誤差を計算 • Rは光線の集合を表す, Cはピクセル値 (色), 添字のc, rはcoarse, fine networkに対応 • 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル • 10~30万iteration, NVIDIA V100 1個を用いて1~2日間学習
  • 14. 実験 : dataset • 合成データ • Deep Voxels dataset (Sitzmann et al. 2019) • 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット • 鏡面反射なし • 画像のサイズは512x512 • 新しくCGでデータセットを作成 • 8種類のオブジェクト • 学習用に100視点、テスト用に200視点レンダリング • 画像のサイズは800x800 • 実データ • 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ • 一部はMildenhallらが作成したデータ • 20~62枚撮影 • 学習:テスト = 8:2 • 画像のサイズは1008x756
  • 15. 実験: 比較手法 • Neural Volumes (NV) (S. Lombardi et al. 2019.) • ダイナミックな3Dシーンをモデリング • 観測からRGBαボクセルグリッドとそのワープを推定 • クエリ視点でレイマーチング (カメラに入る光線を逆方向に辿るレンダリング手法) により新規視点のビューをレンダリング • Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.) • シーンを不透明な表面として表現 • MLPで各点 (x, y, z) のfeatureを計算 • RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す • 最終ステップの時の位置を物体の表面とし、色をfeatureからデコードする • Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019) • 3D convolution により入力の各視点のRGBαグリッド (multiplane image (MPI))を 直接推定 • クエリ視点でに対応する画像を複数のMPIから合成する
  • 16. 実験: 定量評価 • 3つの画質評価指標を用いて、新規視点画像合成のパフォーマンスを比較 • LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい人 教えてください)
  • 17. 実験: 定性評価 • 提案手法とLLFFは細かく復元ができ ている • LLFFは観測画像を再利用するような手 法であることが大きい • SRNとNVは細かい画像を生成する表現 力がない • NVではシーン表現が粗いボクセルなの が原因 • SRNはちょっとわかりません。。。
  • 19. 実験: 定量評価 • シーン表現を計算するのにかかる時間 • 提案手法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要 がある • LLFFなど、事前に色々なシーンでモデルを学習しておくことで推論に時間が かからないものもある • 計算コスト • 提案手法は、ネットワークの重みが5MBでマシンの負荷が少ない • LLFFでは観測した画像データをメモリに保持するので15GBと負荷が大きい
  • 20. 実験: Ablation study • CGのシーンで色々条件を変えた結果を比較 • 提案手法でどこが結果に効いているか • Positional encoding, view dependenceは結果にかなり効く • 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与) • 画像の枚数が少なすぎると性能が低下 • positional encoding時の周波数の数が少なすぎると性能が低下 • この辺りは順当な結果
  • 21. まとめ • 提案手法まとめ • MLPを訓練することで、ある点の三次元空間の座標と視線方向を入力すると 色と密度を出力する Neural Radiance Field (NeRF)を獲得 • NeRFから古典的なボリュームレンダリングの手法を用いて新たな視点の ビューを生成することができる • 新規視点画像合成のタスクでSoTA • Future work • よりサンプル効率の高い方法 (学習時も推論時も) • 解釈性の問題 • シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
  • 23. 参考文献 • B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. arxiv prepring, 2020. • J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984. • N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and Computer Graphics 1995. • M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990. • N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018. • A. Vaswani et al.: Attention is all you need. in NeurIPS 2018. • S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images. SIGGRAPH 2019. • V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations. in NurIPS, 2019. • B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. SIGGRAPH 2019.

Notas do Editor

  1. SRN : 幾何形状とテクスチャが滑らかすぎる NV : 細かい形状が捉えられている シーン表現を128^3のボクセルにしているため解像度が粗く詳細を表現しきれない LLFF : 視差が大きいと幾何形状を復元するのが難しい、視点間の一貫性がない