Neural Radience Fields for laboratory paper rounds

7.7.2023
NeRF（Neural Radiance Fields）
東京電機大学システムデザイン工学部情報システム工学科
鈴木幹大（Mikihiro SUZUKI）

3
視覚的な情報が存在する特定の空間や環境．
NeRFでは対象を表現する暗黙的な関数を教師データを用いて学習
し，その関数が表現する三次元空間のことを指す．
シーン

4
三次元画像処理分野では，暗黙的（implicit）を「明示的な形状や構
造を持たない」という意味で使用．
明示的な表現では，面や頂点の位置などを直接表現．
ボクセルや点群，メッシュデータなどが明示的表現を持つ．
暗黙的表現（1/2）
指定された座標の位置に点をひとつひとつプロット
図．点群を明示的に表現する過程

5
身近な暗黙的表現は円や直線の方程式．
円の形状を直接的に描写しているのではなく，円を形成する点が満
たすべき関係性を表現．
暗黙的表現（2/2）
図．暗黙的表現することで連続的な円を形成することが可能

7
NeRFは，新規視点画像生成分野においてMildenhallらが2020年に
提案した手法．
新規視点画像生成・・・観測したある対象の情報を用いて，別視点から
観測した時の画像を生成するタスク．
NeRFとは
図.NeRFの一連の流れ

8
Neural（ニューラル）
本手法がニューラルネットワークを用いていることを示している．
Radiance（放射輝度）
光の輝度や輝きを表す物理量．
NeRFにおける放射輝度とは，特定の方向に対する色．
NeRFは，三次元シーン内の各点における放射輝度を予測．
Field（場）
NeRFで表現する三次元空間．
Neural Radiance Fieldの由来

9
NeRFは異なる視点から撮影した画像集合を元に，対象となるシーン
の三次元構造を表現するMulti-Layer-Perceptron（MLP）を暗黙的に学
習する．
概要
NeRFではMLPを用いて
三次元構造を表現
二次元における
暗黙的表現の例

10
三次元座標と視線方向をMLPに入力し，その出力をボリュームレンダ
リング．
すべての画素にこの処理をすることで一枚のRGB画像を生成．
NeRFの入出力

11
三次元形状を多角形メッシュやボクセルなどを用いて，離散的な表現
をしていた．
ボクセルで高解像度の物体を表現するには，膨大なボクセル配列が必要．
メッシュで曲面の詳細な表現や滑らかな表現は困難．
NeRFは暗黙的関数を用いるため，解像度に依存しないズームイン・
ズームアウトが可能．
背景（1/2）
図．ボクセルで表したbunny 図．三角メッシュで表したbunny

12
ShapeNet[1]は多様な物体の三次元モデルのデータセット．
これまで，三次元形状を学習するためには Ground Truthとして三
次元モデルが必要だった．
NeRFは三次元モデルを必要としない．
背景（2/2）
[1] ShapeNet: An Information-Rich 3D Model Repository
図．ShapeNetのイメージ

13
NeRFは，LLFF[2]のアイデアを発展させ，ボリュームレンダリングを
導入したことによって，定量評価でより高精度な結果を得た．
関連研究
[2] Local Light Field Fusion: Practical View Synthesis with Prescriptive Sampling Guidelines
図.LLFFによって合成されたシーン図.NeRFによって合成されたシーン

15
NeRFの入力に用いる画像は静的シーンに限られる．
学習データとなる各画像にはカメラパラメータを付加する必要がある．
入力情報に関する制約
図.NeRFのLegoデータセット．train,val,testの視点数はそれぞれ，100,100,200視点である．

16
NeRFはモデルそのものが三次元空間を学習する都合上，学習可能
なシーンはひとつに限られる．
単一のシーンにのみ適用可能
𝑥, 𝑦, 𝑧, θ, φ → 𝐹𝑙𝑒𝑔𝑜 →
得られるのは絶対にlegoの画像
学習に一切関係ないshipの画像は得られない
𝐹𝑙𝑒𝑔𝑜：legoのデータを用いた学習済みモデル
（ボリュームレンダリングの過程含む）

17
対象は静的シーン．
学習データとなる画像にはカメラパラメータを付加する必要がある．
異なるシーンを同じネットワークに学習させることはできない．
NeRFの制約まとめ

19
(a)と(b)では入力に座標 𝑥, 𝑦, 𝑧 と視線(θ, φ)，出力は色(𝑟, 𝑔, 𝑏)と体
積密度σとなるようにMLPを学習．
NeRFの全体図（1/3）
見ている向きによって色が変わる

20
NeRFにおける体積密度は，ある点上の物体表面における透明度，
つまり光をどれくらい通すかを示す値．
値域は非負の実数．
体積密度
視線方向は二つの角度，𝜃と𝜑で表現される．𝜃は水平面上の角度
で、𝜑は垂直面上の角度を示す．
視線方向

21
(c)でボリュームレンダリングを用いて，MLPの出力を合成．

22
(d)では，ボリュームレンダリングで合成されたシーンと正解画像
の誤差を最小化することでMLPを最適化．

23
下図はネットワークの構造を図式化したものである．入力層を緑，
中間層を青，出力層を赤としてあり，各ブロックの数値はその次
元数を示している．
ネットワークの構造（1/7）
図.NeRFのネットワーク構造

24
また，黒い矢印はReLU関数による活性化層，オレンジ色の矢印は
非活性化層，黒い破線の矢印はシグモイド関数による活性化層を示
す．さらに，”＋”はベクトルの連結を示す．
ReLU関数と後述のPositional Encodingを組み合わせることで，高周
波成分も表現することが可能．

25
初めに入力する𝐱 = (𝑥, 𝑦, 𝑧)はPositional Encodingで60次元の高次元
空間へ写像．
エンコーディング後の値はsinとcosの出力範囲である[-1,1]となる．

26
続いて，DeepSDF[3]のアーキテクチャに従い，入力層と同じベク
トルを第5層に接続するスキップ関数が設置されている．
[3] DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

27
オレンジ色の矢印の先に設置されている層では，256次元の特徴
ベクトルを出力．
非活性化関数ではなく，ReLU関数で処理して1次元に変換した出
力を体積密度として出力する．
ReLU

28
非活性化層で出力した特徴ベクトルは，視線方向𝒅がPositional
Encodingで処理されたγ(𝒅)と連結され，128次元のReLU層で処理さ
れる．
この層でγ(𝒅)と連結することで，視線方向依存のRGB値を得る．

29
シグモイド関数を持つ出力層では，視線方向𝒅の光線で見た位置𝒙
のRGBを出力．

30
NeRFは5次元の入力に限定されている．
低次元の入力では高周波成分を正確に表現することができない．
Positional Encoding（1/4）
Ground Truth No Positional Encoding

31
Rahamanらの研究[3]によると，MLPは低周波成分を学習しやすく，
高周波関数を用いて入力を高次元空間に写像することで，高周波
変動を含むデータの適合性が向上することが分かっている．
[3]Rahaman, Nasim, et al. "On the spectral bias of neural
networks." International Conference on Machine Learning. PMLR, 2019.

32
Positional Encodingは低次元の入力を高次元空間に写像.
γ 𝑝 = sin 20π𝑝 , cos 20π𝑝 , … , sin 2𝐿−1π𝑝 , cos 2𝐿−1π𝑝
𝑝は[-1,1]に正規化済み．
𝐿はマッピングする次元数を決定するハイパーパラメータ．

33
NeRFでは𝒙については𝐿 = 10，𝒅については𝐿 = 4を採用している．
結果として得られるγ(𝒙)，γ(𝒅)はそれぞれ60次元，24次元のベクト
ルとなり，これがMLPに入力される．
図．NeRFのネットワーク構造
𝐿 = 10
𝐿 = 4

34
(c)でボリュームレンダリングを用いて，MLPの出力を合成．
[再掲]NeRFの全体図（2/3）

35
カメラからの光線を通じて3D空間をサンプリングし，各サンプル点での
RGB値と体積密度を計算．
ボリュームレンダリングの概要（1/2）
光線

36
サンプリングした各点を集約することで2D画像の画素値を決定．
最終的にはすべての画素で計算することで，一枚の画像が得られる．
ボリュームレンダリングの概要（2/2）
→計算量が多い（後述）

37
視線方向に沿って，光源から逆向きに進む光を，光線（ray）と呼ぶ．
注目する物体が存在する三次元空間を通る光線𝒓を設定．光線𝒓は，
画像空間上の1つの点を示す方向𝒅に進行．そして，光線𝒓が通過する
空間の情報に基づいて，画像上の色𝐶 (𝒓)を決定．
光線（1/2）
図．光線のイメージ
光線𝒓
方向𝒅
原点𝒐

38
カメラ原点を𝒐としたとき，光線上の任意の点𝒓(𝑡)は，カメラ原点
𝒐から方向𝒅に向かってどれだけ進むかを示すパラメータ𝑡を用いて
以下のように書ける．
𝒓 𝑡 = 𝒐 + 𝑡𝒅
この光線上の密度σ(𝒓(𝑡))と色𝒄(𝒓 𝑡 , 𝒅)を𝑡で積分することで，画
像空間上の点の色を決定する．
光線（2/2）

39
光線を評価する𝑡の下限を𝑡𝑛，上限を𝑡𝑓と設定する．これにより，
計算を効率化することが可能．
積算処理は以下で定義されている．
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑇 𝑡 σ 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡
𝑇 𝑡 = exp − න
𝑡𝑛
𝑡𝑓
σ 𝒓 𝑠 𝑑𝑠
理論：色𝐶(𝑟)を決定する積算処理

40
関数𝑇はAccumulated Transmittance（累積透過率）と呼ばれ，光線
が物体を通過する際にどれだけ弱まるかを示す．
具体的には，光線が𝑡𝑛から𝑡𝑓まで移動する際に，他の粒子にぶつ
からずに移動する確率を表している．
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑡𝑛
𝑡𝑓
関数𝑇（1/2）

41
体積密度が高いと，光線が物体を通過する際に弱まる確率は高まる．
したがって，積分内の項は体積密度が高いと積分値が大きくなり，
結果として関数𝑇の出力値は小さくなる．
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑡𝑛
𝑡𝑓
関数𝑇（2/2）

42
実装上，先述の積算処理は離散化して計算する．
カメラの位置からの距離に応じた区間[𝑡𝑛, 𝑡𝑓]で，光線追跡のサン
プリング粒度を決定するハイパーパラメータによって評価対象の
光線の三次元位置が決定される．
そして，その位置を𝑁個サンプリングする．
実装上：サンプリング（1/2）

43
レンダリングの際には，光線はサンプリングした点で評価される．
それが画素値を決定する要因となる．
区間をN個に分割し，各区間から点𝑡𝑖をランダムにサンプリング．
𝑡𝑖 ~ 𝒰 𝑡𝑛 +
𝑖 − 1
𝑁
𝑡𝑓 − 𝑡𝑛 , 𝑡𝑛 +
𝑖
𝑁
(𝑡𝑓 − 𝑡𝑛)
実装：サンプリング（2/2）

44
サンプリングされた𝑡𝑖の集合を用いて，区分求積法に基づいた近
似計算をする．
መ
𝐶 𝒓 = ෍
𝑖=1
𝑁
𝑇𝑖 1 − exp −σ𝑖δ𝑖 𝒄𝑖
𝑇𝑖 = exp − ෍
𝑗=1
𝑖−1
σ𝑗δ𝑗
δ𝑖 = 𝑡𝑖+1 − 𝑡𝑖
実装：積算処理（1/2）

45
ここで，δ𝑖は隣接するサンプル間の距離を示す.
መ
𝐶 𝒓 = ෍
𝑖=1
𝑁
𝑇𝑖 1 − exp −σ𝑖δ𝑖 𝒄𝑖
𝑇𝑖 = exp − ෍
𝑗=1
𝑖−1
σ𝑗δ𝑗
δ𝑖 = 𝑡𝑖+1 − 𝑡𝑖
実装：積算処理（2/2）
δ𝑖
𝑡𝑖
𝑡𝑖+1

46
以上が，画像上の各画素値𝐶(𝒓)を求めるためのレンダリング処理
であり，これをカメラの視界内のすべての画素に対して実行する
ことで，新規視点画像を生成できる．
実装上の話まとめ

47
ボリュームレンダリングをより効率的に行う手法．
物体の表面などの重要な領域により多くのサンプルを割り当てるこ
とで，レンダリングの効率を向上させる．
Hierarchical Volume Samplingの概要（1/2）
図．Hierarchical Volume Samplingのイメージ

48
単一のネットワークを使用するのではなく，Coarseネットワーク
（粗い）とFineネットワーク（細かい）を用意．
1. Coarseネットワークで，大まかなレンダリング．
2. 1の結果より，多くサンプルが存在する場所を重要度が高いと捉
え，Fineネットワークで細かいレンダリング．
Hierarchical Volume Samplingの概要（2/2）

49
出力される画像が低解像度で，全体の大まかな特徴を扱うのに適
している．
መ
𝐶𝑐はサンプリングした各点の色𝑐𝑖に重みを掛けた和．
𝑇𝑖はAccumulated Transmittance
Coarseネットワーク
(𝑐1, σ1)
(𝑐2, σ2)
(𝑐3, σ3)
(𝑐4, σ4)

50
高解像度でシーンの細かい形状や細かい色の変化まで扱うことができる．
Coarseネットワークから得られた体積密度の分布に基づいて，光線に
沿ったサンプル点をサンプリング．
加重和の重みは
ෝ
𝑤𝑖 =
𝑤𝑖
σ𝑗=1
𝑁𝑐
𝑤𝑗
で正規化し，一定の確率密度関数（PDF）を生成．
Fineネットワーク（1/2）

51
PDFから逆変換サンプリングを用いて，光線に沿った点を𝑁𝑓個サンプ
リングする．
逆変換サンプリング・・・コンピュータで疑似乱数を生成する手法のひとつ
光線上の𝑁𝑐 + 𝑁𝑓個のサンプル点の座標と視線方向を用いて，各サン
プル点での色と密度を計算し，ボリュームレンダリングをする．
መ
𝐶𝑓 𝑟 = න
𝑡𝑛
𝑡𝑓
Fineネットワーク（2/2）

52
(d)では，ボリュームレンダリングで合成されたシーンと正解画像
の誤差を最小化することでMLPを最適化．
[再掲]NeRFの全体図（3/3）

53
CoarseとFineで計算した画素値とGroundTruthの二乗誤差をそれぞれ計算．
誤差関数（1/2）
教師画像
レンダリング画像
誤差を計算し，MLPを最適化

54
ℛ：光線の集合
𝐶𝑡(𝒓)：教師画像の画素値
መ
𝐶𝑐(𝒓)：Coarseネットワークでレンダリングした画像の画素値
መ
𝐶𝑓(𝒓)：Fineネットワークでレンダリングした画像の画素値
ℒ = ෍
𝒓∈ℛ
መ
𝐶𝑐 𝒓 − 𝐶𝑡(𝒓) 2
2
+ መ
𝐶𝑓 𝒓 − 𝐶𝑡(𝒓)
2
2
誤差関数（2/2）

56
合成データ
Deep Voxels dataset[111]
複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット
鏡面反射は無し
画像サイズは512x512
CGデータセット
8種類のオブジェクト
学習用に100視点，テスト用に200視点レンダリング
画像のサイズは800x800
実データ
8つのシーンをスマホのカメラで色々な視点から撮影したデータ
20 ∼ 62枚撮影
画像サイズは1008x756
データセット

57
NeRFの性能を評価するために，シーンを三次元表現をする先行研究と
して以下の3つの研究を採用．
Neural Volumes（NV）[4]
高解像度で複雑なシーンの表現能力に制限があるボクセルベースの3D表現手法．
Scene Representation Networks（SRN）[5]
シーンを単一のNNで表現するが，詳細な形状と色の表現力に制限が存在．
Local Light Field Fusion（LLFF）
入力画像を用いて，各視点に対して三次元空間を離散的にサンプリングして
RGBグリッドを直接予測するが，これには大量のストレージが必要．
比較手法
[4] Neural Volumes: Learning Dynamic Renderable Volumes from Images
[5] Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations

58
3つの画質評価指標を用いて，新規視点画像合成のパフォーマン
スを比較．
定量評価
表1．画質評価指標による従来手法との比較
[41]Deepvoxels: Learning persistent 3D feature embeddings.
[28] Local light field fusion: Practical view synthesis with prescriptive sampling guidelines.
画像類似度指標について

59
NeRFとLLFFは対称の模様や文字が細かく復元できている．
SRNとNVは細かい模様や文字を合成する表現力がない．
NVでは，シーン表現が粗いボクセルなのが原因．
定性評価（1/3）
図．Deep Voxels dataset 対する結果

60
SRNは詳細なシーンの表現が難しい．NVは異なる視点間でシーンの見
え方が一貫しているが，その解像度は低い．LLFFは視覚的なartifactが
生じやすい．
望ましくない不自然な現象
図．CGデータセットに対する結果
不鮮明
歪んでいる

61
図．実データに対する結果

62
CGシーンで色々条件を変えた結果を比較．
Positional EncodingとView Dependenceの有無が精度に大きく寄与．
Hierarchical Volume Samplingは計算の効率化のため，結果への寄与は小さい．
画像の枚数が少なすぎると，性能は低下．
Positional Encodingの𝐿（γ(𝒙)）が小さすぎると，性能が低下．
Ablation Study（1/2）
表2．Ablation Studyをした結果
手法の中からある条件だけを抜くことで，
その要素の重要さについて考察する実験
変更する条件
変更する値評価指標

63
Ablation Study（2/2）
図.Ablation Study 定性評価
・光が反射（視線依存）
・高周波成分を表現
・光反射はない
・高周波成分を表現
・光が反射（視線依存）
・高周波成分を表現不可

65
800x800の解像度の画像をレンダリングするとき，画像一枚当たり，
800x800x64=40,960,000回のMLPの計算が必要．
課題①：学習・推論速度が遅い
解像度
光線上のサンプリング数

66
対象の密度しか学習しないため，正確な表面形状を学習しない．
強い反射など，レンダリングが難しい部分に浮遊物が発生．
課題②：表面形状が不正確
[4] NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
図．論文[4]による比較

67
シーンの情報がMLPに暗黙的にエンコードされているため，どのパ
ラメータが色や形状に対応しているかが不明．
学習に必要な画像が膨大．
静的シーンしか扱えない．
課題：その他

68
学習・推論の高速化
Instant-NGP (SIGGRAPH 2022)
TensoRF (ECCV 2022)
Plenoxels (CVPR 2022)
表面形状の改善
NeuS (NeurIPS 2021)
VolSDF (NeurIPS 2021)
少ない画像から再構成
pixelNeRF (CVPR 2021)
KeypointNeRF (ECCV 2022)
最近の動向（1/2）
pixelNeRF 3-view NeRF
図．pixelNeRFとNeRFの比較

69
色・形状の編集
Distilled feature fields (NeurIPS 2022)
Deforming-NeRF (ECCV 2022)
動的シーンへの対応
DyNeRF (CVPR2022)
HyperNeRF (SIGGRAPH Asia 2021)
最近の動向（2/2）
図．DyNeRFによる動的なシーンの再現

71
MLPにある点の三次元座標と視線方向を入力すると，その点におけ
る色と密度を出力．
MLPで出力した色と密度をボリュームレンダリングで合成し，その
点における画素値を決定．
NeRF

Thank you for listening
https://033lab.org

73
オブジェクトを三次元で表現した形状データ．
データの形はメッシュ．
三次元モデル

74
NeRFにおける静的シーンとは，対象となる物体が撮影中に変化しな
いシーン．
例えば，椅子は形を変えたり動いたりしないため，必然的に静的
シーンとなる．
静的シーン

75
（a）,（b）は同じ箇所を異なる方向から見ると，色が変わること
を再現している．
（c）はあらゆる方向から同じ箇所を見た時の色の変化を可視化
した図.
視線方向に依存するRGB
図．視線に依存する点の色の効果

76
• PSNR（Peak Signal to NoiseRatio）
最大画素値とノイズの比率を計算する．
PSNR =
𝑀𝐴𝑋2
𝑀𝑆𝐸
画像類似度指標（1/3）

77
• SSIM（Structual Similarity）
画素値（輝度），コントラスト，構造の変化を評価する．
𝑆𝑆𝐼𝑀 𝑥, 𝑦 =
2𝜇𝑥𝜇𝑦 + 𝐶1 2σ𝑥𝑦 + 𝐶2
(𝜇𝑥
2
+ 𝜇𝑦
2
+ 𝐶1)(σ𝑥
2
+ σ𝑦
2
+ 𝐶2)
（𝐶: 定数, σ: 標準偏差, 𝜇: 平均画素値）

78
• LPIPS（Learned Perceptual Image Patch Similarity）
AlexNetやVGGなどの学習済み画像分類ネットワークの畳み込み層が
出力する特徴量を基にした基準．

Neural Radience Fields for laboratory paper rounds

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Neural Radience Fields for laboratory paper rounds

Semelhante a Neural Radience Fields for laboratory paper rounds (20)

Último

Último (12)

Neural Radience Fields for laboratory paper rounds