SlideShare a Scribd company logo
1 of 24
Download to read offline
A Higher-Dimensional Representation
for Topologically Varying Neural Radiance Fields
Naruya Kondo (Digital Nature Group M1)
video
2
https://www.yout
ube.com/watch?
v=qzgdE_ghkaI
プロジェクトページ
3
https://hypernerf.github.io/
書誌情報
4
• HyperNeRF: A Higher-Dimensional Representation for Topologically
Varying Neural Radiance Fields
– https://arxiv.org/pdf/2106.13228.pdf
– SIGGRAPH Asia 2021
– Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien
Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz
– University of Washington, Google Research
• ひとことで言うと
– 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する
– シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算
– テンプレート場を3Dではなくより多次元に拡張した
– (NeRF -> Nerfies -> HyperNeRF)
NeRF
5
土井さんのDL輪読会資料より
https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
似た手法で動的なシーンを扱う研究
6
• Neural Volumes: Learning Dynamic Renderable Volumes from Images
(SIGGRAPH 2019)
– ダイナミックシーンで、複数視点の画像を入力に別視点の観測を生成
– reference画像をembeddingしてtemplate fieldを作る
• Nerfies: Deformable Neural Radiance Fields (ICCV 2021)
• Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a
Dynamic Scene From Monocular Video (ICCV 2021)
• D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)
– 1動画を入力にして、テンプレートNeRFを作りつつ再構成
– Template Fieldとか、Canonical Volumeとかと呼ばれる
Nerfies: Deformable Neural Radiance Fields
7
Nerfies
8
Nerfies
9
• Nerfies: Deformable Neural Radiance Fields
– ICCV 2021
• ひとことで言うと
– 動画入力で、少しだけ変化のある動的なシーンも扱えるNeRF
– 動画の全時刻(全視点)を1つのテンプレートNeRFで学習
– シーンの中で若干の変化があるので、テンプレートの中で色(c,σ)をサンプリングする
座標を少しずらす(warping)
Nerfies
10
• 背景
– ハイクオリティな人間の3Dモデリングが、自撮りでできたらいいよね
• 人に限らず、3Dモデリング技術的に広くやりたい
– 自撮りでの難しさ
• nonrigidity
– 完全にじっとすることが無理
• challenging materials
– 髪、メガネ、イヤリング (反射部分?) の3D再構成が難しい
– NeRFは表現力が高いが、静的なシーンに限る&100枚くらい画像が必要
• アイディア
– 単一動画入力だけ(若干シーンが変化している環境)でも、基準となるNeRF場の学習
&活用に落とし込めれば3D再構成ができる
Nerfies
11
1. 貢献
a. 非剛体で変形する対象でも扱えるNeRFを提案。
各時刻の観測からその時刻のDeformation Fieldを生成
b. 各時刻のDeformation Fieldを生成に、Template Fieldを使うことを提案
c. シーンの鮮明さと(少しの)シーンの変化の学習を両立させるため、coarse-to-fine
regularizationを提案
d. (アプリケーション化 (自撮り映像で3D化))
Deformation Neural Radiance Field
12
• (c, σ)がほしい視点の座標xをそのまま使わず、
deformation field (MLP) で x -> x’ に変換してか使う
• どの時刻(視点)でも、同じcanonicalなNeRFで(c, σ)を学習・推論
• 任意のωで、学習データとは違う(x,y,z)を入力してinterpolateする
⇦ここだけ
 NeRF
欲しい露光、
ホワイトバランス等
その時刻の画像を
エンコードした
ベクトル
Coarse-to-Fine Regularization
13
• NeRFでは通常、入力xにpositional encodingを適用して入力にする
– これを頼りに高周波な質感が生成できる
• 高周波にしすぎると既知のviewに過学習
してしまい、novel viewで繊細な画像が
生成できなくなる
⇨ 各項に重みをつけ、徐々に0から1に上げる
その他工夫点
14
1. Background Regularization
– 動かないと分かっている座標の点は、座標を
x->x’で動かしたらペナルティ
– SfM等を使えば、動かない点(poseの推論に使う特徴点)が求まる
2. Elastic Regularization
– できるだけ座標を移動しないためのペナルティ
– おおよそ全部の点の移動量の二乗和の平方根(厳密にはややこしいかったです...)
3. x->xで自由に動かすぎないよう、各点は回転と平行移動の
6自由度(MLPの出力)で変換
4. 各視点(時刻)の位置姿勢は、SfM(structure from motion)で取得
実験と結果
15
A Higher-Dimensional Representation
for Topologically Varying Neural Radiance Fields
16
HyperNeRF (再掲)
17
• HyperNeRF: A Higher-Dimensional Representation for Topologically
Varying Neural Radiance Fields
– https://arxiv.org/pdf/2106.13228.pdf
– SIGGRAPH Asia 2021
– Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien
Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz
– University of Washington, Google Research
• ひとことで言うと
– 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する
– シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算
– テンプレート場を3Dではなくより多次元に拡張した
– (NeRF -> Nerfies -> HyperNeRF)
HyperNeRF (再掲)
18
• 背景
– より動的なシーンを単一動画から3D再構成できるようにしたい
– 少しの変化ならNerfies等でよいが、トポロジカルな変化には対応できない
• レモンを切る、紙をやぶる、口をあける...
• アイディア
– トポロジカルな変化をdeepで連続的に扱える “level set method” を、
Nerfiesのテンプレート場への座標変換 x->x’ に使う
• (お気持ち強め?)
• 貢献
– よりチャレンジングな動的なシーンでも3D再構成できるようになった
Level Set Method
19
• 陰関数で形状を表現する
• 複雑な場(⇦NNで獲得する)をw=wiで切ると、トポロジカルな変化を表現可能
– wをtにすると時間発展が表現できる
• DeepSDF、A-SDF等もlevel set methodを使っている (signed distance field)
3D shape
4D function
(表現したい本来の次元(x,y) +
additional な次元(w))
• F(x,y,z) = “境界面との距離”
とする関数
– F(x,y,z) > 0: 境界の外
– F(x,y,z) < 0: 境界の中
– (勝手に地球をイメージ)
20
F(x,y) =
c
c
この2次元の形
をFで表したい⇨
この空間を考える⇨
-10
0
0
100
F=cがその形。内側: F>c, 外側: F<c
(signed distance field)
Deformable Slicing Surfaces
21
◯と花の形8個 x’y’z’ x’y’z’
w
w
◯と花の形4個
• 平面で切ると、全ての状態を
一列に並べる必要が合る。
– 部分的な形を複数並べるのは無駄
– 曲面で切れれば、使いまわせる
• (Nerfiesはx’だけだった)
• 256次元の空間にNeRF場が散らばっている
• wは1or0ではなく尤度みたいな扱い
Hyper-Space Neural Radiance Fields
22
• やっていることは、CanonicalなNeRFの入力を3+256次元にしただけ
– 実際にはwで切ったりせず、そのままwをNeRFの入力にする
– (level set methodは後付けなのでは...?)
• deformingに頼らないために,wのpositional encodingの各項の係数を最初は0に
x’もwも
positional encodingする
3DのNeRF場が256Dの空間
に広がっている
結果
23
• pixel値ではなく、
意味のあるdynamicな
interpolationができている
• (すごい)
結果
24
•

More Related Content

What's hot

What's hot (20)

【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
Point net
Point netPoint net
Point net
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 

Similar to [DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

Similar to [DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields (17)

【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Deep Learning技術の今
Deep Learning技術の今Deep Learning技術の今
Deep Learning技術の今
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

  • 1. A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields Naruya Kondo (Digital Nature Group M1)
  • 4. 書誌情報 4 • HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields – https://arxiv.org/pdf/2106.13228.pdf – SIGGRAPH Asia 2021 – Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz – University of Washington, Google Research • ひとことで言うと – 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する – シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算 – テンプレート場を3Dではなくより多次元に拡張した – (NeRF -> Nerfies -> HyperNeRF)
  • 6. 似た手法で動的なシーンを扱う研究 6 • Neural Volumes: Learning Dynamic Renderable Volumes from Images (SIGGRAPH 2019) – ダイナミックシーンで、複数視点の画像を入力に別視点の観測を生成 – reference画像をembeddingしてtemplate fieldを作る • Nerfies: Deformable Neural Radiance Fields (ICCV 2021) • Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video (ICCV 2021) • D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021) – 1動画を入力にして、テンプレートNeRFを作りつつ再構成 – Template Fieldとか、Canonical Volumeとかと呼ばれる
  • 7. Nerfies: Deformable Neural Radiance Fields 7
  • 9. Nerfies 9 • Nerfies: Deformable Neural Radiance Fields – ICCV 2021 • ひとことで言うと – 動画入力で、少しだけ変化のある動的なシーンも扱えるNeRF – 動画の全時刻(全視点)を1つのテンプレートNeRFで学習 – シーンの中で若干の変化があるので、テンプレートの中で色(c,σ)をサンプリングする 座標を少しずらす(warping)
  • 10. Nerfies 10 • 背景 – ハイクオリティな人間の3Dモデリングが、自撮りでできたらいいよね • 人に限らず、3Dモデリング技術的に広くやりたい – 自撮りでの難しさ • nonrigidity – 完全にじっとすることが無理 • challenging materials – 髪、メガネ、イヤリング (反射部分?) の3D再構成が難しい – NeRFは表現力が高いが、静的なシーンに限る&100枚くらい画像が必要 • アイディア – 単一動画入力だけ(若干シーンが変化している環境)でも、基準となるNeRF場の学習 &活用に落とし込めれば3D再構成ができる
  • 11. Nerfies 11 1. 貢献 a. 非剛体で変形する対象でも扱えるNeRFを提案。 各時刻の観測からその時刻のDeformation Fieldを生成 b. 各時刻のDeformation Fieldを生成に、Template Fieldを使うことを提案 c. シーンの鮮明さと(少しの)シーンの変化の学習を両立させるため、coarse-to-fine regularizationを提案 d. (アプリケーション化 (自撮り映像で3D化))
  • 12. Deformation Neural Radiance Field 12 • (c, σ)がほしい視点の座標xをそのまま使わず、 deformation field (MLP) で x -> x’ に変換してか使う • どの時刻(視点)でも、同じcanonicalなNeRFで(c, σ)を学習・推論 • 任意のωで、学習データとは違う(x,y,z)を入力してinterpolateする ⇦ここだけ  NeRF 欲しい露光、 ホワイトバランス等 その時刻の画像を エンコードした ベクトル
  • 13. Coarse-to-Fine Regularization 13 • NeRFでは通常、入力xにpositional encodingを適用して入力にする – これを頼りに高周波な質感が生成できる • 高周波にしすぎると既知のviewに過学習 してしまい、novel viewで繊細な画像が 生成できなくなる ⇨ 各項に重みをつけ、徐々に0から1に上げる
  • 14. その他工夫点 14 1. Background Regularization – 動かないと分かっている座標の点は、座標を x->x’で動かしたらペナルティ – SfM等を使えば、動かない点(poseの推論に使う特徴点)が求まる 2. Elastic Regularization – できるだけ座標を移動しないためのペナルティ – おおよそ全部の点の移動量の二乗和の平方根(厳密にはややこしいかったです...) 3. x->xで自由に動かすぎないよう、各点は回転と平行移動の 6自由度(MLPの出力)で変換 4. 各視点(時刻)の位置姿勢は、SfM(structure from motion)で取得
  • 16. A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields 16
  • 17. HyperNeRF (再掲) 17 • HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields – https://arxiv.org/pdf/2106.13228.pdf – SIGGRAPH Asia 2021 – Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz – University of Washington, Google Research • ひとことで言うと – 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する – シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算 – テンプレート場を3Dではなくより多次元に拡張した – (NeRF -> Nerfies -> HyperNeRF)
  • 18. HyperNeRF (再掲) 18 • 背景 – より動的なシーンを単一動画から3D再構成できるようにしたい – 少しの変化ならNerfies等でよいが、トポロジカルな変化には対応できない • レモンを切る、紙をやぶる、口をあける... • アイディア – トポロジカルな変化をdeepで連続的に扱える “level set method” を、 Nerfiesのテンプレート場への座標変換 x->x’ に使う • (お気持ち強め?) • 貢献 – よりチャレンジングな動的なシーンでも3D再構成できるようになった
  • 19. Level Set Method 19 • 陰関数で形状を表現する • 複雑な場(⇦NNで獲得する)をw=wiで切ると、トポロジカルな変化を表現可能 – wをtにすると時間発展が表現できる • DeepSDF、A-SDF等もlevel set methodを使っている (signed distance field) 3D shape 4D function (表現したい本来の次元(x,y) + additional な次元(w))
  • 20. • F(x,y,z) = “境界面との距離” とする関数 – F(x,y,z) > 0: 境界の外 – F(x,y,z) < 0: 境界の中 – (勝手に地球をイメージ) 20 F(x,y) = c c この2次元の形 をFで表したい⇨ この空間を考える⇨ -10 0 0 100 F=cがその形。内側: F>c, 外側: F<c (signed distance field)
  • 21. Deformable Slicing Surfaces 21 ◯と花の形8個 x’y’z’ x’y’z’ w w ◯と花の形4個 • 平面で切ると、全ての状態を 一列に並べる必要が合る。 – 部分的な形を複数並べるのは無駄 – 曲面で切れれば、使いまわせる • (Nerfiesはx’だけだった) • 256次元の空間にNeRF場が散らばっている • wは1or0ではなく尤度みたいな扱い
  • 22. Hyper-Space Neural Radiance Fields 22 • やっていることは、CanonicalなNeRFの入力を3+256次元にしただけ – 実際にはwで切ったりせず、そのままwをNeRFの入力にする – (level set methodは後付けなのでは...?) • deformingに頼らないために,wのpositional encodingの各項の係数を最初は0に x’もwも positional encodingする 3DのNeRF場が256Dの空間 に広がっている