SlideShare uma empresa Scribd logo
1 de 17
DEEP LEARNING JP
[DL Papers]
論文紹介:
GET3D: A Generative Model of High Quality 3D
Textured Shapes Learned from Images
Ryosuke Ohashi, bestat Corp.
http://deeplearning.jp/
書誌情報
2
 ※紹介論文からの引用は省略させていただきます
 NeurIPS 2022(2022年12月)採択論文
 DreamFusionと並んで巷で話題の3Dモデル生成に関する論文
背景:3Dモデルを大量生成したい
3
 今後3Dモデルの活用シーンが爆増する?
 メタバース
 デジタルツイン
https://www.nvidia.com/ja-jp/omniverse/
背景:AIで大量生成したい
4
 AIで3Dモデルを大量生成したい!
 人手モデリングではスケールに限界あり
 専門モデラーの確保
 モデリング工数
 品質管理
https://www.turbosquid.com/ja/3d-
model/animal
本論文の趣旨
5
 GET3Dという名前の3Dモデル生成モデルを提案
 a Generative Model of Explicit Textured 3D Meshes
 既存の3Dモデル生成モデルより高品質なテクスチャ付き3Dメッシュを
大量生成できる
 3Dモデルの生成モデルを2D画像データのみ使って構築できる
 ※本論文ではテクニカルな理由により,3Dモデルをレンダリングして得た2D画像
を使っている
6
7
https://nv-tlabs.github.io/GET3D/
補足:3Dメッシュ,テクスチャ
8
メッシュ
ポリゴンメッシュの略.ポリゴンと略すことも多い.
ポリゴン(多角形)を並べて形状を表したもののこと.
https://en.wikipedia.org/wiki/Polygon_mes
h
https://entry.cgworld.jp/terms/UV%E5%BA%A
7%E6%A8%99%E7%B3%BB.html
テクスチャ
メッシュに画像をマッピング投影して見た目や質感を表したもののこと.
GET3Dの手法概要
9
 ②warped SDFとテクスチャ場が出てくる
 deep marching tetrahedraでSDFを3Dメッシュ化
 シード「w1」と「w2」を入れる
①「形状」と「見た目」の生成器にシード「w1」と「w2」を入れ
る
 ③微分可能レンダラーでテクスチャ付き3Dメッシュを様々な方向から2D画像
にレンダリング
 ④StyleGANを使って,レンダリングされた画像群が教師2D画像群の分布に
マッチするよう訓練する
補足:SDF, marching tetrahedra
10
https://arxiv.org/abs/1901.05103
SDF (Signed Distance Function)
ある曲面への最短距離を与える関数.
曲面の外側では正,内側では負の値をとる.
f(x) = 0 を満たすxの集合が曲面を表している.
Marching Tetrahedra
SDFが表す曲面をメッシュ化するアルゴリズム.
Marching Cubesという直方体を使ったバージョンが有名.
https://nv-tlabs.github.io/DMTet/
手法の要点
11
 基本的には既存研究や論文著者らの先行研究を組み合わせたアルゴリズムになっている
 DMTET x StyleGAN
 「変形可能メッシュ + 微分可能ラスタライザ」という計算コストが低くかつそれなりに表現力・自由度が高い構成をとること
で,以下のメリットを実現している
 高解像度で3Dモデルをパラメトライズ・高解像度でレンダリングできるので形状・テクスチャのディテールまで捉えられ
る
 生成モデルの訓練時間が比較的短くてすむ
実験:CGデータセットを使った訓練
12
 「あるクラス」の3Dモデル群をレンダリングして得られる2D画像群を使ってGET3Dを訓練する
 ShapeNetの車モデル約10K個からレンダリングした約200K枚の画像
 TurboSquidの動物モデル約500個からレンダリングした約50K毎の画像
 …
 3Dモデル生成モデルの形状・見た目に関する評価指標で既存研究より良好な結果が得られた
 特にバイクのような非常に複雑な形のものについて顕著な向上が見られた
13
既存研究との比較(形状品質)
14
3D awareなシード補間
その他の応用
15
マテリアル付き3Dモデルの生成モ
デル
テクスチャにマテリアルパラメー
ターを入れてIBL対応したレンダ
ラーで逆レンダリングする
text-guidedな3Dモデル生成モデル
CLIPでの埋め込みを使って生成モ
デルをfine tuningする
制限事項
16
 「2D画像群のみを使って」といいつつ,2Dシルエットやカメラのキャリブレーションパラメーターを
活用している
 セグメンテーションやカメラ位置推定などの技術と組み合わせてリアルの2D画像群に適用できるよ
うにできないか?
 生成器の生成対象が(生成器毎に)特定クラスのオブジェクトに限定されている
 複数クラス対応することでより多様な概念を表現できるようにできないか?
17
まとめ,感想
 まとめ
 既存手法よりも高品質な3Dモデル生成モデル「GET3D」を提案
 変形可能メッシュと軽量なレンダラーを使って逆レンダリングすることで従
来より高解像度な3Dモデルの生成を実現した
 感想
 可能な限り高速で効果のある手法を使って新しい結果を生み出すところが
NVIDIAらしい研究で流石だと思った
 Appendixにいろんな実験結果や詳細が書かれていてとても勉強になる
 生成される3Dモデルの品質や作り込み具合はまだまだ向上の余地があるので
今後の研究の発展が楽しみ

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 

Semelhante a 【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

Cocos2d x-sprite3d
Cocos2d x-sprite3dCocos2d x-sprite3d
Cocos2d x-sprite3d
aktsk
 

Semelhante a 【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images (20)

DMS2017~3Dプリンタまとめ~
DMS2017~3Dプリンタまとめ~DMS2017~3Dプリンタまとめ~
DMS2017~3Dプリンタまとめ~
 
DMS2017まとめ
DMS2017まとめDMS2017まとめ
DMS2017まとめ
 
【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法
【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法
【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法
 
【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering
【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering
【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
3DCAD入門~3DCADで出来ること~
3DCAD入門~3DCADで出来ること~3DCAD入門~3DCADで出来ること~
3DCAD入門~3DCADで出来ること~
 
宇宙建造物と3Dプリント―3D Printing Corporation
宇宙建造物と3Dプリント―3D Printing Corporation宇宙建造物と3Dプリント―3D Printing Corporation
宇宙建造物と3Dプリント―3D Printing Corporation
 
KyotoLT_Online_27.pdf
KyotoLT_Online_27.pdfKyotoLT_Online_27.pdf
KyotoLT_Online_27.pdf
 
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployするDeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
Rustで3D graphics programming
Rustで3D graphics programmingRustで3D graphics programming
Rustで3D graphics programming
 
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
 
Cocos2d x-sprite3d
Cocos2d x-sprite3dCocos2d x-sprite3d
Cocos2d x-sprite3d
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
ドメイン駆動設計とは何か 【入門編】
ドメイン駆動設計とは何か 【入門編】ドメイン駆動設計とは何か 【入門編】
ドメイン駆動設計とは何か 【入門編】
 
Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.
 
【A01】FAKE to REAL【青森大学/清水琢巳】
【A01】FAKE to REAL【青森大学/清水琢巳】【A01】FAKE to REAL【青森大学/清水琢巳】
【A01】FAKE to REAL【青森大学/清水琢巳】
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

Notas do Editor

  1. Beyond Reward Based End-to-End RL: Representation Learning and Dataset Optimization Perspective