SlideShare uma empresa Scribd logo
1 de 78
Baixar para ler offline
7.7.2023
NeRF(Neural Radiance Fields)
東京電機大学システムデザイン工学部情報システム工学科
鈴木 幹大(Mikihiro SUZUKI)
基礎知識
00
3
視覚的な情報が存在する特定の空間や環境.
NeRFでは対象を表現する暗黙的な関数を教師データを用いて学習
し,その関数が表現する三次元空間のことを指す.
シーン
4
三次元画像処理分野では,暗黙的(implicit)を「明示的な形状や構
造を持たない」という意味で使用.
明示的な表現では,面や頂点の位置などを直接表現.
ボクセルや点群,メッシュデータなどが明示的表現を持つ.
暗黙的表現(1/2)
指定された座標の位置に点をひとつひとつプロット
図.点群を明示的に表現する過程
5
身近な暗黙的表現は円や直線の方程式.
円の形状を直接的に描写しているのではなく,円を形成する点が満
たすべき関係性を表現.
暗黙的表現(2/2)
図.暗黙的表現することで連続的な円を形成することが可能
概要
01
7
NeRFは,新規視点画像生成分野においてMildenhallらが2020年に
提案した手法.
新規視点画像生成・・・観測したある対象の情報を用いて,別視点から
観測した時の画像を生成するタスク.
NeRFとは
図.NeRFの一連の流れ
8
Neural(ニューラル)
本手法がニューラルネットワークを用いていることを示している.
Radiance(放射輝度)
光の輝度や輝きを表す物理量.
NeRFにおける放射輝度とは,特定の方向に対する色.
NeRFは,三次元シーン内の各点における放射輝度を予測.
Field(場)
NeRFで表現する三次元空間.
Neural Radiance Fieldの由来
9
NeRFは異なる視点から撮影した画像集合を元に,対象となるシーン
の三次元構造を表現するMulti-Layer-Perceptron(MLP)を暗黙的に学
習する.
概要
NeRFではMLPを用いて
三次元構造を表現
二次元における
暗黙的表現の例
10
三次元座標と視線方向をMLPに入力し,その出力をボリュームレンダ
リング.
すべての画素にこの処理をすることで一枚のRGB画像を生成.
NeRFの入出力
11
三次元形状を多角形メッシュやボクセルなどを用いて,離散的な表現
をしていた.
ボクセルで高解像度の物体を表現するには,膨大なボクセル配列が必要.
メッシュで曲面の詳細な表現や滑らかな表現は困難.
NeRFは暗黙的関数を用いるため,解像度に依存しないズームイン・
ズームアウトが可能.
背景(1/2)
図.ボクセルで表したbunny 図.三角メッシュで表したbunny
12
ShapeNet[1]は多様な物体の三次元モデルのデータセット.
これまで,三次元形状を学習するためには Ground Truthとして三
次元モデルが必要だった.
NeRFは三次元モデルを必要としない.
背景(2/2)
[1] ShapeNet: An Information-Rich 3D Model Repository
図.ShapeNetのイメージ
13
NeRFは,LLFF[2]のアイデアを発展させ,ボリュームレンダリングを
導入したことによって,定量評価でより高精度な結果を得た.
関連研究
[2] Local Light Field Fusion: Practical View Synthesis with Prescriptive Sampling Guidelines
図.LLFFによって合成されたシーン 図.NeRFによって合成されたシーン
制約
02
15
NeRFの入力に用いる画像は静的シーンに限られる.
学習データとなる各画像にはカメラパラメータを付加する必要がある.
入力情報に関する制約
図.NeRFのLegoデータセット.train,val,testの視点数はそれぞれ,100,100,200視点である.
16
NeRFはモデルそのものが三次元空間を学習する都合上,学習可能
なシーンはひとつに限られる.
単一のシーンにのみ適用可能
𝑥, 𝑦, 𝑧, θ, φ → 𝐹𝑙𝑒𝑔𝑜 →
得られるのは絶対にlegoの画像
学習に一切関係ないshipの画像は得られない
𝐹𝑙𝑒𝑔𝑜:legoのデータを用いた学習済みモデル
(ボリュームレンダリングの過程含む)
17
対象は静的シーン.
学習データとなる画像にはカメラパラメータを付加する必要がある.
異なるシーンを同じネットワークに学習させることはできない.
NeRFの制約 まとめ
基本原理
03
19
(a)と(b)では入力に座標 𝑥, 𝑦, 𝑧 と視線(θ, φ),出力は色(𝑟, 𝑔, 𝑏)と体
積密度σとなるようにMLPを学習.
NeRFの全体図(1/3)
見ている向きによって色が変わる
20
NeRFにおける体積密度は,ある点上の物体表面における透明度,
つまり光をどれくらい通すかを示す値.
値域は非負の実数.
体積密度
視線方向は二つの角度,𝜃と𝜑で表現される.𝜃は水平面上の角度
で、𝜑は垂直面上の角度を示す.
視線方向
21
(c)でボリュームレンダリングを用いて,MLPの出力を合成.
NeRFの全体図(2/3)
22
(d)では,ボリュームレンダリングで合成されたシーンと正解画像
の誤差を最小化することでMLPを最適化.
NeRFの全体図(3/3)
23
下図はネットワークの構造を図式化したものである.入力層を緑,
中間層を青,出力層を赤としてあり,各ブロックの数値はその次
元数を示している.
ネットワークの構造(1/7)
図.NeRFのネットワーク構造
24
また,黒い矢印はReLU関数による活性化層,オレンジ色の矢印は
非活性化層,黒い破線の矢印はシグモイド関数による活性化層を示
す.さらに,”+”はベクトルの連結を示す.
ReLU関数と後述のPositional Encodingを組み合わせることで,高周
波成分も表現することが可能.
ネットワークの構造(2/7)
図.NeRFのネットワーク構造
25
初めに入力する𝐱 = (𝑥, 𝑦, 𝑧)はPositional Encodingで60次元の高次元
空間へ写像.
エンコーディング後の値はsinとcosの出力範囲である[-1,1]となる.
ネットワークの構造(3/7)
図.NeRFのネットワーク構造
26
続いて,DeepSDF[3]のアーキテクチャに従い,入力層と同じベク
トルを第5層に接続するスキップ関数が設置されている.
ネットワークの構造(4/7)
図.NeRFのネットワーク構造
[3] DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation
27
オレンジ色の矢印の先に設置されている層では,256次元の特徴
ベクトルを出力.
非活性化関数ではなく,ReLU関数で処理して1次元に変換した出
力を体積密度として出力する.
ネットワークの構造(5/7)
図.NeRFのネットワーク構造
ReLU
28
非活性化層で出力した特徴ベクトルは,視線方向𝒅がPositional
Encodingで処理されたγ(𝒅)と連結され,128次元のReLU層で処理さ
れる.
この層でγ(𝒅)と連結することで,視線方向依存のRGB値を得る.
ネットワークの構造(6/7)
図.NeRFのネットワーク構造
29
シグモイド関数を持つ出力層では,視線方向𝒅の光線で見た位置𝒙
のRGBを出力.
ネットワークの構造(6/7)
図.NeRFのネットワーク構造
30
NeRFは5次元の入力に限定されている.
低次元の入力では高周波成分を正確に表現することができない.
Positional Encoding(1/4)
Ground Truth No Positional Encoding
31
Rahamanらの研究[3]によると,MLPは低周波成分を学習しやすく,
高周波関数を用いて入力を高次元空間に写像することで,高周波
変動を含むデータの適合性が向上することが分かっている.
Positional Encoding(2/4)
[3]Rahaman, Nasim, et al. "On the spectral bias of neural
networks." International Conference on Machine Learning. PMLR, 2019.
32
Positional Encodingは低次元の入力を高次元空間に写像.
γ 𝑝 = sin 20π𝑝 , cos 20π𝑝 , … , sin 2𝐿−1π𝑝 , cos 2𝐿−1π𝑝
𝑝は[-1,1]に正規化済み.
𝐿はマッピングする次元数を決定するハイパーパラメータ.
Positional Encoding(3/4)
33
NeRFでは𝒙については𝐿 = 10,𝒅については𝐿 = 4を採用している.
結果として得られるγ(𝒙),γ(𝒅)はそれぞれ60次元,24次元のベクト
ルとなり,これがMLPに入力される.
Positional Encoding(4/4)
図.NeRFのネットワーク構造
𝐿 = 10
𝐿 = 4
34
(c)でボリュームレンダリングを用いて,MLPの出力を合成.
[再掲]NeRFの全体図(2/3)
35
カメラからの光線を通じて3D空間をサンプリングし,各サンプル点での
RGB値と体積密度を計算.
ボリュームレンダリングの概要(1/2)
光線
36
サンプリングした各点を集約することで2D画像の画素値を決定.
最終的にはすべての画素で計算することで,一枚の画像が得られる.
ボリュームレンダリングの概要(2/2)
→計算量が多い(後述)
37
視線方向に沿って,光源から逆向きに進む光を,光線(ray)と呼ぶ.
注目する物体が存在する三次元空間を通る光線𝒓を設定.光線𝒓は,
画像空間上の1つの点を示す方向𝒅に進行.そして,光線𝒓が通過する
空間の情報に基づいて,画像上の色𝐶 (𝒓)を決定.
光線(1/2)
図.光線のイメージ
光線𝒓
方向𝒅
原点𝒐
38
カメラ原点を𝒐としたとき,光線上の任意の点𝒓(𝑡)は,カメラ原点
𝒐から方向𝒅に向かってどれだけ進むかを示すパラメータ𝑡を用いて
以下のように書ける.
𝒓 𝑡 = 𝒐 + 𝑡𝒅
この光線上の密度σ(𝒓(𝑡))と色𝒄(𝒓 𝑡 , 𝒅)を𝑡で積分することで,画
像空間上の点の色を決定する.
光線(2/2)
39
光線を評価する𝑡の下限を𝑡𝑛,上限を𝑡𝑓と設定する.これにより,
計算を効率化することが可能.
積算処理は以下で定義されている.
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑇 𝑡 σ 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡
𝑇 𝑡 = exp − න
𝑡𝑛
𝑡𝑓
σ 𝒓 𝑠 𝑑𝑠
理論:色𝐶(𝑟)を決定する積算処理
40
関数𝑇はAccumulated Transmittance(累積透過率)と呼ばれ,光線
が物体を通過する際にどれだけ弱まるかを示す.
具体的には,光線が𝑡𝑛から𝑡𝑓まで移動する際に,他の粒子にぶつ
からずに移動する確率を表している.
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑇 𝑡 σ 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡
𝑇 𝑡 = exp − න
𝑡𝑛
𝑡𝑓
σ 𝒓 𝑠 𝑑𝑠
関数𝑇(1/2)
41
体積密度が高いと,光線が物体を通過する際に弱まる確率は高まる.
したがって,積分内の項は体積密度が高いと積分値が大きくなり,
結果として関数𝑇の出力値は小さくなる.
𝐶 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑇 𝑡 σ 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡
𝑇 𝑡 = exp − න
𝑡𝑛
𝑡𝑓
σ 𝒓 𝑠 𝑑𝑠
関数𝑇(2/2)
42
実装上,先述の積算処理は離散化して計算する.
カメラの位置からの距離に応じた区間[𝑡𝑛, 𝑡𝑓]で,光線追跡のサン
プリング粒度を決定するハイパーパラメータによって評価対象の
光線の三次元位置が決定される.
そして,その位置を𝑁個サンプリングする.
実装上:サンプリング(1/2)
43
レンダリングの際には,光線はサンプリングした点で評価される.
それが画素値を決定する要因となる.
区間をN個に分割し,各区間から点𝑡𝑖をランダムにサンプリング.
𝑡𝑖 ~ 𝒰 𝑡𝑛 +
𝑖 − 1
𝑁
𝑡𝑓 − 𝑡𝑛 , 𝑡𝑛 +
𝑖
𝑁
(𝑡𝑓 − 𝑡𝑛)
実装:サンプリング(2/2)
44
サンプリングされた𝑡𝑖の集合を用いて,区分求積法に基づいた近
似計算をする.
መ
𝐶 𝒓 = ෍
𝑖=1
𝑁
𝑇𝑖 1 − exp −σ𝑖δ𝑖 𝒄𝑖
𝑇𝑖 = exp − ෍
𝑗=1
𝑖−1
σ𝑗δ𝑗
δ𝑖 = 𝑡𝑖+1 − 𝑡𝑖
実装:積算処理(1/2)
45
ここで,δ𝑖は隣接するサンプル間の距離を示す.
መ
𝐶 𝒓 = ෍
𝑖=1
𝑁
𝑇𝑖 1 − exp −σ𝑖δ𝑖 𝒄𝑖
𝑇𝑖 = exp − ෍
𝑗=1
𝑖−1
σ𝑗δ𝑗
δ𝑖 = 𝑡𝑖+1 − 𝑡𝑖
実装:積算処理(2/2)
δ𝑖
𝑡𝑖
𝑡𝑖+1
46
以上が,画像上の各画素値𝐶(𝒓)を求めるためのレンダリング処理
であり,これをカメラの視界内のすべての画素に対して実行する
ことで,新規視点画像を生成できる.
実装上の話 まとめ
47
ボリュームレンダリングをより効率的に行う手法.
物体の表面などの重要な領域により多くのサンプルを割り当てるこ
とで,レンダリングの効率を向上させる.
Hierarchical Volume Samplingの概要(1/2)
図.Hierarchical Volume Samplingのイメージ
48
単一のネットワークを使用するのではなく,Coarseネットワーク
(粗い)とFineネットワーク(細かい)を用意.
1. Coarseネットワークで,大まかなレンダリング.
2. 1の結果より,多くサンプルが存在する場所を重要度が高いと捉
え,Fineネットワークで細かいレンダリング.
Hierarchical Volume Samplingの概要(2/2)
49
出力される画像が低解像度で,全体の大まかな特徴を扱うのに適
している.
መ
𝐶𝑐はサンプリングした各点の色𝑐𝑖に重みを掛けた和.
𝑇𝑖はAccumulated Transmittance
Coarseネットワーク
(𝑐1, σ1)
(𝑐2, σ2)
(𝑐3, σ3)
(𝑐4, σ4)
50
高解像度でシーンの細かい形状や細かい色の変化まで扱うことができる.
Coarseネットワークから得られた体積密度の分布に基づいて,光線に
沿ったサンプル点をサンプリング.
加重和の重みは
ෝ
𝑤𝑖 =
𝑤𝑖
σ𝑗=1
𝑁𝑐
𝑤𝑗
で正規化し,一定の確率密度関数(PDF)を生成.
Fineネットワーク(1/2)
51
PDFから逆変換サンプリングを用いて,光線に沿った点を𝑁𝑓個サンプ
リングする.
逆変換サンプリング・・・コンピュータで疑似乱数を生成する手法のひとつ
光線上の𝑁𝑐 + 𝑁𝑓個のサンプル点の座標と視線方向を用いて,各サン
プル点での色と密度を計算し,ボリュームレンダリングをする.
መ
𝐶𝑓 𝑟 = න
𝑡𝑛
𝑡𝑓
𝑇 𝑡 σ 𝒓 𝑡 𝒄 𝒓 𝑡 , 𝒅 𝑑𝑡
Fineネットワーク(2/2)
52
(d)では,ボリュームレンダリングで合成されたシーンと正解画像
の誤差を最小化することでMLPを最適化.
[再掲]NeRFの全体図(3/3)
53
CoarseとFineで計算した画素値とGroundTruthの二乗誤差をそれぞれ計算.
誤差関数(1/2)
教師画像
レンダリング画像
誤差を計算し,MLPを最適化
54
ℛ:光線の集合
𝐶𝑡(𝒓):教師画像の画素値
መ
𝐶𝑐(𝒓):Coarseネットワークでレンダリングした画像の画素値
መ
𝐶𝑓(𝒓):Fineネットワークでレンダリングした画像の画素値
ℒ = ෍
𝒓∈ℛ
መ
𝐶𝑐 𝒓 − 𝐶𝑡(𝒓) 2
2
+ መ
𝐶𝑓 𝒓 − 𝐶𝑡(𝒓)
2
2
誤差関数(2/2)
実験と結果
04
56
合成データ
Deep Voxels dataset[111]
複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット
鏡面反射は無し
画像サイズは512x512
CGデータセット
8種類のオブジェクト
学習用に100視点,テスト用に200視点レンダリング
画像のサイズは800x800
実データ
8つのシーンをスマホのカメラで色々な視点から撮影したデータ
20 ∼ 62枚撮影
画像サイズは1008x756
データセット
57
NeRFの性能を評価するために,シーンを三次元表現をする先行研究と
して以下の3つの研究を採用.
Neural Volumes(NV)[4]
高解像度で複雑なシーンの表現能力に制限があるボクセルベースの3D表現手法.
Scene Representation Networks(SRN)[5]
シーンを単一のNNで表現するが,詳細な形状と色の表現力に制限が存在.
Local Light Field Fusion(LLFF)
入力画像を用いて,各視点に対して三次元空間を離散的にサンプリングして
RGBグリッドを直接予測するが,これには大量のストレージが必要.
比較手法
[4] Neural Volumes: Learning Dynamic Renderable Volumes from Images
[5] Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations
58
3つの画質評価指標を用いて,新規視点画像合成のパフォーマン
スを比較.
定量評価
表1.画質評価指標による従来手法との比較
[41]Deepvoxels: Learning persistent 3D feature embeddings.
[28] Local light field fusion: Practical view synthesis with prescriptive sampling guidelines.
画像類似度指標について
59
NeRFとLLFFは対称の模様や文字が細かく復元できている.
SRNとNVは細かい模様や文字を合成する表現力がない.
NVでは,シーン表現が粗いボクセルなのが原因.
定性評価(1/3)
図.Deep Voxels dataset 対する結果
60
SRNは詳細なシーンの表現が難しい.NVは異なる視点間でシーンの見
え方が一貫しているが,その解像度は低い.LLFFは視覚的なartifactが
生じやすい.
定性評価(2/3)
望ましくない不自然な現象
図.CGデータセットに対する結果
不鮮明
歪んでいる
61
定性評価(3/3)
図.実データに対する結果
62
CGシーンで色々条件を変えた結果を比較.
Positional EncodingとView Dependenceの有無が精度に大きく寄与.
Hierarchical Volume Samplingは計算の効率化のため,結果への寄与は小さい.
画像の枚数が少なすぎると,性能は低下.
Positional Encodingの𝐿(γ(𝒙))が小さすぎると,性能が低下.
Ablation Study(1/2)
表2.Ablation Studyをした結果
手法の中からある条件だけを抜くことで,
その要素の重要さについて考察する実験
変更する条件
変更する値 評価指標
63
Ablation Study(2/2)
図.Ablation Study 定性評価
・光が反射(視線依存)
・高周波成分を表現
・光反射はない
・高周波成分を表現
・光が反射(視線依存)
・高周波成分を表現不可
今後の課題
05
65
800x800の解像度の画像をレンダリングするとき,画像一枚当たり,
800x800x64=40,960,000回のMLPの計算が必要.
課題①:学習・推論速度が遅い
解像度
光線上のサンプリング数
66
対象の密度しか学習しないため,正確な表面形状を学習しない.
強い反射など,レンダリングが難しい部分に浮遊物が発生.
課題②:表面形状が不正確
[4] NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
図.論文[4]による比較
67
シーンの情報がMLPに暗黙的にエンコードされているため,どのパ
ラメータが色や形状に対応しているかが不明.
学習に必要な画像が膨大.
静的シーンしか扱えない.
課題:その他
68
学習・推論の高速化
Instant-NGP (SIGGRAPH 2022)
TensoRF (ECCV 2022)
Plenoxels (CVPR 2022)
表面形状の改善
NeuS (NeurIPS 2021)
VolSDF (NeurIPS 2021)
少ない画像から再構成
pixelNeRF (CVPR 2021)
KeypointNeRF (ECCV 2022)
最近の動向(1/2)
pixelNeRF 3-view NeRF
図.pixelNeRFとNeRFの比較
69
色・形状の編集
Distilled feature fields (NeurIPS 2022)
Deforming-NeRF (ECCV 2022)
動的シーンへの対応
DyNeRF (CVPR2022)
HyperNeRF (SIGGRAPH Asia 2021)
最近の動向(2/2)
図.DyNeRFによる動的なシーンの再現
まとめ
06
71
MLPにある点の三次元座標と視線方向を入力すると,その点におけ
る色と密度を出力.
MLPで出力した色と密度をボリュームレンダリングで合成し,その
点における画素値を決定.
NeRF
Thank you for listening
https://033lab.org
73
オブジェクトを三次元で表現した形状データ.
データの形はメッシュ.
三次元モデル
74
NeRFにおける静的シーンとは,対象となる物体が撮影中に変化しな
いシーン.
例えば,椅子は形を変えたり動いたりしないため,必然的に静的
シーンとなる.
静的シーン
75
(a),(b)は同じ箇所を異なる方向から見ると,色が変わること
を再現している.
(c)はあらゆる方向から同じ箇所を見た時の色の変化を可視化
した図.
視線方向に依存するRGB
図.視線に依存する点の色の効果
76
• PSNR(Peak Signal to NoiseRatio)
最大画素値とノイズの比率を計算する.
PSNR =
𝑀𝐴𝑋2
𝑀𝑆𝐸
画像類似度指標(1/3)
77
• SSIM(Structual Similarity)
画素値(輝度),コントラスト,構造の変化を評価する.
𝑆𝑆𝐼𝑀 𝑥, 𝑦 =
2𝜇𝑥𝜇𝑦 + 𝐶1 2σ𝑥𝑦 + 𝐶2
(𝜇𝑥
2
+ 𝜇𝑦
2
+ 𝐶1)(σ𝑥
2
+ σ𝑦
2
+ 𝐶2)
(𝐶: 定数, σ: 標準偏差, 𝜇: 平均画素値)
画像類似度指標(2/3)
78
• LPIPS(Learned Perceptual Image Patch Similarity)
AlexNetやVGGなどの学習済み画像分類ネットワークの畳み込み層が
出力する特徴量を基にした基準.
画像類似度指標(3/3)

Mais conteúdo relacionado

Semelhante a Neural Radience Fields for laboratory paper rounds

Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
ishii yasunori
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
Mitsuo Yamamoto
 

Semelhante a Neural Radience Fields for laboratory paper rounds (20)

第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
SeRanet
SeRanetSeRanet
SeRanet
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
領域分割法
領域分割法領域分割法
領域分割法
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 

Último

Último (11)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

Neural Radience Fields for laboratory paper rounds