SlideShare uma empresa Scribd logo
1 de 21
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
LAR-SR: A Local Autoregressive Model for Image Super-
Resolution
Presenter: Kazutoshi Akita
(ToyotaTechnological Institute, IntelligentInformation Media Lab)
論文情報
• 論文名:LAR-SR: A Local Autoregressive Model for Image Super-Resolution (CVPR2022)
• 著者:Baisong Guo1, Xiaoyun Zhang1, Haoning Wu1, Yu Wang1,2, Ya Zhang1,2, Yan-Feng
Wang1,2
1Cooperative Medianet Innovation Center, Shanghai Jiao Tong University,
2Shanghai AI Laboratory
• URL:
https://openaccess.thecvf.com/content/CVPR2022/html/Guo_LAR-SR_A_Local_Autoregressive_Model_for_Image_Super-
Resolution_CVPR_2022_paper.html
2
※本資料の図は,言及がなければ自作あるいは上記論文からの引用
前提知識
• 超解像(Super Resolution, SR)
– 画像を綺麗に拡大する技術
3
超解像
(SRNet)
低解像画像
(LR画像)
超解像画像
(SR画像)
前提知識
4
• これまでの超解像
SRNet
低解像画像
(LR画像)
超解像画像
(SR画像)
・低解像化
・ブラー
高解像画像
(HR画像)
Loss (e.g., MSE, L1)
前提知識
• MSE/L1損失による学習では,SR画像がボケる
– 1つのLR画像に対して複数の妥当なHR画像が対応するため
5
これに対処するため,確率モデルを利用した超解像が注目されている
前提知識
• 確率モデルは様々
– GAN
• 実データを指定した確率分布(e.g., ガウス分布)に直接埋め込み
• 欠点:学習が困難 or 不安定
– Normalizing Flow
• 単純な確率分布からの変換で実データ分布を表現
• 欠点:ネットワーク構造に制限
6
概要
• 確率モデルとして,自己回帰(Autoregressive; AR)モデルを利用した超解像手法を
提案
• 自己回帰モデルを局所的なパッチ内でのみ使用することで,計算コストの高さを解消
• 複数の超解像データセットにおいてベースラインを上回る性能
7
自己回帰モデル
• i番目のモデル出力が,i-1番目までのモデル出力に依存する確率モデル
• メリット
– 特定の分布を仮定しないため,実データの分布を忠実に再現できるポテンシャルがある
– 安定的な学習が可能
8
𝑝 𝑥 = 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)
自己回帰モデル
• 自己回帰モデルによる画像生成
– 例:Pixel RNN [1]
• 生成したい画像のピクセル数が増えると計算時間が膨大に
9
[1]V. Oord, et al., "Pixel recurrent neural networks." International conference on machine learning. PMLR, 2016.
[1]より引用
提案手法
• 基本アイデア
– 画像の局所パッチ内でのみ自己回帰モデルを利用して
並列化可能にし,計算効率を改善
– 低解像画像で遠く離れた箇所との依存関係(画像構造)
がすでに与えられている
– 局所パッチ内での,生成したいテクスチャにおいて
のみ依存関係がある
10
提案手法
• モデル概要
11
提案手法
• Stage1: VQVAE
– 高解像テクスチャのコードブックを作成
12
提案手法
• Stage2: Local Autoregressive (LAR) module
– 低解像画像を条件付けて,パッチ内でVQVAEのコードブックのindexを推定
13
実験結果
• 一般画像超解像(DIV2K)
14
実験結果
• 一般画像超解像(DIV2K)
• 指標
– PSNR: 再構成誤差
– SSIM: 標準偏差などに基づいた
GTとの差の指標
– LPIPS: 知覚的品質の指標
15
実験結果
• 顔画像超解像
16
実験結果
• 顔画像超解像
17
実験結果
• パッチサイズ(= 自己回帰モデルの再帰回数)による性能比較
18
実験結果
• 画像全体に自己回帰モデルを適用した場合
19
実験結果
• 各ステージにおいてcoarse-SR(≒画像構造による条件付け)の有無によ
る比較
20
まとめ
• 自己回帰モデルを利用した超解像を提案
• 低解像画像(≒画像構造)を条件付けることで,局所パッチ内でのみ自己回帰モデルを使
用すればよく,計算効率を改善
• 一般画像超解像・顔画像超解像において従来手法を上回る性能を達成
21

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 

Semelhante a 【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution

OpenStack APAC Report
OpenStack APAC ReportOpenStack APAC Report
OpenStack APAC Report
Satoshi Konno
 

Semelhante a 【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution (13)

【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution【DL輪読会】Reflash Dropout in Image Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution
 
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
 
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
[DL輪読会]Supervision-by-Registration
[DL輪読会]Supervision-by-Registration[DL輪読会]Supervision-by-Registration
[DL輪読会]Supervision-by-Registration
 
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
 
Menoh-Rubyで始めるお手軽簡単なDNN推論アプリ
Menoh-Rubyで始めるお手軽簡単なDNN推論アプリMenoh-Rubyで始めるお手軽簡単なDNN推論アプリ
Menoh-Rubyで始めるお手軽簡単なDNN推論アプリ
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
OpenStack APAC Report
OpenStack APAC ReportOpenStack APAC Report
OpenStack APAC Report
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution