SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
超解像
Meta Study of Super Resolution
@s_aiueo32
東京電機⼤学⼤学院情報通信⼯学専攻 内⽥奏
1
今⽇話すこと & 話さないこと
話すこと
◦ 単⼀画像超解像の話
◦ 深層学習を⽤いた超解像モデルの話
◦ メタな話
話さないこと
◦ 深層学習以前の超解像の話(Example-based SR, Neighbor Embedding, Sparse Coding etc.)
◦ Reference-basedな超解像の話(複数の画像を使う⼿法)
◦ ⾼度な数学的な話
◦ そもそもGANを⽣成モデルとは認めな(ry という話
2
そもそもの話
3
超解像とは
⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化
◦ ⾼周波成分を復元する問題を指す場合もある
◦ 画像以外にも⾳声や電波のセンシングの⽂脈でも登場
4
超解像画像 𝐼"#低解像度画像 𝐼$#
Algorithm
問題設定
Image Restoration問題
◦ 低解像度画像 𝐼$#は⾼解像度画像 𝐼%#が劣化して⽣成されたと仮定
◦ 劣化 𝒟の逆変換 ℱを獲得することを⽬標とする
5
超解像画像 𝐼"#低解像度画像 𝐼$#
復元劣化
高解像度画像 𝐼%#
𝒟 𝐼%#; 𝛿 ℱ 𝐼$#; 𝜃
超解像の難しさ(1)
ill-posed問題
◦ ⼀つの⼊⼒画像に対して妥当な出⼒画像が無数に存在
◦ 拡⼤倍率の増加に伴ってill-posedの度合いもきつくなる
6
復元
https://buildersbox.corp-sansan.com/entry/2019/02/21/110000
ex.)	1x3を2x6に超解像
超解像の難しさ(2)
劣化過程は未知(であるべき)
◦ 解像度が低い or ⾼周波成分が⽋ける原因は様々
◦ 撮像系の問題: センササイズ,焦点距離,絞り etc.
◦ ソフトウェア側の問題: 画像圧縮,リサイズがかかっているかも etc.
◦ 実際にはSelf-supervised learningとすることが多い
◦ HR画像を既知のリサイズ⼿法で縮⼩してLR画像を作成
◦ 試しやすい反⾯,特定のリサイズしか対応できない懸念
評価指標が⾊々ある
◦ MSE, MAE, PSNR, SSIM, VIF, NIQE etc.
◦ 画素間の距離 vs ⾃然さ
◦ 詳細は後ほど
7
𝐼%#𝐼$#
学習
リサイズ
データセットの話
8
Set5
[Bevilacqua et al. BMVC2012]で使⽤されたベンチマーク
9
Set14
[Zeyde et al. Springer2012]で使⽤されたベンチマーク
10
BSDS300 or 500
The Berkeley Segmentation Dataset and Benchmark
◦ セグメンテーション⽤のもの
◦ BSDS300のほうが使われてる感じがする
◦ trainデータ200枚を指してBSD200と表現されたりする
◦ testテータ100枚も同様にBSD100と⾔われたりする
◦ BSDS500は300の強化版
11
Urban100
[J. Huang et al. CVPR2015]で使⽤されたベンチマーク
◦ 都市部の建造物のデータセット
◦ ⾼周波成分をよく含む
12
Manga109
⽇本のプロの漫画家によって描かれた109冊の漫画
◦ 東⼤相澤研が公開するデータセット
◦ 線画超解像のベンチマーク
◦ ⾼周波成分をよく含む
13
http://www.manga109.org/ja/
DIV2K
NTIRE2017のコンペ⽤データ
◦ testデータのGround Truthが未配布
◦ 学習にだけ使う
◦ 加⼯された画像が多いイメージ(インスタ映えしそうな)
14
モデルの話
15
SRCNN [C. Dong et al. ECCV2014]
初めてCNNを超解像に適⽤
◦ 3層のCNNで超解像
◦ 𝑓,,𝑓. = 9, 5 , 𝑛,, 𝑛3 = 64, 32 を採⽤
◦ SGD+MSEで3⽇間学習
◦ ⼊⼒画像は事前に出⼒サイズにリサイズ
◦ Pre-Upsampling SRという
◦ Sparse-CodingをCNNと⾒なしている
◦ 1層⽬: パッチ抽出とSparse表現
◦ 2層⽬: 低解像度空間から⾼解像度空間への写像
◦ 3層⽬: 再構成
16
従来手法との比較
VDSR [J. Kim et al. CVPR2016]
SRCNNの多層化 + 学習の⾼速化
◦ 20層のCNN
◦ 「The Deeper,The Better」
◦ Residual構造 + Gradient Clippingの導⼊
◦ Residual構造により特徴マップの値域を⼩さくする
◦ 勾配をクリップして勾配爆発/消失を抑制
◦ ⾼い学習率の設定が可能
◦ 収束までの時間を4時間に短縮
◦ マルチスケールな学習
◦ 複数の倍率を混ぜて学習
17
FSRCNN [C. Dong et al. ECCV2016]
SRCNNを約40倍⾼速化
◦ Deconvolutionの導⼊
◦ LR画像に直接畳み込みを適⽤
◦ 中間の特徴マップのサイズが⼩さい
◦ 層を増やしてもパラメータと処理時間は減少
◦ 最後にDeconvolutionでUpsampling
◦ Post-Upsampling SRという(現在の主流)
◦ 倍率の⾃由度は下がる(⾮整数は厳しい)
◦ その他の⼯夫
◦ 5x5convを3x3conv 2回に置き換え
◦ VGG的なアプローチ
◦ 活性化にPReLU
18
ESPCN [W. Shi et al. CVPR2016]
Subpixel Convolutionの導⼊
◦ Deconvolutionの弱点
◦ 位置によって関与する⼊⼒画素数が異なることでCheckerboard Artifactが出現
◦ ゼロ埋めに対する演算が無駄,遅い
◦ Subpixel Convolution
◦ ⼊⼒マップを畳み込みで𝑟3
枚のマップに増やす(𝑟は倍率)
◦ ピクセルを再配置
◦ 精度向上 + x10⾼速化 (vs SRCNN)
19
https://distill.pub/2016/deconv-checkerboard/
SRGAN [C. Ledig et al. CVPR2017]
GAN超解像の先駆け
◦ SRResNet
◦ SRGANのGenerator部分
◦ ResBlockをスタックしていくシンプルな構造
◦ global skip-connection
◦ SRGAN
◦ GANの枠組みで学習
◦ Perceptual loss function
◦ 𝑙:;
= 𝑙<== + 𝑙?@A
◦ 𝑙<==はpretrained VGGの中間特徴マップの距離
◦ 評価指標ではSRResNet,MOS評価ではSRGAN
◦ GANを導⼊すると⾃然な画像が得られるが,PSNRは下がる
◦ 画素の距離を最適化するのは果たして正しいのか?
20
SRGAN vs SRResNet
21
滑らかすぎる ⾃然だが似てない ⽬が離れすぎている
Perception Distortion Tradeoff
[Y. Blau et al. CVPR2018]
Image Restorationにおけるメトリックと知覚品質の関係を定量評価
◦ メトリックと知覚品質の間にトレードオフを発⾒
◦ Adversarial Lossの係数をいじるとトレードオフを横断できる
◦ 最適な動作点は応⽤依存
22
両立しているモデルは存在しない
EDSR [B. Lim et al. CVPRW2017]
NTIRE2017 Winnerモデル
◦ SRResNetに類似した構造
◦ Batch Normalizationを除去
◦ BNを使うとぼやけたりartifactが出る
◦ 計算をシンプルにしたい
◦ 使わなくても⼗分収束する(ResNetのおかげ?)
◦ Self-ensemble
◦ test setでの精度を上げるテクニック
◦ rot90, flipした画像を超解像
◦ 元の位置に戻して平均をとる
23
[Radu et	al.	CVPR2016]より引用
LapSRN [W. Lai et al. CVPR2017]
Progressiveな超解像
◦ Feature Extraction Branch: 画像のエッジなどを強調するマップを出⼒(まるでラプラシアン)
◦ Image Reconstruction Branch: ぼやけた画像+強調マップ=超解像結果
24
RDN [Y. Zhang et al. CVPR2018]
ResNet + DenseNet
◦ Residual-In-Residual(RIR)な構造
◦ ResidualにするためにDenseNetの出⼒に1x1convを⼊れてチャネル数を合わせる
25
DBPN [Haris et al. CVPR2018]
Up-Downを繰り返して効率的に特徴抽出
◦ Iterative up-and-down sampling SR
◦ 7回のup-and-down
◦ Dense-DBPNはRDNと同じ感じ
◦ コンペで強かった
◦ NTIRE2018 Track 1 Winner
◦ 10回up-and-downしたDense-DBPNを使ってるっぽい
◦ PIRM2018 Challenge Region 2 Winner
◦ GANを導⼊
26
RCAN [Y. Zhang et al. ECCV2018]
超解像でもAttentionis All You Needなのか!?
◦ Channel Attention(CA)を導⼊
◦ SENetの派⽣
◦ 各チャネルに重み付けして効率的に特徴抽出
◦ CAを含むブロック(RCAB)をスタック
◦ RIR構造をとる
◦ 出⼒結果がめちゃくちゃ綺麗!
27
メタな話
誰が強いのか
成功例に素早く反応すべし
現場で使えるのか
フレームワークは何がいい?
マシンリソース⾟くない?
28
どこが強いのか
The Chinese University of Hong Kong
◦ SRCNNの著者のChao Dongがいた研究機関
◦ 今も⼀緒に⾊々やってる
◦ CUHK-SenseTime Joint Lab なるものが…
◦ ECCV2018のPIRMチャレンジでも優勝した模様
◦ ゲームのテクスチャを超解像して話題になったやつ
Twitter
◦ ESPCN & SRGANの発表
ETH Zurich
◦ Low-level vision全般に強い
29
成功例に素早く反応すべし
時系列を追っていると,発表された⼿法がすぐに組み込まれるのがわかる
◦ VDSR: ResNet
◦ EDSR: SRResNet
◦ RDN: DenseNet
◦ RCAN: SENet
◦ 網羅的サーベイ必要
組み込むだけではダメ
◦ 重要な部分を理解していらない部分は捨てる
◦ EDSRがいい例
◦ 分野の歴史を知るべし
◦ 継続的な網羅的サーベイ必要
30
現場で使えるのか
半分イエス,半分ノー
超解像は試しやすいタスク
◦ 画像さえあれば縮⼩して学習するだけ
Pretrainedモデルはそこまでうまくいかない
◦ SRGAN for Super-Resolving Low-Resolution Food Images [Nagano et al. 2018]
◦ クックパッドの論⽂
◦ 単純に適⽤しただけではダメ
◦ 特定の料理画像に特化したSRGANの学習法を提案
◦ 実際のユースケースを考える
◦ ここでは⾃然な復元が好ましいぽいためSRGANを選択
◦ OCR精度を上げたいとかだと…?
31
その他のメタ
フレームワークはどれがいい?
◦ 今の所PyTorch優勢
◦ Subpixel Convolutionがネイティヴ実装されてるのが⼤きい
◦ tfだと,conv -> depth2spaceってやらなきゃダメ
◦ NTIRE2018では (pytorch, tf, matconvnet)=(12, 8, 3)
マシンリソース⾟くない?
◦ 学習はそんなに⾟くない
◦ batch_size=1,48x48とかが主流なため
◦ 推論がキツい
◦ 画像をパッチに切って後でつなぎ合わせては? -> 端が⾟い
◦ スライドさせて平均とってもいいかも.self-emsenbleが許されるくらい.
◦ Recursiveなアプローチを検討する
32
⽂献⼀覧
[1] Dong, Chao, et al. "Learning a deep convolutional network for image super-resolution." Europeanconference on computer vision. Springer, Cham, 2014.
[2] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition.
2016.
[3] Dong, Chao, Chen Change Loy, and XiaoouTang. "Accelerating the super-resolution convolutional neural network." European conference on computer vision. Springer, Cham, 2016.
[4] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2016.
[5] Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[6] Blau, Yochai, and Tomer Michaeli. "The perception-distortion tradeoff." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[7] Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.
[8] Lai, Wei-Sheng, et al. "Deep laplacian pyramid networks for fast and accurate super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[9]Zhang, Yulun, et al. "Residual dense network for image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[10] Haris, Muhammad, Gregory Shakhnarovich, and Norimichi Ukita. "Deep back-projection networks for super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[11] Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018.
[12] Nagano, Yudai, and Yohei Kikuta. "SRGAN for super-resolving low-resolution food images." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary
Management. ACM, 2018.
[13] Timofte, Radu, Rasmus Rothe, and Luc VanGool. "Seven ways to improve example-based single image super resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
2016.
33
付録 今回参考にしたもの
34
https://paperswithcode.com/
付録 今回参考にしたもの
サーベイ論⽂
◦ 半年に⼀本くらいある
◦ Yang, Wenming, et al. "Deep learning for single image super-resolution: A brief
review." arXiv preprint arXiv:1808.03344(2018).
◦ Yang, Wenming, et al. " Deep Learning for Image Super-Resolution: A Survey." arXiv
preprint arXiv: 1902.06068(20189).
衝撃的にまとまっていた記事
◦ ”トップ学会採択論⽂にみる、超解像ディープラーニング技術のまとめ” -
https://qiita.com/jiny2001/items/e2175b52013bf655d617
◦ お恥ずかしながら⾃分のアドベントカレンダーの次の枠に投稿されていた
◦ スライド作ってる途中に⾒つけて,俺なぞってるだけやんってなった
35

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 

Semelhante a [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
Masayuki Tanaka
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
 

Semelhante a [cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会 (20)

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 

[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会

  • 1. 超解像 Meta Study of Super Resolution @s_aiueo32 東京電機⼤学⼤学院情報通信⼯学専攻 内⽥奏 1
  • 2. 今⽇話すこと & 話さないこと 話すこと ◦ 単⼀画像超解像の話 ◦ 深層学習を⽤いた超解像モデルの話 ◦ メタな話 話さないこと ◦ 深層学習以前の超解像の話(Example-based SR, Neighbor Embedding, Sparse Coding etc.) ◦ Reference-basedな超解像の話(複数の画像を使う⼿法) ◦ ⾼度な数学的な話 ◦ そもそもGANを⽣成モデルとは認めな(ry という話 2
  • 4. 超解像とは ⼊⼒信号の解像度を⾼めて出⼒する技術 i.e. ⾼解像度化 ◦ ⾼周波成分を復元する問題を指す場合もある ◦ 画像以外にも⾳声や電波のセンシングの⽂脈でも登場 4 超解像画像 𝐼"#低解像度画像 𝐼$# Algorithm
  • 5. 問題設定 Image Restoration問題 ◦ 低解像度画像 𝐼$#は⾼解像度画像 𝐼%#が劣化して⽣成されたと仮定 ◦ 劣化 𝒟の逆変換 ℱを獲得することを⽬標とする 5 超解像画像 𝐼"#低解像度画像 𝐼$# 復元劣化 高解像度画像 𝐼%# 𝒟 𝐼%#; 𝛿 ℱ 𝐼$#; 𝜃
  • 7. 超解像の難しさ(2) 劣化過程は未知(であるべき) ◦ 解像度が低い or ⾼周波成分が⽋ける原因は様々 ◦ 撮像系の問題: センササイズ,焦点距離,絞り etc. ◦ ソフトウェア側の問題: 画像圧縮,リサイズがかかっているかも etc. ◦ 実際にはSelf-supervised learningとすることが多い ◦ HR画像を既知のリサイズ⼿法で縮⼩してLR画像を作成 ◦ 試しやすい反⾯,特定のリサイズしか対応できない懸念 評価指標が⾊々ある ◦ MSE, MAE, PSNR, SSIM, VIF, NIQE etc. ◦ 画素間の距離 vs ⾃然さ ◦ 詳細は後ほど 7 𝐼%#𝐼$# 学習 リサイズ
  • 9. Set5 [Bevilacqua et al. BMVC2012]で使⽤されたベンチマーク 9
  • 10. Set14 [Zeyde et al. Springer2012]で使⽤されたベンチマーク 10
  • 11. BSDS300 or 500 The Berkeley Segmentation Dataset and Benchmark ◦ セグメンテーション⽤のもの ◦ BSDS300のほうが使われてる感じがする ◦ trainデータ200枚を指してBSD200と表現されたりする ◦ testテータ100枚も同様にBSD100と⾔われたりする ◦ BSDS500は300の強化版 11
  • 12. Urban100 [J. Huang et al. CVPR2015]で使⽤されたベンチマーク ◦ 都市部の建造物のデータセット ◦ ⾼周波成分をよく含む 12
  • 14. DIV2K NTIRE2017のコンペ⽤データ ◦ testデータのGround Truthが未配布 ◦ 学習にだけ使う ◦ 加⼯された画像が多いイメージ(インスタ映えしそうな) 14
  • 16. SRCNN [C. Dong et al. ECCV2014] 初めてCNNを超解像に適⽤ ◦ 3層のCNNで超解像 ◦ 𝑓,,𝑓. = 9, 5 , 𝑛,, 𝑛3 = 64, 32 を採⽤ ◦ SGD+MSEで3⽇間学習 ◦ ⼊⼒画像は事前に出⼒サイズにリサイズ ◦ Pre-Upsampling SRという ◦ Sparse-CodingをCNNと⾒なしている ◦ 1層⽬: パッチ抽出とSparse表現 ◦ 2層⽬: 低解像度空間から⾼解像度空間への写像 ◦ 3層⽬: 再構成 16 従来手法との比較
  • 17. VDSR [J. Kim et al. CVPR2016] SRCNNの多層化 + 学習の⾼速化 ◦ 20層のCNN ◦ 「The Deeper,The Better」 ◦ Residual構造 + Gradient Clippingの導⼊ ◦ Residual構造により特徴マップの値域を⼩さくする ◦ 勾配をクリップして勾配爆発/消失を抑制 ◦ ⾼い学習率の設定が可能 ◦ 収束までの時間を4時間に短縮 ◦ マルチスケールな学習 ◦ 複数の倍率を混ぜて学習 17
  • 18. FSRCNN [C. Dong et al. ECCV2016] SRCNNを約40倍⾼速化 ◦ Deconvolutionの導⼊ ◦ LR画像に直接畳み込みを適⽤ ◦ 中間の特徴マップのサイズが⼩さい ◦ 層を増やしてもパラメータと処理時間は減少 ◦ 最後にDeconvolutionでUpsampling ◦ Post-Upsampling SRという(現在の主流) ◦ 倍率の⾃由度は下がる(⾮整数は厳しい) ◦ その他の⼯夫 ◦ 5x5convを3x3conv 2回に置き換え ◦ VGG的なアプローチ ◦ 活性化にPReLU 18
  • 19. ESPCN [W. Shi et al. CVPR2016] Subpixel Convolutionの導⼊ ◦ Deconvolutionの弱点 ◦ 位置によって関与する⼊⼒画素数が異なることでCheckerboard Artifactが出現 ◦ ゼロ埋めに対する演算が無駄,遅い ◦ Subpixel Convolution ◦ ⼊⼒マップを畳み込みで𝑟3 枚のマップに増やす(𝑟は倍率) ◦ ピクセルを再配置 ◦ 精度向上 + x10⾼速化 (vs SRCNN) 19 https://distill.pub/2016/deconv-checkerboard/
  • 20. SRGAN [C. Ledig et al. CVPR2017] GAN超解像の先駆け ◦ SRResNet ◦ SRGANのGenerator部分 ◦ ResBlockをスタックしていくシンプルな構造 ◦ global skip-connection ◦ SRGAN ◦ GANの枠組みで学習 ◦ Perceptual loss function ◦ 𝑙:; = 𝑙<== + 𝑙?@A ◦ 𝑙<==はpretrained VGGの中間特徴マップの距離 ◦ 評価指標ではSRResNet,MOS評価ではSRGAN ◦ GANを導⼊すると⾃然な画像が得られるが,PSNRは下がる ◦ 画素の距離を最適化するのは果たして正しいのか? 20
  • 21. SRGAN vs SRResNet 21 滑らかすぎる ⾃然だが似てない ⽬が離れすぎている
  • 22. Perception Distortion Tradeoff [Y. Blau et al. CVPR2018] Image Restorationにおけるメトリックと知覚品質の関係を定量評価 ◦ メトリックと知覚品質の間にトレードオフを発⾒ ◦ Adversarial Lossの係数をいじるとトレードオフを横断できる ◦ 最適な動作点は応⽤依存 22 両立しているモデルは存在しない
  • 23. EDSR [B. Lim et al. CVPRW2017] NTIRE2017 Winnerモデル ◦ SRResNetに類似した構造 ◦ Batch Normalizationを除去 ◦ BNを使うとぼやけたりartifactが出る ◦ 計算をシンプルにしたい ◦ 使わなくても⼗分収束する(ResNetのおかげ?) ◦ Self-ensemble ◦ test setでの精度を上げるテクニック ◦ rot90, flipした画像を超解像 ◦ 元の位置に戻して平均をとる 23 [Radu et al. CVPR2016]より引用
  • 24. LapSRN [W. Lai et al. CVPR2017] Progressiveな超解像 ◦ Feature Extraction Branch: 画像のエッジなどを強調するマップを出⼒(まるでラプラシアン) ◦ Image Reconstruction Branch: ぼやけた画像+強調マップ=超解像結果 24
  • 25. RDN [Y. Zhang et al. CVPR2018] ResNet + DenseNet ◦ Residual-In-Residual(RIR)な構造 ◦ ResidualにするためにDenseNetの出⼒に1x1convを⼊れてチャネル数を合わせる 25
  • 26. DBPN [Haris et al. CVPR2018] Up-Downを繰り返して効率的に特徴抽出 ◦ Iterative up-and-down sampling SR ◦ 7回のup-and-down ◦ Dense-DBPNはRDNと同じ感じ ◦ コンペで強かった ◦ NTIRE2018 Track 1 Winner ◦ 10回up-and-downしたDense-DBPNを使ってるっぽい ◦ PIRM2018 Challenge Region 2 Winner ◦ GANを導⼊ 26
  • 27. RCAN [Y. Zhang et al. ECCV2018] 超解像でもAttentionis All You Needなのか!? ◦ Channel Attention(CA)を導⼊ ◦ SENetの派⽣ ◦ 各チャネルに重み付けして効率的に特徴抽出 ◦ CAを含むブロック(RCAB)をスタック ◦ RIR構造をとる ◦ 出⼒結果がめちゃくちゃ綺麗! 27
  • 29. どこが強いのか The Chinese University of Hong Kong ◦ SRCNNの著者のChao Dongがいた研究機関 ◦ 今も⼀緒に⾊々やってる ◦ CUHK-SenseTime Joint Lab なるものが… ◦ ECCV2018のPIRMチャレンジでも優勝した模様 ◦ ゲームのテクスチャを超解像して話題になったやつ Twitter ◦ ESPCN & SRGANの発表 ETH Zurich ◦ Low-level vision全般に強い 29
  • 30. 成功例に素早く反応すべし 時系列を追っていると,発表された⼿法がすぐに組み込まれるのがわかる ◦ VDSR: ResNet ◦ EDSR: SRResNet ◦ RDN: DenseNet ◦ RCAN: SENet ◦ 網羅的サーベイ必要 組み込むだけではダメ ◦ 重要な部分を理解していらない部分は捨てる ◦ EDSRがいい例 ◦ 分野の歴史を知るべし ◦ 継続的な網羅的サーベイ必要 30
  • 31. 現場で使えるのか 半分イエス,半分ノー 超解像は試しやすいタスク ◦ 画像さえあれば縮⼩して学習するだけ Pretrainedモデルはそこまでうまくいかない ◦ SRGAN for Super-Resolving Low-Resolution Food Images [Nagano et al. 2018] ◦ クックパッドの論⽂ ◦ 単純に適⽤しただけではダメ ◦ 特定の料理画像に特化したSRGANの学習法を提案 ◦ 実際のユースケースを考える ◦ ここでは⾃然な復元が好ましいぽいためSRGANを選択 ◦ OCR精度を上げたいとかだと…? 31
  • 32. その他のメタ フレームワークはどれがいい? ◦ 今の所PyTorch優勢 ◦ Subpixel Convolutionがネイティヴ実装されてるのが⼤きい ◦ tfだと,conv -> depth2spaceってやらなきゃダメ ◦ NTIRE2018では (pytorch, tf, matconvnet)=(12, 8, 3) マシンリソース⾟くない? ◦ 学習はそんなに⾟くない ◦ batch_size=1,48x48とかが主流なため ◦ 推論がキツい ◦ 画像をパッチに切って後でつなぎ合わせては? -> 端が⾟い ◦ スライドさせて平均とってもいいかも.self-emsenbleが許されるくらい. ◦ Recursiveなアプローチを検討する 32
  • 33. ⽂献⼀覧 [1] Dong, Chao, et al. "Learning a deep convolutional network for image super-resolution." Europeanconference on computer vision. Springer, Cham, 2014. [2] Kim, Jiwon, Jung Kwon Lee, and Kyoung Mu Lee. "Accurate image super-resolution using very deep convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [3] Dong, Chao, Chen Change Loy, and XiaoouTang. "Accelerating the super-resolution convolutional neural network." European conference on computer vision. Springer, Cham, 2016. [4] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [5] Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. [6] Blau, Yochai, and Tomer Michaeli. "The perception-distortion tradeoff." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [7] Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017. [8] Lai, Wei-Sheng, et al. "Deep laplacian pyramid networks for fast and accurate super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. [9]Zhang, Yulun, et al. "Residual dense network for image super-resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [10] Haris, Muhammad, Gregory Shakhnarovich, and Norimichi Ukita. "Deep back-projection networks for super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. [11] Zhang, Yulun, et al. "Image super-resolution using very deep residual channel attention networks." Proceedings of the EuropeanConference on Computer Vision (ECCV). 2018. [12] Nagano, Yudai, and Yohei Kikuta. "SRGAN for super-resolving low-resolution food images." Proceedings of the Joint Workshop on Multimedia for Cooking and Eating Activities and Multimedia Assisted Dietary Management. ACM, 2018. [13] Timofte, Radu, Rasmus Rothe, and Luc VanGool. "Seven ways to improve example-based single image super resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. 33
  • 35. 付録 今回参考にしたもの サーベイ論⽂ ◦ 半年に⼀本くらいある ◦ Yang, Wenming, et al. "Deep learning for single image super-resolution: A brief review." arXiv preprint arXiv:1808.03344(2018). ◦ Yang, Wenming, et al. " Deep Learning for Image Super-Resolution: A Survey." arXiv preprint arXiv: 1902.06068(20189). 衝撃的にまとまっていた記事 ◦ ”トップ学会採択論⽂にみる、超解像ディープラーニング技術のまとめ” - https://qiita.com/jiny2001/items/e2175b52013bf655d617 ◦ お恥ずかしながら⾃分のアドベントカレンダーの次の枠に投稿されていた ◦ スライド作ってる途中に⾒つけて,俺なぞってるだけやんってなった 35