SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
CVPR 2015 読み会
!
A. Mahendran and A. Vedaldi
Understanding Deep Image Representations by Inverting Them
加藤大晴
http://hiroharu-kato.com/
自己紹介
• 加藤 大晴 (かとう ひろはる)
• 2014/04- ソニー株式会社(音響信号処理)
• 2014/03 修士(情報理工学)東京大学 原田研究室
• http://hiroharu-kato.com/
• @hiroharu_kato など
• 本発表は所属組織とは一切関係ありません
• 以降, 論文に記載のない内容については を付けます
論文の概要
• A. Mahendran and A. Vedaldi. Understanding
Deep Image Representations by Inverting Them.
• CNN の出力を画像へと逆変換する手法を提案
• ついでに SIFT と HOG も逆変換
• いろいろ画像を再構成して観察
• 手法: 誤差逆伝播で重みではなく入力画像を最適化
• モチベ: CNN が何を捉えているか理解したい
元画像 再構成1
再構成2 再構成3
読んだ動機
• 加藤の修士論文:

Image Reconstruction from Bag-of-Visual-Words (CVPR 14)
• BoVW を画像へと再変換
• ついでに識別器の分析や画像の生成
• 修論の反省
• Bag-of-Visual-Words は相当時代遅れ
• そもそも画像再構成の役立て方がよくわからない
なぜ画像再構成?
• 画像特徴の性質について, 我々は実はよく知らない
• とりあえず実験的に良い性能が出ればOK
• 特にニューラルネットワークでは顕著
• 画像特徴って実のところ何を捉えているんだろう?
• 画像特徴から画像を再構成してみれば

画像特徴に残されている情報が感覚的にわかるのでは?
既存の画像再構成の例
• HOG 特徴の視点からは誤識別しても仕方ない





• Bag-of-Visual-Words にも局所既述子の位置情報は

(潜在的に)残されている
[Vondrick+ 13]
[Kato+ 14]
提案手法 (1)
• 一般的な画像識別器の学習
• 画像 x とその教師ラベル y を与え,

最適なネットワークのパラメータ w を求める
• これは誤差逆伝播法で効率的に解ける
• 本論文での画像の再構成
• 教師ラベル y と ネットワークのパラメータ w を与え,

最適な画像 x を求める
• これも誤差逆伝播法で効率的に解ける!
Lは Cross Entropy 誤差
Lは2乗誤差
提案手法 (2)
• 提案手法の工夫
• 画像がギザギザ化を防止する正則化項を追加
• SIFT, HOG
• ニューラルネットワーク的な形で微分可能なように再定義(詳細は省略)
• 同様の手法で画像再構成が可能
Deep Dream との関係
• Deep Dream
• ネットワークがよく

反応するような画像に変形









• 最適化問題
• 識別器の学習

• 画像の再構成

• Deep Dream

Lは Cross Entropy 誤差
Lは2乗誤差
-
実験 (1)
• HOG, SIFT の逆変換
実験 (2)
• CNN の各階層の逆変換
• 深いほど曖昧さが増すが, 深い層にもかなりの画像情報が残されている
実験 (3)
• CNN の不変性
• 同じ特徴から複数の画像を再構成
• いろいろな位置やサイズで現れる -> それらに対する不変性がある
実験 (4)
• Receptive Field と再構成
• Receptive Field の端の方は画像が再構成されない
実験 (5)
• 違うチャネルからの再構成
• 色に反応するチャネルと, エッジに反応するチャネルとがある
実験 (6)
• 正則化項の影響
• 画像のギザギザを減らす正則化項の

効果はかなり大きい
• 

HOG
CNN
まとめ
• この論文は
1. CNN, SIFT, HOG を逆変換する手法を提案した
• 勾配降下法による最適化
• 正則化項を入れてギザギザ化を防ぐのが
2. CNN の各レイヤーで表されている情報を明らかにした
• 深いほど不変性と抽象性が高まる
疑問
1. 画像再構成で表現できないものもあるよね?
2. 画像再構成で画像識別の性能上がるの?
3. 実は画像再構成手法の性質を見てるだけでは?
疑問
1. 画像再構成で表現できないものもあるよね?
• 名詞以外はビジュアルで表現しにくくないか?
• 抽象的すぎるものを捉えていたら?
• たとえば「美」や「真実」に反応するニューロンだったら?
Simple Truth 

https://www.flickr.com/photos/bamboobarnes/16445364238/
Abstract Beauty 

https://www.flickr.com/photos/crazyshin/153621375/
疑問
2. 画像再構成で画像識別の性能上がるの?
• 本論文は確かに興味深かった, が, これをどう活かせばいいのか?
• 特徴量設計の方法まで述べないとあまり意味がないのでは?
• そこまで述べたのは [Zeiler+ 14] のみ
[Zeiler+ 14]
疑問
3. 実は画像再構成手法の性質を見てるだけでは?
• 右の画像から SIFT の性質がわかるか?
• 本論文の場合でも
• 最適化がうまくいっていないのでは?
• 正則化項の影響は?
[Weinzaepfel+ 11]
まとめ (2)
• この論文は
1. CNN, SIFT, HOG を逆変換する手法を提案した
• けれど実用に耐えうる性能なのかはよくわからない
2. CNN の各レイヤーで表されている情報を明らかにした
• けれどその知見をどう活かせばいいのかよくわからない
• 画像特徴可視化に期待すること
1. 提案手法で画像特徴を再設計して性能向上, まで示してほしい
2. ビジュアル化できないけれど捉えている情報, も示してほしい
参考文献
• [Mahendran+ 15] A. Mahendran and A. Vedaldi. Understanding Deep Image
Representations by Inverting Them . CVPR. 2015.
• [Kato+ 14] H. Kato and T. Harada. Image Reconstruction from Bag-of-Visual-Words .
CVPR. 2014.
• [Vondrick+ 13] C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles:
Visualizing Object Detection Features . ICCV. 2013.
• [Zeiler+ 14] M. Zeiler and R. Fergus. Visualizing and Understanding Convolutional
Networks . ECCV. 2014.
• [Weinzaepfel+ 11] P. Weinzaepfel, H. Jégou and P. Pérez. Reconstructing an Image
from Its Local Descriptors . CVPR. 2011.

Mais conteúdo relacionado

Mais procurados

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Mais procurados (20)

実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
【論文紹介】U-GAT-IT
【論文紹介】U-GAT-IT【論文紹介】U-GAT-IT
【論文紹介】U-GAT-IT
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 

Semelhante a CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"

Semelhante a CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them" (12)

CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 

Último

Último (12)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"

  • 1. CVPR 2015 読み会 ! A. Mahendran and A. Vedaldi Understanding Deep Image Representations by Inverting Them 加藤大晴 http://hiroharu-kato.com/
  • 2. 自己紹介 • 加藤 大晴 (かとう ひろはる) • 2014/04- ソニー株式会社(音響信号処理) • 2014/03 修士(情報理工学)東京大学 原田研究室 • http://hiroharu-kato.com/ • @hiroharu_kato など • 本発表は所属組織とは一切関係ありません • 以降, 論文に記載のない内容については を付けます
  • 3. 論文の概要 • A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them. • CNN の出力を画像へと逆変換する手法を提案 • ついでに SIFT と HOG も逆変換 • いろいろ画像を再構成して観察 • 手法: 誤差逆伝播で重みではなく入力画像を最適化 • モチベ: CNN が何を捉えているか理解したい 元画像 再構成1 再構成2 再構成3
  • 4. 読んだ動機 • 加藤の修士論文:
 Image Reconstruction from Bag-of-Visual-Words (CVPR 14) • BoVW を画像へと再変換 • ついでに識別器の分析や画像の生成 • 修論の反省 • Bag-of-Visual-Words は相当時代遅れ • そもそも画像再構成の役立て方がよくわからない
  • 5. なぜ画像再構成? • 画像特徴の性質について, 我々は実はよく知らない • とりあえず実験的に良い性能が出ればOK • 特にニューラルネットワークでは顕著 • 画像特徴って実のところ何を捉えているんだろう? • 画像特徴から画像を再構成してみれば
 画像特徴に残されている情報が感覚的にわかるのでは?
  • 6. 既存の画像再構成の例 • HOG 特徴の視点からは誤識別しても仕方ない
 
 
 • Bag-of-Visual-Words にも局所既述子の位置情報は
 (潜在的に)残されている [Vondrick+ 13] [Kato+ 14]
  • 7. 提案手法 (1) • 一般的な画像識別器の学習 • 画像 x とその教師ラベル y を与え,
 最適なネットワークのパラメータ w を求める • これは誤差逆伝播法で効率的に解ける • 本論文での画像の再構成 • 教師ラベル y と ネットワークのパラメータ w を与え,
 最適な画像 x を求める • これも誤差逆伝播法で効率的に解ける! Lは Cross Entropy 誤差 Lは2乗誤差
  • 8. 提案手法 (2) • 提案手法の工夫 • 画像がギザギザ化を防止する正則化項を追加 • SIFT, HOG • ニューラルネットワーク的な形で微分可能なように再定義(詳細は省略) • 同様の手法で画像再構成が可能
  • 9. Deep Dream との関係 • Deep Dream • ネットワークがよく
 反応するような画像に変形
 
 
 
 
 • 最適化問題 • 識別器の学習
 • 画像の再構成
 • Deep Dream
 Lは Cross Entropy 誤差 Lは2乗誤差 -
  • 10. 実験 (1) • HOG, SIFT の逆変換
  • 11. 実験 (2) • CNN の各階層の逆変換 • 深いほど曖昧さが増すが, 深い層にもかなりの画像情報が残されている
  • 12. 実験 (3) • CNN の不変性 • 同じ特徴から複数の画像を再構成 • いろいろな位置やサイズで現れる -> それらに対する不変性がある
  • 13. 実験 (4) • Receptive Field と再構成 • Receptive Field の端の方は画像が再構成されない
  • 14. 実験 (5) • 違うチャネルからの再構成 • 色に反応するチャネルと, エッジに反応するチャネルとがある
  • 15. 実験 (6) • 正則化項の影響 • 画像のギザギザを減らす正則化項の
 効果はかなり大きい • 
 HOG CNN
  • 16. まとめ • この論文は 1. CNN, SIFT, HOG を逆変換する手法を提案した • 勾配降下法による最適化 • 正則化項を入れてギザギザ化を防ぐのが 2. CNN の各レイヤーで表されている情報を明らかにした • 深いほど不変性と抽象性が高まる
  • 18. 疑問 1. 画像再構成で表現できないものもあるよね? • 名詞以外はビジュアルで表現しにくくないか? • 抽象的すぎるものを捉えていたら? • たとえば「美」や「真実」に反応するニューロンだったら? Simple Truth 
 https://www.flickr.com/photos/bamboobarnes/16445364238/ Abstract Beauty 
 https://www.flickr.com/photos/crazyshin/153621375/
  • 19. 疑問 2. 画像再構成で画像識別の性能上がるの? • 本論文は確かに興味深かった, が, これをどう活かせばいいのか? • 特徴量設計の方法まで述べないとあまり意味がないのでは? • そこまで述べたのは [Zeiler+ 14] のみ [Zeiler+ 14]
  • 20. 疑問 3. 実は画像再構成手法の性質を見てるだけでは? • 右の画像から SIFT の性質がわかるか? • 本論文の場合でも • 最適化がうまくいっていないのでは? • 正則化項の影響は? [Weinzaepfel+ 11]
  • 21. まとめ (2) • この論文は 1. CNN, SIFT, HOG を逆変換する手法を提案した • けれど実用に耐えうる性能なのかはよくわからない 2. CNN の各レイヤーで表されている情報を明らかにした • けれどその知見をどう活かせばいいのかよくわからない • 画像特徴可視化に期待すること 1. 提案手法で画像特徴を再設計して性能向上, まで示してほしい 2. ビジュアル化できないけれど捉えている情報, も示してほしい
  • 22. 参考文献 • [Mahendran+ 15] A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them . CVPR. 2015. • [Kato+ 14] H. Kato and T. Harada. Image Reconstruction from Bag-of-Visual-Words . CVPR. 2014. • [Vondrick+ 13] C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles: Visualizing Object Detection Features . ICCV. 2013. • [Zeiler+ 14] M. Zeiler and R. Fergus. Visualizing and Understanding Convolutional Networks . ECCV. 2014. • [Weinzaepfel+ 11] P. Weinzaepfel, H. Jégou and P. Pérez. Reconstructing an Image from Its Local Descriptors . CVPR. 2011.