【CVPR 2019】Defense Against Adversarial Images using Web-Scale Nearest-Neighbor Search1. Defense Against Adversarial Images using
Web-Scale Nearest-Neighbor Search
Abhimanyu Dubey, Laurens van der Maaten, Zeki Yalniz, Yixuan Li
( MIT, Facebook AI )
資料作成: 谷村 朋樹
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
2. 概要
• 仮説
• Adversarial Examples (AEs)は画像に対して画像集合が成す多様体か
ら遠ざけるような摂動を加えたものである
• AEsを画像多様体に再射影できれば,強固な防御手法を構築可能
• 提案手法
• 大量の画像集合を画像多様体として扱い,入力画像と類似する画像
をkNNで求め,類似画像の予測結果をもとに分類する
• 画像集合の作り方を工夫することでロバストな画像分類システムを
構築できることを示した
!2
12. 実験
• Black-box setting
• Defence: ResNet50 Attack: ResNet18
• Gray-box setting*
• Defence側とAttack側で同様のアーキテクチャの分類器を使用
• White-box setting
• Attack側がDefence方法の全てを知っている前提
!12
13. 実験
• Black-box setting
• Defence: ResNet50 Attack: ResNet18
• Gray-box setting*
• Defence側とAttack側で同様のアーキテクチャの分類器を使用
• White-box setting
• Attack側がDefence方法の全てを知っている前提
!13
14. Black- and Gray-box setting
• Accuracy
• Gray: 46.2% Black: 58.7%
• Weighting strategy
• CBW-D(iversity)の精度が最も高い
• Image database
• IG-N-*がImageNetよりも優れている
!14
* K=50個の類似画像をResNet50を用いて分類
19. 実験
• Black-box setting
• Defence: ResNet50 Attack: ResNet18
• Gray-box setting*
• Defence側とAttack側で同様のアーキテクチャの分類器を使用
• White-box setting
• Attack側がDefence方法の全てを知っている前提
!19
20. 攻撃手法 for White-box setting
提案手法に対する攻撃手法の提案
• Nearest-Neighbor Prediction Attack (PGD-PR)
• 分類器に対して,摂動を計算し,誤分類させる
•
• Nearest-Neighbor Feature Space Attack (PGD-FS)
• Feature extractorに対して摂動を計算し,類似画像を誤検索させる
•
!20