Deep Learning and Artificial Neural Networks achieve remarkable performance in various tasks, so this is the reason why they are preferred in most Artificial Intelligence applications. Although, it is observed that very small perturbations of the original input, can lead this specific category of algorithms to behave in unpredictable manner. This situation raises several scientific questions regarding the security and reliability of the analogous systems that Deep Neural Networks (DNNs) are deployed, and the phenomenon riches significant proportions of concerns if one considers the significance of these systems. Self-driving cars, Identification Systems and Voice recognition are just some examples of applications where security is vital. For that reason, the study of the possible methods of attacking these systems through Adversarial Attacks has increased and so the methods creating robust models against malicious initiatives. In this Master Thesis, the state-of-the-art attacking methods are being examined and the evaluation of adversarial robustness of DNNs with different level of complexity is taking place. Towards this direction, a new alternative method is proposed, in witch is possible to achieve robustness against a category of attacking methods that have not confronted yet.
3. Adversarial Examples (1/2)
• Πολύ μικρές τροποποιήσεις – παραλλαγές (perturbations) του input οδηγούν το μοντέλο
ταξινόμησης σε λάθος πρόβλεψη (missclassification) με υψηλη βεβαιότητα (high
confidence)
Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy, Explaining and Harnessing Adversarial Examples, 2015
• Δημιουργία προσεκτικά κατασκευασμένου θορύβου και προσθήκη στην αρχική εικόνα
ώστε να παραχθεί το adversarial example (Adversarial Attack)
Ιούλιος 2020 3
5. The space of Adversarial examples
F. Tramèr, N. Papernot, I. Goodfellow, Dan Boneh, P. McDaniel, The Space of Transferable Adversarial Examples, 2017
• Εφόσον οι ταξινομητές δεν χωρίζουν το υπερεπίπεδο βέλτιστα πάντα θα υπάρχει χώρος για
την δημιουργία adversarial examples
• Transferability of adversarial examples
Ιούλιος 2020 5
6. Security concerns
Metzen et al., Universal Adversarial Perturbations Against Semantic Image Segmentation, 2017
• Πολλές safety-critical εφαρμογές δεν θα μπορέσουν να διατεθούν σε ευρεία εφαρμογή
στην καθημερινότητα
self-driving cars, identification systems (face-recognition) , criminal justice, robotics
Ιούλιος 2020 6
7. Μέθοδοι αύξησης της ευρωστίας
Decision boundary των μοντέλων ακριβέστερο (πιο κοντά σε αυτό του task)
Preprocess Defences (image preprocessing methods)
- JPEG Compression (G. K. Dziugaite et al. 2016)
- Feature Squeezing / Spatial Smoothing (Xu et al. 2017)
- Label Smoothing (David Warde-Farley et al. 2016)
- Total Variance Minimization (Chuan Guo et al. 2018)
Adversarial Training
- Augment adversarial examples on the training process
- Adversarial Training με gradient-based attacks
- Adv. Training [PGD] (A. Madry et al. 2019) η πιο επιτυχημένη μέθοδος
Ιούλιος 2020 7
L
8. Μεθοδολογία (1/2)
Σετ Δεδομένων: MNIST, CIFAR-10
Μοντέλα Ταξηνόμησης : DNNs
Αρχιτεκτονική : Simple DNN, ResNet
Τεχνικές : Normalization, Dropout, Data Augmentation, learning rate decay
First Tune the parameters of the Attacks, then choose the most powerful in the whole range
of crafting methods (gradient-based ( & ) + decision-based ( ) )
Επιλογή ισχυρότερων επιθέσεων
• Οπτική διαφορά
• Attack Success Rate
• Classification Accuracy (Original vs Adversarial Data)
• Average Confidence Score (Original vs Adversarial Data)
• Norms
- , ,
Ιούλιος 2020 8
pL
2L0L L
2LL 2L
9. Μεθοδολογία (2/2)
Preprocess Defences
• Επιλογή βέλτιστων τιμών παραμέτρων μεθόδων άμυνας (Preprocess Defences)
• Εφαρμογή των μεθόδων άμυνας για τη «θωράκιση» των ταξινομητών
(μεμονωμένα και σε συνδυασμό)
• Εφαρμογή των επιθέσεων που επιλέχτηκαν στα θωρακισμένα μοντέλα
• Αξιολόγηση ευρωστίας
Adversarial Training
• Hybrid Method [PGD ( gradient-based attack) + HSJA ( decision-based attack)]
• Αξιολόγηση ευρωστίας
Ιούλιος 2020 9
L 2L
18. Συμπεράσματα
• Linearity Hypothesis
• Transferability Hypothesis
• Η αρχιτεκτονική των DNN δεν παίζει κομβικό ρόλο στην προσπάθεια αύξησης της
ευρωστίας τους έναντι Adversarial Examples
• Preprocess Defences – Δραστικότητα εξαρτάται από την πολυπλοκότητα των δεδομένων
Σύμφωνα με τα πειράματα και αποτελέσματα οι επιθέσεις που προκρίθηκαν ως πιο ισχυρές
ήταν οι ίδιες για όλους του συνδυασμούς σετ δεδομένων και αρχιτεκτονικών
Πιο συγκεκριμένα:
• Projected Gradient Descent (Linf – gradient-based) (A. Madry et al. 2019)
• Carlini&Wagner L2 (L2 – gradient-based) (N. Carlini et al. 2017)
• HopSkipJump (Decision-based) (Jianbo Chen et al. 2019)
Ιούλιος 2020 18
19. Συμπεράσματα
• Adversarial Training η πιο υποσχόμενη μέθοδος δημιουργίας εύρωστων ταξινομητών
• Εφαρμόστηκε συνδυαστική μέθοδος Adversarial Training [PGD + HSJA]
• Αυξήθηκε η ευρωστία των ταξινομητών έναντι decision-based επιθέσεων και διατηρήθηκε
η ευρωστία τους στις περισσότερες gradient-based attacks
• Παράλληλη αύξηση της ευρωστίας έναντι gradient-based επιθέσεων νόρμας
(DeepFool , CWL2)
Ιούλιος 2020 19
2L
20. Μελλοντική Εργασία
• Προσθήκη εναλλακτικών δεικτών ποιότητας adversarial examples εκτός των norms
Π.χ. στο (Uyeong Jang et al. 2017) γίνεται χρήση κλασικών αλγορίθμων υπολογιστικής όρασης
όπως edge detectors (Canny) και Histogram of Oriented Gradients (HOG)
Εξέλιξη του Adversarial Training σαν μέθοδο
• Η ευρωστία των ταξινομητών έναντι επιθέσεων συνοδεύεται συνήθως από την μείωση της
απόδοσης του ταξινομητή σε original δείγματα
• Χρήση διαφορετικών μεθόδων επίθεσης χωρίς να παρουσιάζεται ευαισθησία (sensitivity)
σε κάποια από αυτές
Το Adversarial Machine Learning να ενταχθεί στο product lifecycle κάθε project λογισμικού
(ειδικά αν γίνεται χρήση συστατικών Μηχανικής Μάθησης – ML components)
1. Σοβαρός κίνδυνος παραβίασης
2. Επιταχύνεται η έρευνα & ανάπτυξη γύρω από τη συγκεκριμένη θεματολογία
3. Ταχύτερη έκδοση safety-critical εφαρμογών όπως self-driving cars
Ιούλιος 2020 20
pL
Πιθανή εξήγηση για αυτό το φαινόμενο είναι το γεγονός ότι και η HSJA βασίζεται στην L2 νόρμα για την παραγωγή adversarial examples. Άρα, κάποια από τα σημεία στο χώρο των λύσεων όπου δημιουργούνται adversarial examples είναι κοινά για τις διαφορετικές μεθοδολογίες εφόσον χρησιμοποιούν την ίδια νόρμα απόστασης.