Panorama Cybersécurité 2020, Keynote du Forum Data Center, Cloud, Porte de Versailles, 23 & 24 septembre 2020.
Evolution de la menace cyber, tendances, usage de l'IA en attaque et en défense. Trois études emblématiques de Blackhat USA 2020.
1. « Intelligence Artificielle,
Machine Learning, biométrie,
les grandes tendances de la
cybersécurité »
Thierry BERTHIER
Pilote du groupe « Sécurité – Intelligence Artificielle »
du Hub France IA
2. PLAN
Partie I : L’état de la menace cyber en 2020 - 2021
Partie II : Détecter les menaces et les cyberattaques par l’IA
Partie III : Trois études Blackhat USA 2020
7. Trois grands effets conjugués pour un préjudice « stratosphérique »
•Perturbations des systèmes et de leurs fonctionnalités -
Notre dépendance excessive à une connectivité fragile créé un potentiel de vulnérabilités et de pannes Internet
provoquées capables de mettre le commerce à genoux. L’exploitation et le détournement de l'Internet des objets
amplifie ces perturbations.
•Distorsions de l’information et de la confiance -
La propagation intentionnelle de fausses informations, y compris par des robots et des sources automatisées, entraîne
une compromission de la confiance dans l'intégrité des informations.
La distorsion (d’un signal) provoque son altération. La désinformation automatisée gagne une crédibilité immédiate
La falsification des informations compromet les performances.
•Détériorations des capacités d’auto-contrôle des organisations -
L'évolution des réglementations en matière de sécurité nationale et de protection des données individuelles peuvent
avoir un impact négatif sur la capacité des organisations à contrôler leurs propres informations. Les lois de surveillance
peuvent révéler des secrets d'entreprise. La réglementation relative à la protection des données (privacy) complique la
surveillance des menaces internes.
Le coût « stratosphérique » induit par ces trois effets conjugués : En 2021, le coût global mondial annuel
des cyberattaques dépassera les 6000 Milliards de dollars (source Cybersecurity Ventures 2020).
8.
9. Une multitude de menaces évolutives
- Des cyberattaques de plus en plus sophistiquées impliquant des phases de phishing de plus en plus
complexes et efficaces, des malwares de plus en plus furtifs, offensifs, destructeurs.
- Une surface d’attaque qui augmente régulièrement pour le SI de l’entreprise : IoT, Cloud, mobilité,
télétravail, robotisation des processus et des infrastructures physiques, 5G, cryptomining, WiFi,
Radiofréquences, …
- De l’apprentissage automatique utilisé en attaque qui permet d’industrialiser certaines attaques
(exemple du Pawnagodchi, embarquant du RL Reinforcement Learning sur Rasberry Pi Zero pour
détecter les WiFi vulnérables et les hacker).
- Un niveau mondial, une pénurie croissante d’experts qualifiés en cybersécurité (avec connaissances à
jour face aux nouvelles attaques). En janvier 2020 : 2,93 Millions de postes ouverts non pourvus en
cybersécurité dans le monde (source ISC 2020) !
10. PWNAGODCHI - pwning WiFi things via RL (Reinforcement Learning) https://pwnagotchi.ai/
Raspberry Pi Zero W
11. Des attaques qui montent en puissance et en complexité
Le phishing de plus en plus sophistiqué
Les attaques de phishing, dans lesquelles des messages numériques soigneusement ciblés sont
transmis pour inciter les gens à cliquer sur un lien qui peut ensuite installer des logiciels malveillants ou
exposer des données sensibles, sont de plus en plus sophistiquées.
Les collaborateurs et employés de la plupart des organisations étant de plus en plus conscients des
dangers de l'hameçonnage par e-mail ou du clic sur des liens suspects, les attaquants sont forcés
d’augmenter le niveau de complexité de leurs opérations - par exemple, en utilisant l'apprentissage
automatique pour créer et distribuer beaucoup plus rapidement de faux messages convaincants dans
l'espoir que les destinataires compromettent involontairement les réseaux et les systèmes de leur
organisation.
Ces attaques permettent aux hackers de voler les identifiants des utilisateurs, les identifiants de carte
de crédit et d'autres types d'informations financières personnelles et d'accéder à des bases de
données privées.
12.
13. Le « facteur humain »,
maillon faible de ma
chaine de sécurité.
- Biais cognitifs,
- Baisse de la
concentration,
- Fatigue,
- Habitudes,
- Négligences
14. Des attaques qui montent en puissance et en complexité
Des stratégies adaptatives pour les attaques par Ransomware
Les stratégies des attaques par ransomware évoluent rapidement.
La montée en puissance des crypto-monnaies a contribué à alimenter les attaques de ransomwares en
permettant aux demandes de rançon d'être payées de manière anonyme.
Certains ransomwares commencent par cibler les sauvegardes avant de cibler le SI.
Un premier cas de ransomware létal vient d’être référencé en Allemagne avec le décès d’une patiente
hospitalisée au sein d’un établissement ciblé par le ransomware (11 septembre 2020).
22. Les expérimentations par Leurres (Honeypot) fournissent des métriques sur le
niveau de la menace Ransomware
23. D’autres grandes familles d’attaques en augmentation
Attaques DDoS : La puissance des DDoS augmentent constamment.
Cryptojacking : minage clandestin de cryptomonnaies
Attaques cyber-physiques : attaques sur des infrastructures critiques, sur les réseaux électriques, réseaux de
transport, usines de traitement des eaux, SCADA
Attaques cyber-physiques : attaques commanditées par des Etats. Elles sont souvent liées à la situation
géopolitique. Cyber-renseignement étatique. Cyber-mercenaires.
Attaques IoT : 75 Milliards d’objets connectés dans le monde en 2025. La plupart de ces objets ne dispose pas de
sécurité by design. Attaques sur dispositifs médicaux, attaques sur véhicules semi-autonomes et voitures connectées
Attaques par tiers : Un fournisseur, un sous-traitant ou partenaire subit une attaque qui se transmets à la
société principale.
Attaques ADFI : Leurrage par Architectures de Données Fictives Immersives (ADFI), Fraudes aux faux ordres de
virement, fraudes au Président et au faux fournisseur ou au faux support.
38. Détection
avancée grâce
à l’UEBA
Parce qu’une attaque est
aussi une course contre la
montre, il faut automatiser
les processus de détection
et de réponse via l’UEBA.
39. Détection avancée grâce à l’UEBA
Pourquoi utiliser des technologies de type UEBA ?
- Difficulté des antivirus « classiques » à détecter des menaces inconnues
- Des algorithmes uniques complètement adaptés au contexte de l’entreprise
- Une capacité de l’algorithme à traiter l’intégralité de la donnée générée par le
réseau
- Un support précieux pour les équipes d’analystes et de réponse à incidents
- Une capacité des algorithmes à évoluer avec le réseau
- Un reporting et une hiérarchisation des menaces permettant une meilleure
efficacité
40. Détection avancée grâce à l’UEBA
Une technologie en 3 pilliers privilégiée par Gartner
Issu du « market guide for User and Entity Behavior Analytics », 2018
41. Détection avancée grâce à l’UEBA
LES CONSTATS
1. Des volumes de données très importants
2. Des équipes SOC potentiellement
saturées
3. La difficulté d’entrainer des algorithmes
sur des attaques connues
4. La difficulté de suivre les comportements
de toutes les entités du réseau
LA SOLUTION PROPOSEE
1. Un framework permettant aux data scientists
et aux pentesteurs de travailler ensemble
2. Des méthodes permettant d’obtenir des
résultats visuels
3. Un espace dans lequel les anomalies peuvent
être visualisées
4. Simuler des attaques avec la red team
Un exemple sur des données firewall (présenté à la conférence C&ESAR 2019)
Voir l’article de recherche associé :
https://www.cesar-conference.org/wp-content/uploads/2019/11/20191120_J2_260_T-ANGLADE_Embbedding_based_framework_improving_UEBA.pdf
43. Détection avancée grâce à l’UEBA
Déterminer un système de coordonnées qui attribue un couple (x;y) à chaque IP du réseau par
heure d’activité en distinguant les IPs publiques et privées.
Les propriétés de l’espace de représentation :
1. Temporal smoothness : les positions des IPs changent graduellement dans le temps
2. Network embedding : Si un couple (IP1;IP2) interagit beaucoup dans le réseau, la distance entre
les embeddings de chaque IP est faible
3. Latent homophily : Les IPs proches dans l’espace de représentation interagissent plus que les
IPs éloignées
4. Latent relationship homophily : Si la nature de la relation entre (IP1;IP2) est proche de celle
entre (IP3;IP4), les embeddings des relations doivent être proches.
Théorie des
Graphes
(Modélisation)
Node2vec
(Embedding)
t-SNE
(Réduction de
dimension)
+ +
Détail de l’algorithme
44. Détection avancée grâce à l’UEBA
Tomas Mikolov. Et al (2013) : « Efficient Estimation of Word Representation in Vector Space »
- On part d’un texte. Pour chaque mot
(input word), on regarde les mots qui sont
dans le contexte de ce mot (target words)
- Chaque mot est représenté par un
vecteur
- Pour chaque mot, le réseau est calibré de
telle sorte que le produit entre le vecteur
de l’input word (ligne de W1) et le vecteur
du target word (colonne de W2) soit le plus
proche possible de la probabilité que
target word soit dans le contexte de input
word.
Principe de l’embedding
45. Détection avancée grâce à l’UEBA
Problématique : Comment transposer cette modélisation à des données de type graphe ? G(E,V,W) =>
𝑅 𝑛
Firewall data
IP1 -> IP2 : 10 bytes
IP2 -> IP3 : 30 bytes
IP3 -> IP1 : 20 bytes
Graph G(E,V,W)
Edges : IP1, IP2, IP3
Vertices : IP1IP2, IP2IP3, IP3IP1
Weights : (10,30,20)
Embeddings
IP1 (x1;x2)
IP2 (y1;y2)
IP3 (z1;z2)=> =>
word2vec
=>
Phrases
?
On fait des marches aléatoires dans le
graphe pour générer les phrases. Les
paramètres du modèle sont :
- Nombre de marches
- Longueur maximal des marches
- Probabilités de passer / revenir
d’un noeud N1 à un noud N2
Tuning « métier » des paramètres
en fonction des attaques et des
comportements que l’on cherche !!
46. Détection avancée grâce à l’UEBA
Réseau en temps normal Réseau au moment de l’exfiltration
Résultats obtenus :
2 types d’attaques sont simulées :
Network Discovery : découverte de réseau via scan de port
botnet C&C with data exfiltration : exfiltration de données par le DNS via. des hôtes (bots) compromis
48. Réponse à incidents
de sécurité
Outils
software,
hardware,
Machine
Learning, SIRP
Plan de
réponse aux
incidents, IR
Equipe
d’experts,
CSIRT, SIRT,
CIRT
La réponse à incidents : l’art de la planification, du nettoyage, de la réparation, de la
récupération
49. Les plateformes de réponse à incidents offrent les caractéristiques suivantes :
- Base de connaissances des réglementations, des plans d'intervention et des meilleures pratiques
- Intégration de données SIEM, détection d'anomalies
- Mise en corrélation les données du SIEM, les paramètres et d'autres sources
- Playbook (Livres de réponse préfabriquée) aux incidents déjà référencés, personnalisables et basés sur des normes
- Réponse automatisée aux alertes de sécurité
- Analyse de l'arbre de processus et du calendrier pour identifier les menaces
- Analyse du comportement des attaques, pour la détection en temps réel et cyber-criminalistique
- Verrouillage de l'accès et des références, analyse de l'accès au réseau
- Isolement des systèmes infectés, mise en quarantaine des fichiers malveillants
- Automatisation de la gestion des droits pour attribuer les tâches aux bonnes personnes
- Suivi et gestion des accords de niveau de service (SLA)
- Conservation des données forensic pour les rapports d’analyse post-incident
- Planification de la remédiation et automatisation des processus
- Préparation de la politique de signalement des atteintes à la vie privée (RGPD en Europe)
- Identification des sous-traitants compromis / impactés
- Publication d'un rapport de conformité
51. Automatisation de la réponse
Pourquoi automatiser la réponse à incidents ?
- Les analystes répètent des opérations identiques pour différents types
d’accidents. Identifier ces tâches et les automatiser permet de gagner en efficacité
- Eviter les erreurs humaines et garantir un niveau de qualité constant
- Réduire le temps de traitement des incidents en automatisant la recherche
d’informations complémentaires nécessaires au traitement des cases
52. Automatisation de la réponse
SIRP : Security Incident Response Platform
COLLECTER
- Alertes SIEM
- Scans de vulnérabilité
- Alertes UEBA
- Network Ids
- APIs cloud et IoT
ALERTER
- Regrouper
- Categoriser
- Prioriser
- Connecter les sources
INVESTIGUER
- Collaboration entre
équipes
- Assigner les tâches
- Collaboration
humaine / machine
learning
REPONDRE
- Création de tickets
- Bloquer les IP
- Quarantaine
- API d’analyses de
blacklists
- Alerter les personnes
concernées
53. Automatiser la réponse avec les SOAR
Les SOAR (pour Security Orchestration, Automation & Response) sont issus de la combinaison de trois outils du SOC :
les SIRP (Security Incident Response Plateform), les SOA (Security Orchestration & Automation, les solutions
d’industrialisation et d’automatisation) et une partie des fonctionnalités de plateformes de Threat Intelligence. Ces
solutions se rapprochent d’outils de ticketing (ITSM) classiques mais embarquent des fonctionnalités spécifiques aux
problématiques de cybersécurité. Les SOAR offrent principalement trois capacités, chacune liée à l’un des trois types
d’outils à leur origine.
Premièrement, comme les SIRP, ils permettent la définition de processus de réaction adaptés à chaque évènement de
sécurité. Ceux-ci sont basés sur des playbooks prédéfinis par l’éditeur, publiés par la communauté de la solution,
ou créés manuellement pour une meilleure adaptation aux besoins de l’entreprise. Cette tâche impose notamment aux
équipes de réaction d’établir un processus clairement défini, les aidant ainsi à se poser les bonnes questions lors de la
création de procédures de réaction, et à capitaliser et stocker ces connaissances.
Le gain des SOAR repose sur l’automatisation des différentes étapes suivant la détection. Lors de la phase d’analyse,
l’outil va automatiquement enrichir l’évènement de sécurité en allant récupérer des informations de contexte sur le
SI (identité dans l’AD, criticité d’une ressource…), et en interrogeant des services de Threat Intelligence externes (via des
API) ou proposés avec la solution. Outre l’automatisation de l’enrichissement et des étapes d’analyse, les SOAR facilitent
aussi le travail des analystes -investigation de postes, interrogation de VirusTotal… en un clic- lorsque leur intervention
est nécessaire. L’automatisation de la réaction (via la connexion aux équipements de sécurité, héritage du SOA) peut
représenter un gain important pour les équipes de sécurité : blocage d’URL, génération de signature de fichier et
propagation aux antivirus, blacklisting d’IP…
59. Métriques et hiérarchisation du risque
Modélisation :
Composantes du système d’information C1, C2, …. , Cn
Fonctionnalités critiques à maintenir ou à rétablir au plus tôt : F1, F2, …. , Fk
Risques de pertes des fonctionnalités Fi sous attaque A : R1, R2, …. , Rk
Probabilités de perte des fonctionnalités Fi sous attaque A : P[ non(F1) / A ] , .... , P[ non(Fk) / A ]
Hauteur d’impact en cas de perte des fonctionnalité Fi : HI[non(F1)], …. , HI[non(Fk)]
Priorisation et classement des tâches de remédiation en fonction du risque et de l’impact de l’attaque :
Séquence S = { T1, …. , Ti, … }
Coût, temporalité et durée de la séquence de remédiation S avant remise en production du système
d’information en fonction des Ri, P[ non(Fi) / A ], HI
Optimisation, minimisation de la durée D(S)
61. Une selection de trois études Blackhat 2020
https://www.blackhat.com/us-20/briefings/schedule/
62. Une sélection de trois études présentées à
Blackhat 2020 :
1 – Security by Design : le diable est dans la
dépendance du code aux librairies open
source
2 – L’extraction de modèles sur les
plateformes cloud de Machine Learning as a
Service (MLaaS)
3 – Les réseaux antagonistes génératifs
créant des médias synthétiques pour des
cyberopérations. (ADFI)
63. 1 -
“Sécurité by
design”
Le diable est
dans la
dépendance Sources de données :
La plus grande étude quantitative connue
sur la sécurité des applications. 12 mois
d’étude. Plus de 85.000 applications et
351.000 librairies explorées.
64. Les bibliothèques open source contiennent des failles qui peuvent rendre vulnérables des applications qui les utilisent. En fait, 71% de
toutes les applications contiennent des bibliothèques open source défectueuses, dont 70,7% proviennent de dépendances en aval qui
pourraient échapper à l'attention des développeurs.
Les auteurs de l’étude ont analysé (outils de data sciences) plus de 85 000 applications faisant appel à plus de 500 000 bibliothèques
open source. L'utilisation de l'open source induit des dépendances : les applications typiques ont des centaines ou des milliers de
bibliothèques, la plupart provenant d'une cascade de dépendances transitives. Des POC d’attaque existent dans 21,7% des
bibliothèques présentant des failles. Même les plus petites bibliothèques sont concernées. Incluses dans 89% des applications, les
bibliothèques JavaScript, contiennent elles aussi des failles exploitables.
Il existe une relation complexe entre les bibliothèques et les failles de sécurité. Plus de bibliothèques ne signifie pas nécessairement
plus de problèmes. Certaines applications parviennent à utiliser des milliers de bibliothèques tout en héritant de peu ou pas de failles.
Une analyse de l'exploitabilité dans l'ensemble de données montre clairement que les attaquants se concentrent principalement sur
deux types de failles: la désérialisation non sécurisée et l’interruption du contrôle d'accès
L’étude montre que plus de 81% des failles peuvent être corrigées avec des correctifs mineurs ou des mises à jour de révision, mais
les bibliothèques mises à jour peuvent elles-mêmes être défectueuses ou perturber les dépendances. Pour autant, les développeurs
peuvent prioriser l'atténuation des risques en se concentrant sur les 1% de failles dont on sait qu'elles existent sur le chemin de
l'exécutable d'une application et qui ont été exploitées.
https://www.blackhat.com/us-20/briefings/schedule/#the-devils-in-the-dependency-data-driven-software-
composition-analysis-20208
65.
66.
67. 2 - Extraction
de modèles
sur les
plateformes
cloud de
Machine
Learning as a
Service
68. Les réseaux de neurones profonds (DNN) ont été largement déployés dans de nombreuses disciplines, par
exemple, le traitement d'image, le traitement du langage naturel et la reconnaissance vocale. La création
d'un modèle DNN performant dépend de la disponibilité d’importantes quantités de données et d’une
grande puissance de calcul. L’entrainement du modèle est en général un processus long. Ces difficultés sont
souvent des obstacles importants pour ceux qui souhaitent utiliser un DNN. Une solution possible passe par
le Cloud.
Pour répondre aux demandes des utilisateurs qui ne disposent pas de ressources suffisantes, les services
d'apprentissage en profondeur basés sur le cloud sont apparus comme une solution rentable et flexible
permettant aux utilisateurs d'effectuer efficacement leurs tâches d'apprentissage automatique (ML).
Les fournisseurs de plateformes d'apprentissage automatique « as a service » (MLaaS) peuvent consacrer
beaucoup d'efforts à la collecte de données et aux modèles de formation, et souhaitent donc les garder
propriétaires.
Les modèles DNN des plates-formes MLaaS ne peuvent être utilisés que comme interface API Web et sont
donc isolés des utilisateurs.
L’équipe de recherche a développé un nouveau type d'attaque qui permet à l'adversaire d'extraire
facilement les modèles DNN à grande échelle de diverses plates-formes MLaaS basées sur le cloud,
hébergées par Microsoft, Face ++, IBM, Google et Clarifai.
97. Veille Sécurité – IA
https://iasecurite.wordpress.com/
Veille extraite de la veille cyber :
https://veillecyberland.wordpress.com/
Hub France IA :
http://www.hub-franceia.fr/
Thierry Berthier
http://cyberland.centerblog.net/
https://www.linkedin.com/in/thierry-
berthier-6143bb6a/