Intelligence Artificielle et cybersécurité

Intelligence Artificielle :
Quels usages et quels apports en
matière de cybersécurité ?
Cycle Sécurité numérique – INHESJ
Thierry Berthier - 13 juin 2016
Chaire de Cyberdéfense & Cybersécurité Saint-Cyr
1

Plan
1 - L’intelligence Artificielle
Définitions (tentatives)
Historique de l’IA
Fondements de l’IA
2 - Apprentissage & réseaux de neurones artificiels
Principes et construction d’un RNA
Apprentissage supervisé et non supervisé
Capacités, cas d’usage, grands exemples
3 - L’IA comme moteur de la cybersécurité
Les chiffres de la cybersécurité en 2015
Les apports de l’IA en cybersécurité
L’UBA - User Behavior Analytics , une tendance lourde
Quelques solutions du marché
Perspectives & prospective
2

1 - L’intelligence artificielle
3

Ce que déclarait Alan Turing en 1950…
“ Instead of trying to produce a program to simulate the adult mind, why
not rather try to produce one which simulates the child‘s? If this were
then subjected to an appropriate course of education one would obtain
the adult brain.
Presumably, the child brain is something like a notebook […]. Rather
little mechanism, and lots of blank sheets. […]. Our hope is that there is
so little mechanism in the child brain that something like it can be easily
programmed. The amount of work in the education we can assume, as
a first approximation, to be much the same as for the human child.
Computing machinery and intelligence
(Alan Turing, 1950, Mind, philosophy journal).”
4

Des tentatives pour définir l’IA …
L’expression IA apparaît en 1956 durant la conférence de Dartmouth
dans une première définition (qui s’avère très insuffisante
aujourd’hui) :
Définition de Marvin Minsky (1927 – 2016)
« L’intelligence artificielle est la science qui consiste à faire faire à
des machines ce que l’homme fait moyennant une certaine
intelligence ».
Critique : Cette définition présente une forte récursivité… La
« complexité » mentale est-elle comparable à la complexité
informatique ?
La définition de Minsky exclut des domaines majeurs de l’IA : la
perception (vision et parole), la robotique, la compréhension du
langage naturel, le sens commun.
5

L’IA est-t-elle le contraire de la « bêtise naturelle » ??
Une définition plus opérationnelle :
« L’IA est le domaine de l’informatique qui étudie comment faire
faire à l’ordinateur des tâches pour lesquelles l’homme est
aujourd’hui encore le meilleur. »
(Elaine Rich & Knight – Artificial Intelligence)
Les grandes dichotomies de l’IA subsistent :
- IA forte vs IA faible,
- Niveau de compétence vs niveau de performance,
- Algorithmique vs non algorithmique,
- Vision analytique vs vision émergente de la résolution de
problèmes,
- Sciences du naturel vs sciences de l’Artificiel. 6

IA forte : une machine produisant un comportement intelligent ,
capable d’avoir conscience d’elle-même en éprouvant des
« sentiments » et une compréhension de ses propres
raisonnements.
IA faible : Machine simulant ces comportements sans conscience
d’elle-même. Impossibilité liée au support « biologique » de la
conscience.
La question centrale : une « conscience » peut-elle émerger de
manipulations purement syntaxiques ?
C’est l’expérience de la Chambre chinoise imaginée par John Searle
en 1981. C’est aussi l’hypothèse (forte) de la pensée singulariste /
transhumaniste.
7

Compétence vs performance :
On doit tenir compte de la distinction introduite par Noam
Chomsky (MIT) : faire « comme » ou faire « aussi bien que ».
L’oiseau et l ’avion volent mais pas de la même façon…
Jeux d ’échecs : les grands champions réfléchissent différemment
de Deep Blue.
Jeu de Go : AlphaGo n’a pas la même approche que celle du
champion du monde .
Vision analytique vs vision émergente de la résolution de
problèmes :
D’un côté on procède par décomposition de problèmes en sous-
problèmes plus simples à résoudre (analyse procédurale, système
experts basés sur la logique des prédicats) et de l’autre, on réalise
une distribution des tâches à un ensemble d ’agents qui
interagissent (exemple : Ant Algorithm).
9

L’histoire de l’IA est très récente… (60 ans)
Acte de naissance : 1956, Darmouth College (New Hampshire,USA)
John McCarthy (tenant de la logique) et Marvin Minsky (tenant
d’une approche par schémas).
Genèse autour de la notion de « machines à penser »
Comparaison du cerveau avec les premiers ordinateurs
Les grands acteurs de l’IA
Mc Culloch et Pitts : réseaux neuronaux artificiels (approche
physiologique),
Wiener : cybernétique,
Shannon : théorie de l’information,
Von Neumann : architecture d’un calculateur,
Alan Turing : théorisation des fonctions calculables par machine,
Kurt Gödel : théorème d’incomplétude (1931). 10

La machine de Turing universelle
(1936)
11

Les premiers programmes et systèmes de l’IA
Newell, Simon et Shaw proposent un premier programme de
démonstration de théorèmes en logique (1956!). Ils généralisent en
proposant le General Problem Solver qui progresse dans la
résolution en évaluant la différence entre la situation du solveur et
le but à atteindre.
Les programmes capables de jouer aux échecs : les premières idées
apparaissent en 1950 avec Shannon. La première victoire sur un
Maître en 1997 Deep Blue bat Kasparov.
Jeu de Go: AlphaGo remporte 4 victoires sur 5 au jeu de Go en 2016
Le test « d’intelligence » (Evans 1963) : trouver la suite « logique »
(analogique en fait) d’une série de figures.
Résolution de problèmes par propagation de contraintes ( Waltz
1975 ).
Dialogue en « langage naturel » : Eliza, Weizenbaum en 1965
Système SHRDLU Winograd en 1971. 12

L’époque des systèmes experts (1970-1980)
Les systèmes experts apparaissent au début des années 1970 et se
développent jusqu’à la fin des années 1980 :
DENDRAL en chimie, MYCIN en médecine, Hersay II en
compréhension de la parole, Prospector en géologie.
Apparaissent également les premiers générateurs de systèmes
Experts : NEXPERT System, CLIPS, …
Les langages de programmation pour l’IA
LISP (usa), PROLOG (France - Colmerauer),
SmallTalk (langage objet), YAFOOL et KL-ONE (langages de Frame),
langages de logique de description.
13

Période 70-80 : Systèmes Experts
• Chainage avant (Rules) ou arrière (Prolog)
• Dendral (1965), Mycin (1974); Prospector(1983)
Base de connaissance (BC)
mémoire à long terme
Base de faits (BF)
mémoire de travail
Moteur d’inférence
(MI)
14

Dès 1970, apparaît le concept de Réseaux
sémantiques
15

Les années 1980 :
La période des espoirs déçus de l’IA
Recul de l’approche symbolique de l’IA :
Après des espoirs déçus : en particulier avec l’échec de la
généralisation de la théorie des micromondes et le constat du
manque de souplesse des systèmes experts (on parlerait aujourd’hui
de manque d’agilité). Ils ont pourtant enregistré des succès dans des
domaines bien spécifiques en particulier en informatique de gestion.
Renaissance de l’approche connexionniste :
- Systèmes multi-agents, concept de « vie artificielle »,
- Hopfield, mémoire autoassociative, 1982
- Rumelhart & McClelland, Parallel Distributed Processes, MIT Press,
1985
- Réseaux de neurones artficiel (RNA)
16

Les défis actuels de l’IA
- Attente d’une IA généraliste (?), autonome (?), auto-apprenante
- Elle doit devenir performante et adaptative sur des situations
dynamiques, changeantes, singulières.
- Elle doit être capable d’assister l’apprentissage humain.
- Elle doit être en mesure de gérer des dialogues entre « agents »
très hétérogènes.
Pour cela, il faut traiter la cognition comme une émergence dans
l’interaction avec l’environnement.
Ceci implique la conception d’une nouvelle génération de systèmes
informatiques qui vont privilégier une cognition située, distribuée,
émergente (prolifération d’agents intelligents et auto-apprentissage).
17

L’agent intelligent comme concept
fondamental de l’IA
- Le terme « action » est à comprendre au sens large. Cela peut
signifier « fournir un diagnostic ».
- La boucle systémique Agent/Environnement n’est pas
nécessairement fermée.
?
senseurs
"actionneurs "
AGENT
perception
ENVIRONNEMENT
"action"
Source – Mines ParisTech
18

Définition de l’apprentissage artificiel :
« Capacité d’un système à améliorer ses performances
via des interactions avec son environnement » .
Spécificité de l’apprentissage :
Conception et adaptation de l’agent « intelligent » par
analyse automatisée (statistique) de son environnement
et de son action dans cet environnement.
Exemple typique d’apprentissage artificiel :
L’agent « prédicteur »
20

Historique
Données
externes
PrédictionAGENT
PREDICTEUR
Modèle de l’agent prédicteur
Performance espérée : minimiser l’erreur de prédiction
Méthode : utiliser des données expérimentales pour déterminer
le modèle le plus correct du type :
Prédiction = F ( historique, données externes )
21

Définir précisément le type d’apprentissage
recherché
En particulier , il faut choisir le modèle de fonctions
mathématiques sous-jacent : splines, arbre de décision, réseau
de neurones, arbre d’expression, machine à noyau…
Il faut définir le type d’interactions avec l’environnement :
- apprentissage « hors-ligne » v.s. « en-ligne »
- apprentissage « supervisé » ou non, « par renforcement »
Il faut définir la mesure de performance du système : fonction
de coût, objectif, critère implicite, …
Et la façon de l’améliorer : famille d’algorithmes utilisés
gradient, résolution exacte, problème quadratique, heuristique.
22

2 - Apprentissage & Réseaux
de Neurones Artificiels (RNA)
23

Un système d’apprentissage est en général
composé :
- d’un modèle paramétrique,
- d’une façon d’interagir avec l’environnement,
- d’une « fonction de coût » à minimiser,
- d’un algorithme destiné à adapter le modèle, en
utilisant les données issues de l’environnement, avec
l’objectif d’optimiser la fonction de coût
24

Apprentissage supervisé
Exemples entrée-sortie
(x1,y1), (x2,y2), … , (xn, yn)
H famille de
modèles mathématiques
Paramètres pour
l’algorithme d’apprentissage
ALGORITHME
D’APPRENTISSAGE hH
25

APPRENTISSAGE SUPERVISÉ :
régression et classification
Régression Classification
(approximation) (yi = « étiquettes »)
?AGENT
Entrée = perception
Sortie adéquate (attendue)
entrée
sortie
points = exemples  courbe = régression
entrée =
position point
sortie désirée =
classe ( =-1,+=+1)

Fonction
étiquette=f(x)
(et frontière de
séparation)
26

APPRENTISSAGE NON SUPERVISÉ
Deux situations sont possibles :
Ou bien on ne dispose que d’exemples de type « entrée », et on cherche à
obtenir un agent dont la « sortie » vérifie une certaine propriété (par exemple,
sortie obtenue identique ou « proche » pour des entrées « voisines »).
Ou bien on ne dispose que d’un environnement (réel ou simulé) dans lequel on
peut placer l’agent pour « évaluer » son comportement de façon à l’améliorer.
?AGENT
Entrée = perception
Sortie voulue INCONNUE
ENVIRONNEMENT
27

Apprentissage NON supervisé
à partir de données
Base d’exemples
de type « entrée seule» :
X= {x1, x2, … , xn}
(xid, souvent avec d « grand »)
H famille de
modèles mathématiques
[ chaque hH  agent
avec comportement y=h(x) ]
Hyper-paramètres pour
l’algorithme d’apprentissage
ALGORITHME
D’APPRENTISSAGE
hH telle que
critère J(h,X)
soit vérifié ou
optimisé
28

axone
corps cellulaire
dendrite
synapse
Réseaux de neurones artificiels (RNA)
Le modèle du neurone biologique
29

Utilisation des RNA
En classification et catégorisation :
Pour répartir en plusieurs classes des objets,
Pour transformer des données quantitatives en informations qualitatives,
Pour la reconnaissance de formes, d’images, de sons, de textes.
En Recherche Opérationnelle :
Pour résoudre des problèmes dont on ne connaît pas la solution,
En apprentissage profond.
En Mémoire Associative :
Pour restituer ou reconstituer une donnée à partir d’informations
incomplètes et/ou bruitées.
31

Bref historique des RNA
James [1890] :
L’introduction du concept de mémoire associative
McCulloch & Pitts [1943]
A logical calculus of the ideas immanent in nervous activities
Introduction du concept de neurone formel
 Les ordinateurs à codage binaire (Von Neumann)
 L ’intelligence artificielle (calcul symbolique)
 Les réseaux de neurones
Hebb [1949]
Organisation of behavior
le conditionnement comme propriété des neurones artificiels.
Les premières lois d’apprentissage.
32

Rosenblatt [1957] :
Présentation du perceptron comme premier modèle opérationnel
Capacité de reconnaissance d ’une configuration apprise
Utilisation pour traiter la tolérance aux bruits
Widrow [1960] :
Réseau Adaline, adaptive linear element
Minsky & Papert [1969] :
Une limite : impossibilité de classer des configurations non
linéairement séparables.
Abandon (financier) des recherches sur les RNA durant presque
une décennie…
33

[1967 - 1982] :
Mise en sommeil des recherches sur les RNA. Elles continuent
sous le couvert de domaines divers. Grossberg, Kohonen,
Anderson, ...
Hopfield [1982] :
Introduction du modèle des verres de spins
Boltzmann [1983] :
première réponse à la limite de Minsky et Papert
[1985] :
la rétro-propagation du gradient et le perceptron multicouche
Rumelhart, McClelland, … [1985] :
le groupe Parallel Distributed Processing
34

Le modèle mathématique d'un
neurone artificiel
Entrées du
neurone
Poids du
neurone
35

Le modèle mathématique d'un neurone artificiel
Un neurone est constitué d'un intégrateur qui effectue la somme
pondérée de ses entrées. Le résultat de cette somme est ensuite
transformée par une fonction de transfert f qui produit la sortie a du
neurone.
Les R entrées du neurone correspondent au vecteur P noté
traditionnellement en ligne. On utilise aussi la transposée.
W représente le vecteur des poids du neurone.
La sortie n de l'intégrateur est alors définie par une égalité écrite
sous forme matricielle. b désigne le « biais du neurone », c’est-à-
dire un facteur correctif décidé par tâtonnement. La sortie du
neurone est donnée par a = f(WtP-b)
36

Sortie n de l’intégrateur :
Sous forme matricielle :
b = biais du neurone
Sortie a du neurone :
Principe de
fonctionnement du
neurone
37

Représentation formelle du neurone
38

Les plus courantes
Les plus utilisées
fonction seuil
(ou "hard limit")
fonction sigmoïdefonction linéaire
Fonctions de transfert usuelles
39

Fonctions de transfert usuelles
Le modèle de RNA utilise une fonction d'activation
a = f(n) qui peut être définie de plusieurs manières
(souvent empiriques) en fonction des situations.
Les plus usuelles sont la fonction "seuil" ou "hard limit" en
anglais, la fonction "linéaire", et la fonction "sigmoïde".
40

Construction du réseau de neurones
41

Un réseau de neurones est un maillage constitué de plusieurs
neurones organisés généralement par couches.
wi,j désigne le poids de la connexion qui relie le neurone i à son
entrée j.
L'ensemble est représenté par une matrice des poids de connexion
W de dimension SxR et les S neurones sont représentés par un
vecteur de neurones.
42

Un réseau de neurones est constitué de plusieurs couches de
neurones qui sont connectées entre elles (Perceptron Multi-
Couches).
Les réseaux multicouches sont beaucoup plus puissants que les
réseaux simples à une seule couche. Les réseaux de neurones
exploitent en général deux ou trois couches mais parfois plus
(DeepFace de Facebook RN à 9 couches).
En utilisant deux couches et en employant une fonction
d'activation sigmoïde sur la couche cachée, il est possible d'
"entraîner" un réseau à produire une approximation de la plupart
des fonctions, avec une précision arbitraire.
43

Le perceptron multi-couches
45

La phase d'apprentissage d'un réseau de neurones se
décompose en cinq étapes :
Etape 1 - Présenter au réseau un couple entrée-cible.
Etape 2 - Calculer les prévisions du réseau pour les cibles.
Etape 3 - Utiliser la fonction d'erreur pour calculer la différence entre les prévisions
(sorties) du réseau et les valeurs cible. Reprendre les étapes 1 et 2 jusqu'à ce que
tous les couples entrée-cible aient été présentés au réseau.
Etape 4 - Utiliser l'algorithme d'apprentissage afin d'ajuster les poids du réseau de
telle sorte qu'il produise de meilleures prévisions à chaque couple entrée-cible.
Remarque : les étapes 1 à 5 constituent un seul cycle d'apprentissage ou itération.
Le nombre de cycles nécessaire pour entraîner un modèle de réseaux de neurones
n'est pas connu a priori mais peut être défini dans le cadre du processus
d'apprentissage.
Etape 5 - Répéter à nouveau les étapes 1 à 5 pendant un certain nombre de cycles
d'apprentissage ou d'itérations jusqu'à ce que le réseau commence à produire des
résultats suffisamment fiables (c'est-à-dire des sorties qui se trouvent assez
proches des cibles compte tenu des valeurs d'entrée). Un processus
d'apprentissage type pour les réseaux de neurones est constitué de plusieurs
centaines de cycles.
46

Les réseaux de neurones sont performants dans les
taches suivantes :
Traitement du signal,
Maîtrise des processus,
Robotique,
Classification,
Pré-traitement des données
Reconnaissance de formes,
Analyse de l'image et synthèse vocale,
Diagnostics et suivi médical,
Marché boursier et prévisions,
Demande de crédits ou de prêts immobiliers.
47

Deep Learning et Réseaux de Neurones
On enregistre les premiers succès du Deep Learning (apprentissage
profond) en 2006. Les réseaux de neurones accompagnent les
avancées du Deep Learning .
Ces réseaux sont multicouches. Ils effectuent une série de
traitements hiérarchisés dans le but de classer des objets en
catégories, sans critères prédéfinis. Il s'agit d'un apprentissage non
supervisé.
Google, Facebook, IBM les utilisent partout aujourd’hui…
Donnons quelques exemples :
48

DeepFace de Facebook
Facebook a développé DeepFace, une
application de reconnaissance de visages qui
atteint des taux de réussite de plus de 97 %.
DeepFace utilise un réseau de neurones à 9
couches.
49

AlphaGo – DeepMind Google
51

AlphaGo – DeepMind Google
52

Dans les rêves des couches profondes des réseaux de
neurones de Google…
55

Dans les rêves des couches profondes des réseaux de
neurones de Google…
56

TensorFlow, la bibliothèque « Machine Learning » de Google
https://www.tensorflow.org/
57

Les dérives de TAY, l’IA de Microsoft qui apprenait trop bien …
60

Les dérives de TAY, l’IA de Microsoft qui apprenait trop bien …
61

3 - L’IA comme moteur de la
cybersécurité
62

Quelques chiffres concernant 2015 …
63

Les chiffres de la cybersécurité en 2015
Etude Pwc – The Global State of Information Security Survey 2016
Au niveau mondial :
- Une augmentation de 38 % du nombre de cyberattaques.
- Une augmentation de 24 % des budgets sécurité des
entreprises (correction par rapport à la tendance en baisse constatée en
2014)
- En France, le nombre de cyberattaques a progressé de 51 % au
cours des 12 derniers mois et les budgets de sécurité des
entreprises françaises ont progressé en moyenne de 29 % alors
que les pertes estimées liées aux cyberattaques ont augmenté de
28 % en une année.
64

Pourcentage d’augmentation du nombre d’incident de
cybersécurité en 2015 en France et dans le monde
Source d’incident de cybersécurité en 2015 en France et dans le monde
65

Au niveau mondial comme en France, la source des menaces reste
majoritairement interne aux entreprises. En effet, les employés actuels
constituent, cette année encore, la principale source des compromissions de
données. Cependant les sources qui ont progressé le plus en 2015 sont, elles,
externes aux entreprises. L’étude révèle que la responsabilité des fournisseurs et
des prestataires de service actuels est de plus en plus importante ; elle a
augmenté d’environ 32% pour les fournisseurs et de 30% pour les prestataires de
services. Cela est dû au fait que les entreprises travaillent de plus en plus en
collaboration avec des partenaires externes, ce qui participe à l’expansion de la
surface d’attaque.
Augmentation du budget moyen « cybersécurité » des entreprises en 2015
66

Le budget moyen de cybersécurité des entreprises françaises interrogées s’est
établi à 4,8 millions d’euros par entreprise en 2015, soit un budget en hausse
de 29% par rapport à l’année dernière – un chiffre quelque peu supérieur à la
moyenne mondiale de 24%. Les répondants ont affirmé que l’implication de
plus en plus poussée du comité exécutif a permis d’améliorer leurs pratiques
de cybersécurité. Ces investissements budgétaires répondent à une menace
réelle pesant sur les résultats des entreprises. En effet, les pertes financières
liées à des incidents de cybersécurité sont estimées en moyenne à 3,7 millions
d’euros par entreprise en France, soit une augmentation de 28% par rapport à
2014. Alors que les cyber-risques deviennent des préoccupations clés des
comités exécutifs, les dirigeants repensent leurs pratiques en matière de
cybersécurité et se concentrent sur un mix de technologies innovantes qui
peuvent réduire les risques, tout en améliorant la performance commerciale
de l’entreprise. Ces technologies permettent de construire des dispositifs de
protection intégrés et holistiques contre les cyberattaques. 91% des
organisations interrogées ont mis en place des frameworks pour la sécurité,
ou, plus souvent, une fusion de différents frameworks.
67

http://www.pwc.fr/cybersecurite-le-nombre-de-cyber-attaques-recensees-a-progresse-
de-38-dans-le-monde-en-2015.html
68

http://www.pwc.fr/cybersecurite-le-nombre-de-cyber-attaques-recensees-a-progresse-
de-38-dans-le-monde-en-2015.html
69

- 75 % des entreprises ont été victimes
d’attaques au cours des deux dernières années.
- 8 sur 10 n’avaient pas conscience d’avoir été
compromises.
- 99 % ne possèdent que les outils basiques de
protection : firewall, antivirus, sauvegardes.
71

Pour détecter les menaces, les mécanismes de sécurité
« traditionnel » se basent aujourd’hui sur des signatures
ou sur des scénarios de malveillance pré-établis, donc
rigides et peu ou pas adaptés aux menaces en évolution
permanente.
Les solutions de cybersécurité classiques sont créées
autour de règles utilisées pour détecter les vulnérabilités
et les activités suspectes. Elles sont en général insensibles
aux APT.
Ces systèmes ont atteint leurs limites fonctionnelles !
L’IA permet de dépasser ces limites.
72

Security Information and Event Management
73

UBA : User Behavior Analytics
74

Fonctionnement d’une solution UBA
Une solution utilisant l’UBA apprend, sans pré-requis de modèle, à
partir de « l’historique de vie » d’un système puis catégorise et
sépare les comportements « anormaux » de ceux qui sont
conformes aux standards de sécurité.
L’UBA est ainsi en mesure de produire des alertes sur des
événements susceptibles de créer un contexte de vulnérabilité.
Le fonctionnement de l’UBA repose sur l’apprentissage statistique.
Celui-ci exploite les données massives qui demeuraient jusqu’à
présent sous-employées ou seulement partiellement utilisées
comme les bases de logs des systèmes connectés.
78

Les outils UBA exploitent massivement les rapports d’activité, les
fichiers de logs et le SIEM (Security Information Management
System) en tant que base d’apprentissage.
Ils définissent des motifs typiques correspondant statistiquement à
des comportements à risque.
Les solutions UBA contiennent souvent plusieurs moteurs de
détection d’anomalies, complémentaires, qui collaborent pour
couvrir un large spectre de menaces. On y trouve en général un
moteur de détection de signal faible, un moteur de corrélation
métier issu de l’expertise d’ingénieurs en cybersécurité complétés
par une base de connaissance globale régulièrement mise à jour à
partir des retours d’expériences-clients.
79

Ces moteurs travaillent sur une base (big data) souvent
externalisée qui contient les données d’entrées utilisées ensuite
lors de la phase d’apprentissage.
Ces données proviennent de sources diverses : SIEM et logs via les
connecteurs SIEM, des messages AMQP (Advanced Message
Queuing Protocol) et des requêtes JSON (JavaScript Object
Notation).
Après analyse, le système UBA renvoie les alertes, les seuils et les
sources d’anomalies par logs, Syslogs, AMQP et XML/JSON. Les
règles métiers peuvent être implémentées et suivies dans le
corrélateur métier (cf; Technologie Reveelium développée par
ITrust).
80

Ce que détecte une solution UBA
L’IHM des moteurs UBA permet d’afficher les corrélations, de suivre
les déviances et d’instaurer un dialogue entre l’utilisateur et son
système de détection. Les anomalies affichées peuvent être des
virus connus, des malwares furtifs, des comportements à risque, de
la fraude, une fuite de données, une malveillance numérique…
Les solutions UBA offrent un spectre de détection beaucoup plus
large qu’un système de supervision classique ou qu’un antivirus.
Elles permettent ,entre autres, l’analyse forensique et l’investigation
après une compromission. Elles identifient l’attaque et son
cheminement.
Elles sont en mesure de détecter une utilisation frauduleuse du
système d’information et notamment l’usurpation de droits.
81

Elles réagissent à la perte et au vol de données et se montrent
efficaces face à des attaques de type APT.
Elles peuvent prédire certains crashs entraînant une indisponibilité
de la production et sont utiles pour respecter la conformité aux
réglementations et aux meilleures pratiques.
Elles détectent les pertes et fraudes financières ainsi que les
attaques sur l’image de marque. L’apprentissage statistique permet
souvent de diviser par 50 les temps d’analyse des données par les
superviseurs !
Pour finir, on notera que lorsque la solution UBA est développée en
Europe, sa technologie n’est pas soumise au Patriot Act et les
données des clients restent confidentielles, conformément aux
réglementations européennes.
82

Ce que l’UBA (2016) aurait pu éviter …
Une solution UBA aurait été en mesure de détecter les
agissements de Snowden avant qu’il ne réalise ses vols de
données.
Cette solution UBA aurait également été capable de
détecter la propagation des virus et APT récents (Target,
Sony,…) avant les extractions de données confidentielles
des entreprises concernées.
83

Quelques exemples de solutions
proposant l’approche User Behavior
Analytics (UBA)
SPLUNK – solution UBA
ITRUST - solution Reveelium
DARKTRACE
SENTRYO – solution ICS Cybervision
THALES – Sonde Cybels Sensor
CISCO TALOS
84

Splunk – solution UBA
Société américaine (San Francisco) développe une solution appelée
UBA (User Behavior Analytics) qui se veut « clé en main ». Elle
permet de détecter des menaces connues, inconnues et
dissimulées via l’apprentissage automatisé.
Avant l’UBA, les solutions travaillaient sur la base de règles et de
codification de tous les scénarios qui pouvaient aboutir à une
anormalité. Les limites sont atteintes : impossible de tout codifier
et un taux extrêmement élevé de faux positifs d’autre part. L’UBA
fournit aujourd’hui une approche complémentaire qui permet de
détecter les comportements déviants.
Splunk vient de racheter la start-up Caspida spécialisée dans les
technologies de machine learning.
85

Darktrace
Start-up britannique fondée en 2013, valorisée à 100 millions de
dollars, utilise des technologies d’UBA issues de recherches menées
à l’Université de Cambridge. Les solutions Darktrace construisent
un modèle comportemental à partir du flux généré par les
machines et les usages des employés. Ce modèle apprend tout au
long de la durée de vie du projet. Il fonctionne comme un système
immunitaire biologique qui devient performant pour détecter les
APT.
La solution Darktrace utilise environ 300 paramètres (heures, IP de
connexion des utilisateurs,…) pour établir un modèle
comportemental dont la première phase d’apprentissage dure
environ une semaine. Le réseau est visualisable en 3D, en temps
réel. Des solutions existent pour la bureautique et pour les
systèmes industriels.
98

Sentryo ICS Cybervision (startup française)
La start-up lyonnaise Sentryo développe la solution ICS CyberVision
dédiée à la sécurisation « UBA » des sites industriels critiques
SCADA. Sentryo rapproche IT et OT. Ses solutions permettent de
dépasser le périmètre classique d’un système, avec une approche
plus globale de sa cybersécurité.
https://www.sentryo.net/fr/
104

Solution Sentryo surveillant un réseau industriel SCADA
105

Thales –
Sonde de détection Cybels Sensor
Le groupe Thales développe sa sonde de détection
d’intrusion Cybels Sensor qui intègre l’UBA pour détecter
les évènements anormaux en complément des signatures
d’attaques classiques.
https://www.thalesgroup.com/sites/default/files/asset/document/cybels_white_p
aper_uk_08042013.pdf
106

Cisco – Talos
Talos, division sécurité de Cisco développe une solution dédiée aux
sites industriels qui embarque des technologies d’UBA.
108

Perspectives & Prospectives
109

Les programmes DARPA en cybersécurité & UBA
http://www.darpa.mil/program/space-time-analysis-for-cybersecurity
http://www.darpa.mil/program/cyber-grand-challenge
Open Catalog : http://opencatalog.darpa.mil/ADAMS.html
110

Formons des Data scientist !
La montée en puissance de l’IA dans les solutions
de cybersécurité fait appel à de nouvelles
expertises croisant les compétences :
Mathématiciens , statisticiens, scientifiques des
données…
La pénurie de data scientist sur le marché de
l’emploi en Europe est aujourd’hui une réalité …
114

Bibliographie - Intelligence Artificielle
Harry Henderson, Artificial Intelligence, Mirrors for the Mind, 2007, Milestones
in Discovery and invention.
Fundamentals of the New Artificial Intelligence , Neural, Evolutionary, Fuzzy and
More, Toshinori Munakata, Second Edition, 2008, Springer.
Max Lungarella, Fumiya Iida, Josh Bongard, Rolf Pfeiffer, 50 Years of Artificial
Intelligence.
Da Duan, Paolo F Fantoni, Martine De Cock, Mike Nachtegael Etienne E Kerre,
Applied Artificial Intelligence, 2006.
Keith Frankish, William M. Ramsey, The Cambridge Handbook of Artificial
Intelligence.
Hsinchun Chen, Christopher CN Yang, Intelligence and Security Informatics,
Studies in Computational Intelligence.
116

Bibliographie - Réseaux de neurones artificiels
Xingui He, Shaohua Xu, Process Neural Networks : Theory and Applications,
2010.
Haykin S, Neural Networks, 2ed, 1999.
Robert A. Dunne, A statistical approach to neural networks for pattern
recognition, 2007.
Dreyfus G. , Neural Networks : Methodology and Applications, Springer,
2005.
Picton P. , Neural Networks, 2002.
Fyfe C. , Artificial Neural Networks and Information Theory, 2000.
Bishop, C. (1995). Neural Networks for Pattern Recognition. Oxford:
University Press.
Carling, A. (1992). Introducing Neural Networks. Wilmslow, UK: Sigma
Press.
117

Bibliographie - Réseaux de neurones artificiels
Fausett, L. (1994). Fundamentals of Neural Networks. New York: Prentice
Hall.
Haykin, S. (1994). Neural Networks: A Comprehensive Foundation. New
York: Macmillan Publishing.
Kohonen, T. (1982). Self-organized formation of topologically correct
feature maps. Biological Cybernetics, 43:59-69.
Patterson, D. (1996). Artificial Neural Networks. Singapore: Prentice Hall.
Ripley, B.D. (1996). Pattern Recognition and Neural Networks. Cambridge
University Press.
Rumelhart, D.E., and J.L. McClelland (1986), Parallel Distributed Processing,
Volume 1. The MIT Press. Foundations.
Tryon, R. C. (1939). Cluster analysis. New York: McGraw-Hill.
118

Bibliographie - Machine Learning & Cybersecurity
Yihong Gong, Wei Xu, Machine Learning for Multimedia Content Analysis
(Multimedia Systems and Applications), 2007.
John D. Kelleher , Brian Mac Namee , Aoiff D’Arcy , Fundamentals of Machine
Learning for Predictive Data Analytics : Algorithms, Worked Examples, and Cases
Studies.
Sumeet Dua, Xian Du, Data Mining and Machine Learning in Cybersecurity, 2011.
Drew Conway, John Miles White, Machine Learning for Email : Spam filtering and
Priority Inbox , 2011.
Drew Conway, John Miles White, Machine Learning for Hackers, 2012.
Dehmer Matthias, Subhash C. Basak, Statistical and Machine Learning
Approaches for Network Analysis, Wiley, 2012.
119

http://cyberland.centerblog.net/
http://echoradar.eu/
http://www.chaire-cyber.fr/
120

Intelligence Artificielle et cybersécurité

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Intelligence Artificielle et cybersécurité

Semelhante a Intelligence Artificielle et cybersécurité (20)

Mais de OPcyberland

Mais de OPcyberland (20)

Último

Último (16)

Intelligence Artificielle et cybersécurité