Présentation synthétique des techniques antispam. Bref rappel sur le fonctionnement des emails. Avantages / Inconvénient de chaque technologie.
Pour une version plus détaillée: http://www.altospam.com/fr/panorama-des-technologies-antispam.php
3. Définitions
Un spam est un email ne respectant pas la Loi
pour la Confiance dans l'Economie Numérique
(LEN) du 22 juin 2004, complétée par les
précisions d'interprétation définies par la CNIL
lors de la séance du 17 février 2005
Scam, Phishing, Bounces
3
4. Définitions
Faux-négatifs : spams interprétés comme étant
des courriers électroniques légitimes (spams
passant l’antispam).
Faux-positifs : messages licites interprétés
comme des spams.
Taux inversement proportionnés
Limiter au maximum le faux-positif (plus nuisible)
et gérer si possible les cas de faux-positifs.
4
8. Protocole SMTP
Protocole « ouvert »,
Mode connecté (par acquittement),
Port TCP 25,
SMTP (Simple Mail Transfert Protocol)
→ RFC 821 (1982) puis 2821,
ESMTP (Extended SMTP)
→ RFC 1651(1994) compatibilité ascendante,
Chaque serveur traversé ajoute une entête
« Received » (Traçabilité).
8
9. Informations utiles
IP émettrice
OS serveur émetteur
Route empruntée par le mail (IPs)
Configuration du serveur émetteur
Protocole SMTP
Adresse email et domaine de l’expéditeur
En-tête du mail
Corps du mail
Pièces jointes
9
10. Reverse DNS
mail.altospam.com → 192.168.0.1
192.168.0.1 → mail.altospam.com
HELO mail.altospam.com
Certains Reverses sont mal configurés
Des opérateurs ne permettent pas la
personnalisation des Reverse-DNS
10
11. Validation de l’émetteur
Différence MAIL FROM: / From:
Vérification de l’existence de l’émetteur: no-reply
Vérification du domaine
• Whois
• MX
• Serveurs MX réels (avec une IP, à l’écoute)
11
Certains serveurs sont mal configurés
Le MAIL FROM: peut être différent du From:
12. Protocole SMTP
Présence et syntaxe du HELO/EHLO
Fully qualified domain name (FQDN)
Respect de la RFC 2821
Synchronisation et respect des acquittements
Les éditeurs ne respectent pas la RFC à 100%
Les serveurs ne sont pas toujours FQDN
12
13. Analyse heuristique
Utilisation d’expressions régulières : /C1al1s/
En-tête, corps, URL, contenu de pièces jointes...
Emailing: Respecter la RFC 2369 (champs
spécifiques)
Certains mots clef sont très mal appréciés mais
peuvent quant même apparaitre dans des emails
légitimes : CASINO / Géant Casino
13
14. Listes noires / listes blanches
RBL / DNSBL / LHSBL : IP
RHSBL / URIBL : domaines
Spamtrap, Définition des ip-whois, Dénonciation
d’Internaute, Relais SMTP, Antispam, Utilisateurs
inconnus, Serveurs générant des Bounces, Pays
90% des sociétés françaises se sont retrouvées
blacklistées un jour
14
15. Filtres Bayesiens
Distribution statistique de mots clé : spam / ham
Utilisé pour les logiciels sur postes utilisateurs
Apprentissage / Adaptabilité aux utilisateurs
Les Bounces ne peuvent pas être traités ainsi
Génère un taux non négligeable de faux-positifs
Biaisé par les contenus aléatoires
15
16. Bases collaboratives
Signature / Hash
Processus automatique par consultation
Deux mails peuvent générer un hash identique
Spams avec des contenus différents (aléatoire)
génèrent un hash différent
16
17. Authentification des emails
SPF / Caller-ID / Sender-ID
domaine.tld IN TXT "v=spf1 ip4:192.168.0.1/32 ~all"
DomainKeys / DKIM
DomainKey-Signature: a=rsa-sha1; q=dns; c=nofw
Permet simplement d’éviter l’usurpation de son
domaine par un tiers
Des spammeurs utilisent ces techniques pour
faciliter la délivrabilité de leurs spams
17
18. Greylisting
Refus temporaire 4xx
Triplet (IP émettrice, email émetteur, destinataire)
Réémission → Whiteliste
Génère de la latence dans la réception des emails
Ne bloque que env. 85% des spams (certains
spammeurs réémettent)
18
19. Teergrubing
Maintien de session du serveur expéditeur (ajout
de délais de réponse)
Technologie proactive contre les spammeurs
A n’utiliser que sur les spams certains
Sature également le serveur antispam
19
20. Analyse d’image / PDF
Caractéristiques (nombre d’images, dimensions,
tailles, format de fichier, colorimétrie,...)
OCR
Recherche: Découpage en zone / Datamining
(recherche d’images proches) → HSC
OCR peut facilement être trompé par le bruit
Les caractéristiques des images spam / ham
peuvent être très proches
20
21. Test de Turing
Authentification de l’expéditeur
Reconnaissance de l’utilisateur via un CAPTACH
Grand nombre de faux-positifs
Deux systèmes équivalents : ping-pong
Très simple à contourner pour un spammeur
Ne bloque pas les SCAM
Déport du problème sur l’expéditeur
Génère beaucoup de mails (augmente le flux)
21
22. OS Fingerprint
Détection du système d’exploitation du serveur
émetteur
Analyse du nom de sauts réseau
Ne peut être utilisé seul pour identifier un spam:
• Un serveur Linux, n’est pas forcément un bon serveur
• Un poste Windows XP n’est pas toujours un spammeur
22
23. Compression
Taille de la plus forte compression d’un email
Recherche des k-plus proches voisins
Extraction d’un vecteur représentant le mail
Recherche sur une base SVM (Support Vector
Machine) des k-plus proches voisins vectoriels
Recherches : Gilles Richard – IRIT Toulouse
Ne peut être le seul élément de détection
23
24. Conclusion
Technologies utilisées séparément
→ résultats non satisfaisants
Possèdent toutes des avantages et des
inconvénients propres
La combinaison judicieuse de plusieurs
(maximum) technologies
→ qualité filtrage performant
http://www.altospam.com/fr/Panorama-des-technologies-antispam.pdf
24