SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Florent Masseglia – INRIA Sophia Antipolis-Méditerranée
                               Equipe-Projet AXIS




                     Fouille de données

                        Principes généraux du data mining
                        Sécurité
                        Fouille de flots
                        Réseaux de capteurs


http://www.inria.fr/sophia/teams/axis
Juin 2008                               DGA                            1
L’équipe-projet AxIS
• Analyse et Amélioration des Systèmes
  d’Information Dirigées par l’Usage
• Bi-localisée Sophia – Rocquencourt
• Objectifs 2008-2012 :
      – Analyse d’un SI et ECD
      – Aides pour analyser les réseaux sociaux et améliorer la
        recherche d’information
      – Elaboration d’une plateforme d’expérimentation FOCUS




Juin 2008                      DGA                            2
L’équipe-projet AxIS
• Analyse d’un SI et ECD :
      –     Fouille dans les flots de données (ANR Midas, ARC Sésur)
      –     Fouille de données d’un SI (usage, contenu et structure)
      –     Semantic Web Mining …
      –     Gestion des connaissances en IS mining (domaine de
            l’analyste)




Juin 2008                            DGA                               3
L’équipe-projet AxIS
• Aides pour analyser les réseaux sociaux et
  améliorer la recherche d’information :
      –     ANR Eiffel
      –     Projet Quaero - France-Allemagne
      –     ANR Intermed
      –     Démarrage d’une thèse en septembre




Juin 2008                           DGA          4
L’équipe-projet AxIS
• Elaboration d’une plateforme d’expérimentation FOCUS
      – Classes d’applications :
            • Démocratie participative, Développement durable (ANR Intermed)
            • Transport et tourisme (Color INRIA CusCov, ANR Eiffel)
      – Support : une des plateformes du CPER (PACA), dans le cadre
        du «Living Lab ICT» (ENoLL) de Sophia Antipolis, soumission
        FP7 infrastructures de recherche




Juin 2008                               DGA                                    5
Types d’extraction de connaissance

• Classification
     créé une fonction qui classifie une donnée élémentaire parmi plusieurs
        classes prédéfinies existantes


• Régression
     créé une fonction qui donne une donnée élémentaire à une variable de
        prévision avec des données réelles


• Segmentation (clustering, classement)
     rechercher à identifier un ensemble fini de catégories ou groupe en vues
        de décrire les données




Juin 2008                             DGA                                       6
Types d’extraction de connaissance (2)

• Résumé
     affiner une description compacte d’un sous-ensemble de données


• Modelage des dépendances
     trouver un modèle qui décrit des dépendances significatives entre les
        variables


• Détection de changement et déviation
     découvrir les changements les plus significatifs dans les données




Juin 2008                             DGA                                    7
Types d’extraction de connaissance (2)

• Extraction de fréquents :

     – Itemsets fréquents (et règles d’association)
            • comportements de clients d’un supermarché


     – Motifs séquentiels fréquents
            • comportements d’utilisateurs d’un site Web
            • comportements de touristes (véhicule + GPS)




Juin 2008                            DGA                    8
Extraction d’itemsets fréquents




Juin 2008                  DGA                9
Extraction de règles d’association

• 20 % des clients qui achètent du beurre et du
  pain achètent aussi du lait.
• 15 % des clients qui achètent de la bière et des
  gâteaux achètent aussi des couches.
• 64 % des étudiants qui suivent le cours
  “ Introduction à Unix ”, suivent également le
  cours de “ Programmation C ” et 34 % de tous
  les étudiants ont en fait suivis les deux cours.


Juin 2008                DGA                         10
Extraction de règles d’association
       Transaction        Items                              Motifs       Support
            10           A, B, C                           fréquents

            20             A, C                               {A}          75%

            30             A, D                               {B}          50%

            40            B, E, F                             {C}          50%
                                                             {A, C}        50%



                                         support({A } ∪ {C})  2
                   support ( A ⇒ C ) =                       = = 50%
                                                  D           4


                                         support({A } ∪ {C }) 2
                 confiance ( A ⇒ C ) =                       = = 66 .7%
                                            support ({ A})    3


Juin 2008                                  DGA                                      11
Extraction de règles d’association


Schéma algorithmique de base

     – Génération de tous les ensembles fréquents
            • support minimum
     – Génération à partir des ensembles fréquents
       de toutes les règles d ’associations
            • confiance dans la règle


Juin 2008                        DGA                 12
Extraction de règles d’association


Génération de tous les ensembles fréquents

     – Semble facile ...
     … problème principal des
     algorithmes de règles d ’association …

     – 1000 items => 21000 ensembles à tester

Juin 2008                DGA                    13
Extraction de règles d’association

Premiers pas : le principe d’Apriori
     – La « référence » dans le domaine
     – Equipe d ’IBM Almaden (R. Agrawal et R. Srikant,
       VLDB94)


     – Proposition d’une génération de candidats économe :
            « Tout motif ayant un sous-motif non fréquent n’est pas
              fréquent »
     – Proposition d’une structure efficace

Juin 2008                          DGA                                14
Motifs séquentiels fréquents

• Exploite des données… séquentielles
     Séquence de données : liste ordonnée d’itemsets de la forme
       < itemset(T1) itemset(T2) … itemset(Tn) >
       ex: < (jour1 / caméscope, K7) (jour 3 / batterie) >


• Extrait des motifs fréquents en conservant l’information
  d’ordonnancement des données en entrée grâce à sa
  notion d’inclusion pour le support :
     S1=<a1 a2… an> et S2=<b1 b2… bn> on a S1 ⊆ S2 si
     ∃ i1 < i2 < … < in / a1 ⊆ bi1, … , an ⊆ bin



Juin 2008                        DGA                               15
Extraction de motifs séquentiels

Exemple
                  Date 1            Date 2        Date 3      Date 4
        C1    10 30 140           20 70 110     40 50       20 60 80
        C2    50 120 150          10 30         20 80 140   20 60 70
        C3    40 60 70            50            70 80 130   70 90
        C4    10 30 70            20 30 150     20 60 110   20 90 130


 Support minimum = 60% (3 clients suffisent), 3 motifs fréquents :

 < ( 70 ) >
 < ( 50 ) ( 80 ) >
 < ( 10 30 ) ( 20 ) ( 20 60 ) >
Juin 2008                                 DGA                           16
Applications des motifs séquentiels

• Fouille de textes : extraire des sous-phrases
  communes à un ensemble de textes.

• Appliqué sur les discours du président de
  l’assemblée nationale.

• Est-ce que ses discours utilisent les mêmes
  mots clés, dans le même ordre ?


Juin 2008                   DGA                   17
Applications des motifs séquentiels


 « C’est un plaisir que             « (…) je partage cet avis
   je partage (…) »                  car aujourd’hui (…) »




                                         plaisir que je
« Ce sera avec un plaisir
                                         je partage
  sincère que je (…) »


  Juin 2008                   DGA                               18
Applications des motifs séquentiels

• Fouille de graphes : extraire des sous-
  graphes communs à un ensemble de
  graphes.

• Appliqué sur les enregistrements de l’IMDB

• Est-ce que fiches des films/acteurs peuvent
  être restructurées autour d’un format
  minimum ?

Juin 2008                   DGA                   19
Applications des motifs séquentiels

            Titre                                                   Titre


 Sortie             Equipe                         Sortie           Score         Equipe


  Date       Acteurs         Effets spéciaux           Date                 Acteurs        Réalisateur



                                Société                                                    Autres films

                                               Titre


                                     Sortie              Equipe



                                                          Acteurs


Juin 2008                                       DGA                                                       20
Applications des motifs séquentiels

                                       Un Id par nœud
                             Associé à la profondeur dans l’arbre
            Titre
                                                                   A1

 Sortie             Equipe
                                                        B2                   C2


 Date        Acteurs         Effets spéciaux
                                                        D3              E3        F3


                                                 Par
                                Société              cou                          G3
                                                        rs p
                                                            réfi
                                                                   xé

                       Séquence correspondant au schéma :
                       < (A1) (B2) (D3) (C2) (E3) (F3) (G3) >

Juin 2008                                      DGA                                     21
Fouille des usages du Web? (rapidement…)

•     Les serveurs Web enregistrent les séquences d’accès au site.
•     A l’origine le but était de détecter les erreurs (type 404)
•     La communauté « fouille de données » est née au début des années
      90… (les logs d’accès Web sont rapidement devenus
      « appétissants »).
•     Objectif : extraire tout ce qui se produit avec une fréquence
      « élevée » (problème classique en fouille de données).

•     Exemple (Yahoo News?):
•     “7% des utilisateurs naviguent de la manière suivante :
      URL1 = Chiffres_Pouvoir_d_Achat.html ;
      URL2 = Tarifs_Baril_Petrole.html ;
      URL3 = People_Nouvelle_Star.html”

    Juin 2008                        DGA                             22
Fouille & sécurité

Le cas des IDS
     1. Basés sur les signatures :
            •   Hyper robuste aux attaques connues
            •   Hyper inefficace pour les nouvelles attaques
     2. Basés sur les anomalies :
            •   Très efficace pour détecter les nouvelles
                attaques
            •   Très efficaces pour saturer l’expert avec un
                maximum de fausses alertes ! !

Juin 2008                         DGA                          23
Fouille & sécurité

• Trois thèmes principaux :
     – Clustering & détection d’anomalies.
     – Extraction de motifs off-line pour générer des
       règles de détection (signatures).
     – Construction d’un modèle du système et
       comparaison des nouvelles entrées avec le
       modèle…



Juin 2008                 DGA                       24
Fouille & sécurité

• Clustering et détection d’outliers




Juin 2008             DGA              25
Fouille & sécurité

• Clustering et détection d’outliers
     – Nombre élevé de faux positifs
     – Temps de calcul du clustering
     – Découverte en temps réel = capacité à
       travailler sur les flots de données




Juin 2008                DGA                   26
Fouille & sécurité

• Fouille de données off-line pour enrichir la base de
  signatures :
   • Trouve des navigations sur un thème d’une équipe :
        http://www-sop.inria.fr/epidaure/foie3d/ : <(endo4.html) (endo5.html)
        (endo6.html) (endo8.html) (endo9.html) (endo10.html) (endo11.html)
        (endo12.html)>

     • Trouve aussi des tentatives d’intrusion :
http://www.inria.fr/ : <(scripts/root.exe) (c:/winnt/system32/cmd.exe)
    (..%255c../..%255c../winnt/system32/cmd.exe)
    (..%255c../..%255c/..%c1%1c../..%c1%1c../..%c1%1c../winnt/system32/cmd
    .exe) (winnt/system32/cmd.exe) (winnt/system32/cmd.exe)
    (winnt/system32/cmd.exe)>



Juin 2008                             DGA                                       27
Fouille & sécurité

• Comparaison on-line au modèle :
     – Thème de l’ARC SéSur (AxIS, Dream, Tatoo, KDD).
     – Travaux de Wei Wang (Post-doc).


• Test sur des données de log HTTP de l’INRIA Sophia
     – Taille des données: 561M
     – Nbre de requêtes : 1,449,379
     – Durée : 3 jours, 2 heures et 10 min




Juin 2008                         DGA                    28
Fouille & sécurité

• Données de log :
     salmacis.inria.fr - - [10/May/2007:18:27:32 +0200] "GET /cgi-
    bin/db4web_c/dbdirname//etc/passwd HTTP/1.0" 404 4856 "-"
    "Mozilla/4.75 (Nikto/1.36 )«

• Calculer la distribution des caractères dans l’URL de la
  requête :
     – Uniquement sur la plage ASCII 33-127
     – Chaque requête est représentée sur un vecteur de taille 95
     – Vecteur après la transformation : 0 0 0 0 0 0 0 0 0 0 0 0 1 0 6 0 0
       0010000000000000000000000000000000
       0000000000010243430103000120101210
       0200000000
     – La classification en ligne est basée sur ces vecteurs


Juin 2008                           DGA                                 29
Fouille & sécurité

• Détection d’anomalies
     – Sélectionner les 400 premières requêtes (normales)
       comme base de référence.
     – Calculer la distance entre les nouvelles entrées et les
       400 enregistrements de référence.
     – Sélectionner une distance minimale comme indice
       d’anomalie.




Juin 2008                     DGA                            30
Fouille & sécurité




Juin 2008          DGA           31
Fouille & sécurité




•    Détection d’anomalies en
     fonction de la distance
      –       Indice=0.14                                     •   Détection des changements de
      –       282/457=61.7% (Taux de détection)                   modèle (concept drift)
      –       8727/39456=22.1% (Faux positifs)
                                                                   – En fonction du taux d’anomalies
                                                                   – Indicateurs de type Page-Hinkley

          •    Work in progress…
                 –   Améliorer le taux de détection
                 –   Améliorer le taux de faux positifs
                 –   Gérer les changements de modèle (historique des concepts drifts, aspects flots)
                 –   …

    Juin 2008                                          DGA                                             32
Flots de données




       Fouille de

            flots de

        données


Juin 2008                    DGA          33
Flots de données

• 30 milliards d’emails par jour - 1 milliard de SMS.
• « China’s cellular operators estimate Chinese customers will send
  around 14 billion Lunar New Year text messages on their mobile
  phones during the week-long holiday ».
• IP Network Traffic: Jusqu’à 1 milliard de paquet par heure et par
  routeur. Chaque FAI a des centaines de routeurs ! 75000 tuples par
  seconde !
• AT&T collecte 100 Gb de données réseau par jour.
• NASA EOS (Earth Observation System) : Données d’observation
  satellites, jusqu’à 350 Gb par jour.
• eBay : en moyenne 1 million de pages consultées par jour.
• Yahoo: 166 millions de visiteurs par jour; 48 Gb de clickstream par
  heure !

  Juin 2008                          DGA                                34
Flots de données

• Caractéristiques des flots de données :
     – De nouveaux éléments générés en permanence
       (flux potentiellement infini).
     – Les données doivent être traitées aussi vite que
       possible.
     – Interdiction de bloquer le flux.
     – Un seul coup d’oeil.
     – Restreint par la mémoire disponible.


Juin 2008                      DGA                        35
Application type : le trafic réseaux

• Securité, Fraude, Analyse, Estimation
        • Combien d’octets échangés entre deux IP ?
        • Liste des 100 IP qui consomment le plus.
        • Durée moyenne d’une session IP ?
        • Identifier les sessions qui durent deux fois plus longtemps que
          la moyenne.
        • Identifier les IP impliquées dans plus de 100 sessions.
        • Quels sont les k éléments les plus demandés ?
          (par exemple les 50 URLs les plus accédées)
        • Détecter une forte augmentation des connexions entrantes en
          provenance d’un pays sur une courte durée.


 Juin 2008                          DGA                                 36
Fouille de flots de données

• Irréaliste d’essayer d’extraire précisément les motifs
  fréquents dans un flot!
• Défi principal : comment extraire les motifs avec une
  approximation acceptable ?


• Défis associés :
    – Une seule passe: on ne peut pas revenir en arrière !
    – Les fréquents peuvent devenir rares et vice-versa.
    – Besoin de gérer l’historique des connaissances extraites.
    – Besoin de voir les changements importants (ex. intrusions).

 Juin 2008                         DGA                              37
Fouille de flux de données

• En raison des caractéristiques/contraintes d’un
  flux, il est généralement admis qu’une méthode
  de fouille doit :

    – Sacrifier de son exactitude au profit de sa vitesse
      d’extraction.

    – Gérer l’historique des « schémas » extraits.



Juin 2008                     DGA                           38
Modèle d’extraction par batch

                                                   Flux

            Batch Bn   Batch Bn-1 Batch Bn-2   …




             Fouille



            Résultat Résultat Résultat
              Bn       Bn-1     Bn-2




Juin 2008                               DGA               39
Gestion de l’historique des connaissances


Approche par « tilted time windows »

Itemset fréquent (a b c)
15 min      15 min         30 min   1 heure   2 heures   …   256 jours

0.17        0.18           0.25     0.12      0.05       …   0




Juin 2008                              DGA                           40
Fouille de flux de données

                   Aligner les séquences d’un cluster



                                    < (a)       (b)     (d) >

                              ⇒
            < (a) (b) (d) >         < (a)       (c)     (d) >
            < (a) (c) (d) >         < (a:2) (b:1, c:1) (d:2) >


                        Filtre k =1: < (a:2) (b:1, c:1) (d:2) >
                        Filtre k =2: < (a:2) (d:2) >



Juin 2008                                DGA                      41
Fouille de données et réseaux de capteurs
                 (petit tour d’horizon « biaisé »)

• Fouille de données afin d’améliorer le réseau.
    –   Clustering
    –   Règles de communication
    –   Économies de transmissions
    –   Économies de batterie
• Challenge du data mining sur un environnement
  sur-contraint
    – Distribution du processus de fouille
    – Faibles ressources disponibles
• Applications ?
 Juin 2008                     DGA                   42
Fouille de données afin d’améliorer le réseau ?

• Clustering des capteurs :
    – Grouper sous un leader afin d’économiser les échanges.




• En particulier pour les nœuds mobiles.

 Juin 2008                       DGA                           43
Fouille de données afin d’améliorer le réseau ?

• Clustering des capteurs : « mining sensor energy data »
    – Exploiter les données d’énergie afin de grouper les nœuds.
    – Ne repose pas sur des données de localisation des nœuds.




 Juin 2008                        DGA                              44
Fouille de données afin d’améliorer le réseau ?

• Clustering des capteurs : « mining sensor energy data »
   Exploite l’historique de la
  consommation d’énergie des
  capteurs



   Groupe les capteurs en
  fonction des similitudes de
  consommations (suppose que
  les leaders consomment de
  façon similaire)




 Juin 2008                       DGA                        45
Fouille de données afin d’améliorer le réseau ?

• Règles d’association pour optimiser les communications
  (Boukerche and Samarah, Ottawa, IEEE T Parallel and Distrib. Syst.)

• Extraire des règles basées sur des activités communes

• Exemple : (s1s2 s3, 90%, t) « après des transmissions de
  s1 et s2 il y a 90% de chances d’observer une transmission
  de s3 dans un délai de t unités de temps ».

• Implique de découvrir le motif (itemset) fréquent (s1s2 s3 ) et
  de calculer support, confiance et délais.



 Juin 2008                       DGA                                46
Fouille de données afin d’améliorer le réseau ?

• (s1s2      s3, 90%, t)

• Objectifs applicatifs :
    – Surveiller les comportements des nœuds (on attend un
      événement de s3 à 90% et il ne se produit pas dans le
      délai t).
    – Participer aux efforts de gestion de ressources (on peut
      mettre un nœud en stand by car il ne communiquera
      certainement pas dans les n prochaines unités de
      temps).
    – Prédire les comportements des nœuds (source du
      prochain événement)

 Juin 2008                    DGA                           47
Fouille de données afin d’améliorer le réseau ?

• Règles d’association pour optimiser les communications
     (Gaber et al., ACM SAC’08)
•    Approche précédente basée sur les méta données (« un événement
     s’est produit »).
•    Cette approche se base sur le contenu des événements (« le nœud s1 a
     envoyé les information xy »).
•    Un ensemble de capteurs S1, S2, …. Sn et un ensemble de valeurs de
     son s, de température t et de lumière l.
•    Les valeurs de lumière pour S1 et S2 peuvent être similaires (placés
     dans la même zone).
•    Discrétisation des valeurs : [0,299] =‘L’, [300,699]=‘M’ et [700,1000]=‘H’
•    Transactions de type {Sn; tn, sn, ln, time}


    Juin 2008                         DGA                                  48
Fouille de données afin d’améliorer le réseau ?

• Règles d’association pour optimiser les communications

• Transactions de type {Sn; tn, sn, ln, time}

• Exemples de règles extraites :
    – S0L[H]   S1L[H], 100%
    – S0L[L]   S0T[M], 85.7%

• Objectif : éviter des communications si on peut prévoir les
  valeurs à transmettre.




 Juin 2008                     DGA                          49
Exploitation des données du réseau

• Prévision de charge dans un réseau électrique :
   (Rodriguez & Gama, Porto)


• Capteurs distribués dans le réseau électrique.
• Apprentissage en ligne et détection de changement.
• Objectif : maintenir en temps réel un modèle de clustering
  du réseau et un modèle prédictif capable de détecter les
  changement.




 Juin 2008                     DGA                         50
Exploitation des données du réseau
• Capteurs autour d’un volcan :
     (Werner-Allen, Johnson, Ruiz, Lees and Welsh, Harvard)
•     Capteurs (distribués géographiquement autour du volcan Tungurahua, équateur).
•     1,57 Gb de signaux générés en 54 heures.




    Juin 2008                               DGA                                       51
Exploitation des données du réseau
•     « 20 minutes après un événement d’éruption, des chocs sismiques fréquents se
      produisent. »
•     « Autour d’un événement d’émission de gaz, des événements sismiques sont probables. »




    Juin 2008                               DGA                                       52
Exploitation des données du réseau

• Monitoring d’un réseau de télécommunications

• Capteur mesurant l’utilisation de la bande passante sur des liens.
• Détection de congestion et de comportements anormaux.

• « 30% des liens sur un switch sont souvent fortement sollicités au même
  moment et un ralentissement est observé à ce moment ».

• « Le trafic sortant d’un sous-réseau est nettement plus élevé que le
  trafic entrant ».




 Juin 2008                         DGA                                   53
Exploitation des données du réseau

• Surveiller des Pandas en Chine
   (Ma et al., Beijing)


• Capteurs météo autour de l’habitat du panda.
• Capteurs sur le panda (Huanhuan).

• « Est-ce que Huanhuan a des symptômes anormaux par rapport au
  passé ? Est-ce que d’autres pandas ont des symptômes similaires ? »

• « Y a-t-il des corrélations entre les attributs des pandas et ceux de leur
  habitat ? ».



 Juin 2008                          DGA                                  54
Bilan sur les capteurs

• Techniques de fouille sur les réseaux de capteurs
• Pour améliorer le réseau ou pour exploiter ses données…

• Centralisées :
    – Ne passent pas à l’échelle
    – Consomment de l’énergie et de la bande passante (fouille des données
      transmises à un sink)

• Distribuées :
    – Limitées par les capacités embarquées du capteur

• Challenges « rassurants » (en data mining) :
    – Aspects flots (ressources limitées)
    – Distribuer les calculs
    – Concept drift

 Juin 2008                            DGA                                    55

Mais conteúdo relacionado

Destaque

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningChristophe Tricot
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheMohamed Heny SELMI
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial dihiaselma
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Curso de organización de eventos
Curso de organización de eventosCurso de organización de eventos
Curso de organización de eventosASPM
 
CONOCE AL HOLIDAY INN MADRID BERNABEU
CONOCE AL HOLIDAY INN MADRID BERNABEUCONOCE AL HOLIDAY INN MADRID BERNABEU
CONOCE AL HOLIDAY INN MADRID BERNABEUASPM
 
Vientos y tempestades de la vida
Vientos y tempestades de la vidaVientos y tempestades de la vida
Vientos y tempestades de la vidaLUZ M.
 
Menu gourmand du weekend du 26 au 28 avril 2013
Menu gourmand du weekend du 26 au 28 avril 2013Menu gourmand du weekend du 26 au 28 avril 2013
Menu gourmand du weekend du 26 au 28 avril 2013villaduflot
 
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14Webassadors
 
Presentación mesa papps bilbao 2012 2
Presentación mesa papps bilbao 2012 2Presentación mesa papps bilbao 2012 2
Presentación mesa papps bilbao 2012 2fcamarelles
 

Destaque (20)

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data mining
 
Image Mining
Image MiningImage Mining
Image Mining
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Katy perry
Katy perryKaty perry
Katy perry
 
Curso de organización de eventos
Curso de organización de eventosCurso de organización de eventos
Curso de organización de eventos
 
CONOCE AL HOLIDAY INN MADRID BERNABEU
CONOCE AL HOLIDAY INN MADRID BERNABEUCONOCE AL HOLIDAY INN MADRID BERNABEU
CONOCE AL HOLIDAY INN MADRID BERNABEU
 
Vientos y tempestades de la vida
Vientos y tempestades de la vidaVientos y tempestades de la vida
Vientos y tempestades de la vida
 
Menu gourmand du weekend du 26 au 28 avril 2013
Menu gourmand du weekend du 26 au 28 avril 2013Menu gourmand du weekend du 26 au 28 avril 2013
Menu gourmand du weekend du 26 au 28 avril 2013
 
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14
Webassadors - Mixology #13 - Actu' Web de la semaine du 29.09.14
 
Presentación mesa papps bilbao 2012 2
Presentación mesa papps bilbao 2012 2Presentación mesa papps bilbao 2012 2
Presentación mesa papps bilbao 2012 2
 

Semelhante a classification des images

Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...Marc Bojoly
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
Ecoffices AxIS
Ecoffices AxISEcoffices AxIS
Ecoffices AxISiCOMMUNITY
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanshuai wang
 
recherche d'information spatio-temporelle : application aux images satellitaires
recherche d'information spatio-temporelle : application aux images satellitairesrecherche d'information spatio-temporelle : application aux images satellitaires
recherche d'information spatio-temporelle : application aux images satellitairesDesconnets Jean-Christophe
 
Présentation/Atelier oxya
Présentation/Atelier oxyaPrésentation/Atelier oxya
Présentation/Atelier oxyaFujitsu France
 
2.presentation merise
2.presentation merise2.presentation merise
2.presentation meriseshaheenyaar
 
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...usthbmilsded
 
[Workshop] Calcul intensif - GENCI
[Workshop] Calcul intensif - GENCI[Workshop] Calcul intensif - GENCI
[Workshop] Calcul intensif - GENCIFrenchTechCentral
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...Jean-Pierre Riehl
 
Monitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIMonitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIJoël Crest
 
Grid Computing
Grid ComputingGrid Computing
Grid Computingm.dubucq
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDataStax
 
Cours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyCours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyENSET, Université Hassan II Casablanca
 
Une plateforme moderne pour le groupe SIPA/Ouest-France 
Une plateforme moderne pour le groupe SIPA/Ouest-France Une plateforme moderne pour le groupe SIPA/Ouest-France 
Une plateforme moderne pour le groupe SIPA/Ouest-France François-Guillaume Ribreau
 
Le système d'information unifié
Le système d'information unifiéLe système d'information unifié
Le système d'information unifiéitSMF France
 
Le système d'information unifié
Le système d'information unifiéLe système d'information unifié
Le système d'information unifiéitSMF France
 

Semelhante a classification des images (20)

Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...
Les grilles transactionnelles, enfin des solutions pour l’informatique de ges...
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
mars2005_BD
mars2005_BDmars2005_BD
mars2005_BD
 
Ecoffices AxIS
Ecoffices AxISEcoffices AxIS
Ecoffices AxIS
 
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelmanslides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
slides_conf_sur_AI_big_data_par_Françoise_Soulié-Fogelman
 
recherche d'information spatio-temporelle : application aux images satellitaires
recherche d'information spatio-temporelle : application aux images satellitairesrecherche d'information spatio-temporelle : application aux images satellitaires
recherche d'information spatio-temporelle : application aux images satellitaires
 
Présentation/Atelier oxya
Présentation/Atelier oxyaPrésentation/Atelier oxya
Présentation/Atelier oxya
 
cm-bd.pdf
cm-bd.pdfcm-bd.pdf
cm-bd.pdf
 
2.presentation merise
2.presentation merise2.presentation merise
2.presentation merise
 
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...Conception d’un outil décisionnel pour la gestion de la relation client dans ...
Conception d’un outil décisionnel pour la gestion de la relation client dans ...
 
[Workshop] Calcul intensif - GENCI
[Workshop] Calcul intensif - GENCI[Workshop] Calcul intensif - GENCI
[Workshop] Calcul intensif - GENCI
 
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
SQLSaturday Toulouse 2017 - Azure Data Lake : SELECT people FROM data-lake WH...
 
Monitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BIMonitorez votre solution IoT avec Stream Analytics et Power BI
Monitorez votre solution IoT avec Stream Analytics et Power BI
 
Grid Computing
Grid ComputingGrid Computing
Grid Computing
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinar
 
Laurent Pigache
Laurent PigacheLaurent Pigache
Laurent Pigache
 
Cours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyCours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategy
 
Une plateforme moderne pour le groupe SIPA/Ouest-France 
Une plateforme moderne pour le groupe SIPA/Ouest-France Une plateforme moderne pour le groupe SIPA/Ouest-France 
Une plateforme moderne pour le groupe SIPA/Ouest-France 
 
Le système d'information unifié
Le système d'information unifiéLe système d'information unifié
Le système d'information unifié
 
Le système d'information unifié
Le système d'information unifiéLe système d'information unifié
Le système d'information unifié
 

classification des images

  • 1. Florent Masseglia – INRIA Sophia Antipolis-Méditerranée Equipe-Projet AXIS Fouille de données Principes généraux du data mining Sécurité Fouille de flots Réseaux de capteurs http://www.inria.fr/sophia/teams/axis Juin 2008 DGA 1
  • 2. L’équipe-projet AxIS • Analyse et Amélioration des Systèmes d’Information Dirigées par l’Usage • Bi-localisée Sophia – Rocquencourt • Objectifs 2008-2012 : – Analyse d’un SI et ECD – Aides pour analyser les réseaux sociaux et améliorer la recherche d’information – Elaboration d’une plateforme d’expérimentation FOCUS Juin 2008 DGA 2
  • 3. L’équipe-projet AxIS • Analyse d’un SI et ECD : – Fouille dans les flots de données (ANR Midas, ARC Sésur) – Fouille de données d’un SI (usage, contenu et structure) – Semantic Web Mining … – Gestion des connaissances en IS mining (domaine de l’analyste) Juin 2008 DGA 3
  • 4. L’équipe-projet AxIS • Aides pour analyser les réseaux sociaux et améliorer la recherche d’information : – ANR Eiffel – Projet Quaero - France-Allemagne – ANR Intermed – Démarrage d’une thèse en septembre Juin 2008 DGA 4
  • 5. L’équipe-projet AxIS • Elaboration d’une plateforme d’expérimentation FOCUS – Classes d’applications : • Démocratie participative, Développement durable (ANR Intermed) • Transport et tourisme (Color INRIA CusCov, ANR Eiffel) – Support : une des plateformes du CPER (PACA), dans le cadre du «Living Lab ICT» (ENoLL) de Sophia Antipolis, soumission FP7 infrastructures de recherche Juin 2008 DGA 5
  • 6. Types d’extraction de connaissance • Classification créé une fonction qui classifie une donnée élémentaire parmi plusieurs classes prédéfinies existantes • Régression créé une fonction qui donne une donnée élémentaire à une variable de prévision avec des données réelles • Segmentation (clustering, classement) rechercher à identifier un ensemble fini de catégories ou groupe en vues de décrire les données Juin 2008 DGA 6
  • 7. Types d’extraction de connaissance (2) • Résumé affiner une description compacte d’un sous-ensemble de données • Modelage des dépendances trouver un modèle qui décrit des dépendances significatives entre les variables • Détection de changement et déviation découvrir les changements les plus significatifs dans les données Juin 2008 DGA 7
  • 8. Types d’extraction de connaissance (2) • Extraction de fréquents : – Itemsets fréquents (et règles d’association) • comportements de clients d’un supermarché – Motifs séquentiels fréquents • comportements d’utilisateurs d’un site Web • comportements de touristes (véhicule + GPS) Juin 2008 DGA 8
  • 10. Extraction de règles d’association • 20 % des clients qui achètent du beurre et du pain achètent aussi du lait. • 15 % des clients qui achètent de la bière et des gâteaux achètent aussi des couches. • 64 % des étudiants qui suivent le cours “ Introduction à Unix ”, suivent également le cours de “ Programmation C ” et 34 % de tous les étudiants ont en fait suivis les deux cours. Juin 2008 DGA 10
  • 11. Extraction de règles d’association Transaction Items Motifs Support 10 A, B, C fréquents 20 A, C {A} 75% 30 A, D {B} 50% 40 B, E, F {C} 50% {A, C} 50% support({A } ∪ {C}) 2 support ( A ⇒ C ) = = = 50% D 4 support({A } ∪ {C }) 2 confiance ( A ⇒ C ) = = = 66 .7% support ({ A}) 3 Juin 2008 DGA 11
  • 12. Extraction de règles d’association Schéma algorithmique de base – Génération de tous les ensembles fréquents • support minimum – Génération à partir des ensembles fréquents de toutes les règles d ’associations • confiance dans la règle Juin 2008 DGA 12
  • 13. Extraction de règles d’association Génération de tous les ensembles fréquents – Semble facile ... … problème principal des algorithmes de règles d ’association … – 1000 items => 21000 ensembles à tester Juin 2008 DGA 13
  • 14. Extraction de règles d’association Premiers pas : le principe d’Apriori – La « référence » dans le domaine – Equipe d ’IBM Almaden (R. Agrawal et R. Srikant, VLDB94) – Proposition d’une génération de candidats économe : « Tout motif ayant un sous-motif non fréquent n’est pas fréquent » – Proposition d’une structure efficace Juin 2008 DGA 14
  • 15. Motifs séquentiels fréquents • Exploite des données… séquentielles Séquence de données : liste ordonnée d’itemsets de la forme < itemset(T1) itemset(T2) … itemset(Tn) > ex: < (jour1 / caméscope, K7) (jour 3 / batterie) > • Extrait des motifs fréquents en conservant l’information d’ordonnancement des données en entrée grâce à sa notion d’inclusion pour le support : S1=<a1 a2… an> et S2=<b1 b2… bn> on a S1 ⊆ S2 si ∃ i1 < i2 < … < in / a1 ⊆ bi1, … , an ⊆ bin Juin 2008 DGA 15
  • 16. Extraction de motifs séquentiels Exemple Date 1 Date 2 Date 3 Date 4 C1 10 30 140 20 70 110 40 50 20 60 80 C2 50 120 150 10 30 20 80 140 20 60 70 C3 40 60 70 50 70 80 130 70 90 C4 10 30 70 20 30 150 20 60 110 20 90 130 Support minimum = 60% (3 clients suffisent), 3 motifs fréquents : < ( 70 ) > < ( 50 ) ( 80 ) > < ( 10 30 ) ( 20 ) ( 20 60 ) > Juin 2008 DGA 16
  • 17. Applications des motifs séquentiels • Fouille de textes : extraire des sous-phrases communes à un ensemble de textes. • Appliqué sur les discours du président de l’assemblée nationale. • Est-ce que ses discours utilisent les mêmes mots clés, dans le même ordre ? Juin 2008 DGA 17
  • 18. Applications des motifs séquentiels « C’est un plaisir que « (…) je partage cet avis je partage (…) » car aujourd’hui (…) » plaisir que je « Ce sera avec un plaisir je partage sincère que je (…) » Juin 2008 DGA 18
  • 19. Applications des motifs séquentiels • Fouille de graphes : extraire des sous- graphes communs à un ensemble de graphes. • Appliqué sur les enregistrements de l’IMDB • Est-ce que fiches des films/acteurs peuvent être restructurées autour d’un format minimum ? Juin 2008 DGA 19
  • 20. Applications des motifs séquentiels Titre Titre Sortie Equipe Sortie Score Equipe Date Acteurs Effets spéciaux Date Acteurs Réalisateur Société Autres films Titre Sortie Equipe Acteurs Juin 2008 DGA 20
  • 21. Applications des motifs séquentiels Un Id par nœud Associé à la profondeur dans l’arbre Titre A1 Sortie Equipe B2 C2 Date Acteurs Effets spéciaux D3 E3 F3 Par Société cou G3 rs p réfi xé Séquence correspondant au schéma : < (A1) (B2) (D3) (C2) (E3) (F3) (G3) > Juin 2008 DGA 21
  • 22. Fouille des usages du Web? (rapidement…) • Les serveurs Web enregistrent les séquences d’accès au site. • A l’origine le but était de détecter les erreurs (type 404) • La communauté « fouille de données » est née au début des années 90… (les logs d’accès Web sont rapidement devenus « appétissants »). • Objectif : extraire tout ce qui se produit avec une fréquence « élevée » (problème classique en fouille de données). • Exemple (Yahoo News?): • “7% des utilisateurs naviguent de la manière suivante : URL1 = Chiffres_Pouvoir_d_Achat.html ; URL2 = Tarifs_Baril_Petrole.html ; URL3 = People_Nouvelle_Star.html” Juin 2008 DGA 22
  • 23. Fouille & sécurité Le cas des IDS 1. Basés sur les signatures : • Hyper robuste aux attaques connues • Hyper inefficace pour les nouvelles attaques 2. Basés sur les anomalies : • Très efficace pour détecter les nouvelles attaques • Très efficaces pour saturer l’expert avec un maximum de fausses alertes ! ! Juin 2008 DGA 23
  • 24. Fouille & sécurité • Trois thèmes principaux : – Clustering & détection d’anomalies. – Extraction de motifs off-line pour générer des règles de détection (signatures). – Construction d’un modèle du système et comparaison des nouvelles entrées avec le modèle… Juin 2008 DGA 24
  • 25. Fouille & sécurité • Clustering et détection d’outliers Juin 2008 DGA 25
  • 26. Fouille & sécurité • Clustering et détection d’outliers – Nombre élevé de faux positifs – Temps de calcul du clustering – Découverte en temps réel = capacité à travailler sur les flots de données Juin 2008 DGA 26
  • 27. Fouille & sécurité • Fouille de données off-line pour enrichir la base de signatures : • Trouve des navigations sur un thème d’une équipe : http://www-sop.inria.fr/epidaure/foie3d/ : <(endo4.html) (endo5.html) (endo6.html) (endo8.html) (endo9.html) (endo10.html) (endo11.html) (endo12.html)> • Trouve aussi des tentatives d’intrusion : http://www.inria.fr/ : <(scripts/root.exe) (c:/winnt/system32/cmd.exe) (..%255c../..%255c../winnt/system32/cmd.exe) (..%255c../..%255c/..%c1%1c../..%c1%1c../..%c1%1c../winnt/system32/cmd .exe) (winnt/system32/cmd.exe) (winnt/system32/cmd.exe) (winnt/system32/cmd.exe)> Juin 2008 DGA 27
  • 28. Fouille & sécurité • Comparaison on-line au modèle : – Thème de l’ARC SéSur (AxIS, Dream, Tatoo, KDD). – Travaux de Wei Wang (Post-doc). • Test sur des données de log HTTP de l’INRIA Sophia – Taille des données: 561M – Nbre de requêtes : 1,449,379 – Durée : 3 jours, 2 heures et 10 min Juin 2008 DGA 28
  • 29. Fouille & sécurité • Données de log : salmacis.inria.fr - - [10/May/2007:18:27:32 +0200] "GET /cgi- bin/db4web_c/dbdirname//etc/passwd HTTP/1.0" 404 4856 "-" "Mozilla/4.75 (Nikto/1.36 )« • Calculer la distribution des caractères dans l’URL de la requête : – Uniquement sur la plage ASCII 33-127 – Chaque requête est représentée sur un vecteur de taille 95 – Vecteur après la transformation : 0 0 0 0 0 0 0 0 0 0 0 0 1 0 6 0 0 0010000000000000000000000000000000 0000000000010243430103000120101210 0200000000 – La classification en ligne est basée sur ces vecteurs Juin 2008 DGA 29
  • 30. Fouille & sécurité • Détection d’anomalies – Sélectionner les 400 premières requêtes (normales) comme base de référence. – Calculer la distance entre les nouvelles entrées et les 400 enregistrements de référence. – Sélectionner une distance minimale comme indice d’anomalie. Juin 2008 DGA 30
  • 32. Fouille & sécurité • Détection d’anomalies en fonction de la distance – Indice=0.14 • Détection des changements de – 282/457=61.7% (Taux de détection) modèle (concept drift) – 8727/39456=22.1% (Faux positifs) – En fonction du taux d’anomalies – Indicateurs de type Page-Hinkley • Work in progress… – Améliorer le taux de détection – Améliorer le taux de faux positifs – Gérer les changements de modèle (historique des concepts drifts, aspects flots) – … Juin 2008 DGA 32
  • 33. Flots de données Fouille de flots de données Juin 2008 DGA 33
  • 34. Flots de données • 30 milliards d’emails par jour - 1 milliard de SMS. • « China’s cellular operators estimate Chinese customers will send around 14 billion Lunar New Year text messages on their mobile phones during the week-long holiday ». • IP Network Traffic: Jusqu’à 1 milliard de paquet par heure et par routeur. Chaque FAI a des centaines de routeurs ! 75000 tuples par seconde ! • AT&T collecte 100 Gb de données réseau par jour. • NASA EOS (Earth Observation System) : Données d’observation satellites, jusqu’à 350 Gb par jour. • eBay : en moyenne 1 million de pages consultées par jour. • Yahoo: 166 millions de visiteurs par jour; 48 Gb de clickstream par heure ! Juin 2008 DGA 34
  • 35. Flots de données • Caractéristiques des flots de données : – De nouveaux éléments générés en permanence (flux potentiellement infini). – Les données doivent être traitées aussi vite que possible. – Interdiction de bloquer le flux. – Un seul coup d’oeil. – Restreint par la mémoire disponible. Juin 2008 DGA 35
  • 36. Application type : le trafic réseaux • Securité, Fraude, Analyse, Estimation • Combien d’octets échangés entre deux IP ? • Liste des 100 IP qui consomment le plus. • Durée moyenne d’une session IP ? • Identifier les sessions qui durent deux fois plus longtemps que la moyenne. • Identifier les IP impliquées dans plus de 100 sessions. • Quels sont les k éléments les plus demandés ? (par exemple les 50 URLs les plus accédées) • Détecter une forte augmentation des connexions entrantes en provenance d’un pays sur une courte durée. Juin 2008 DGA 36
  • 37. Fouille de flots de données • Irréaliste d’essayer d’extraire précisément les motifs fréquents dans un flot! • Défi principal : comment extraire les motifs avec une approximation acceptable ? • Défis associés : – Une seule passe: on ne peut pas revenir en arrière ! – Les fréquents peuvent devenir rares et vice-versa. – Besoin de gérer l’historique des connaissances extraites. – Besoin de voir les changements importants (ex. intrusions). Juin 2008 DGA 37
  • 38. Fouille de flux de données • En raison des caractéristiques/contraintes d’un flux, il est généralement admis qu’une méthode de fouille doit : – Sacrifier de son exactitude au profit de sa vitesse d’extraction. – Gérer l’historique des « schémas » extraits. Juin 2008 DGA 38
  • 39. Modèle d’extraction par batch Flux Batch Bn Batch Bn-1 Batch Bn-2 … Fouille Résultat Résultat Résultat Bn Bn-1 Bn-2 Juin 2008 DGA 39
  • 40. Gestion de l’historique des connaissances Approche par « tilted time windows » Itemset fréquent (a b c) 15 min 15 min 30 min 1 heure 2 heures … 256 jours 0.17 0.18 0.25 0.12 0.05 … 0 Juin 2008 DGA 40
  • 41. Fouille de flux de données Aligner les séquences d’un cluster < (a) (b) (d) > ⇒ < (a) (b) (d) > < (a) (c) (d) > < (a) (c) (d) > < (a:2) (b:1, c:1) (d:2) > Filtre k =1: < (a:2) (b:1, c:1) (d:2) > Filtre k =2: < (a:2) (d:2) > Juin 2008 DGA 41
  • 42. Fouille de données et réseaux de capteurs (petit tour d’horizon « biaisé ») • Fouille de données afin d’améliorer le réseau. – Clustering – Règles de communication – Économies de transmissions – Économies de batterie • Challenge du data mining sur un environnement sur-contraint – Distribution du processus de fouille – Faibles ressources disponibles • Applications ? Juin 2008 DGA 42
  • 43. Fouille de données afin d’améliorer le réseau ? • Clustering des capteurs : – Grouper sous un leader afin d’économiser les échanges. • En particulier pour les nœuds mobiles. Juin 2008 DGA 43
  • 44. Fouille de données afin d’améliorer le réseau ? • Clustering des capteurs : « mining sensor energy data » – Exploiter les données d’énergie afin de grouper les nœuds. – Ne repose pas sur des données de localisation des nœuds. Juin 2008 DGA 44
  • 45. Fouille de données afin d’améliorer le réseau ? • Clustering des capteurs : « mining sensor energy data » Exploite l’historique de la consommation d’énergie des capteurs Groupe les capteurs en fonction des similitudes de consommations (suppose que les leaders consomment de façon similaire) Juin 2008 DGA 45
  • 46. Fouille de données afin d’améliorer le réseau ? • Règles d’association pour optimiser les communications (Boukerche and Samarah, Ottawa, IEEE T Parallel and Distrib. Syst.) • Extraire des règles basées sur des activités communes • Exemple : (s1s2 s3, 90%, t) « après des transmissions de s1 et s2 il y a 90% de chances d’observer une transmission de s3 dans un délai de t unités de temps ». • Implique de découvrir le motif (itemset) fréquent (s1s2 s3 ) et de calculer support, confiance et délais. Juin 2008 DGA 46
  • 47. Fouille de données afin d’améliorer le réseau ? • (s1s2 s3, 90%, t) • Objectifs applicatifs : – Surveiller les comportements des nœuds (on attend un événement de s3 à 90% et il ne se produit pas dans le délai t). – Participer aux efforts de gestion de ressources (on peut mettre un nœud en stand by car il ne communiquera certainement pas dans les n prochaines unités de temps). – Prédire les comportements des nœuds (source du prochain événement) Juin 2008 DGA 47
  • 48. Fouille de données afin d’améliorer le réseau ? • Règles d’association pour optimiser les communications (Gaber et al., ACM SAC’08) • Approche précédente basée sur les méta données (« un événement s’est produit »). • Cette approche se base sur le contenu des événements (« le nœud s1 a envoyé les information xy »). • Un ensemble de capteurs S1, S2, …. Sn et un ensemble de valeurs de son s, de température t et de lumière l. • Les valeurs de lumière pour S1 et S2 peuvent être similaires (placés dans la même zone). • Discrétisation des valeurs : [0,299] =‘L’, [300,699]=‘M’ et [700,1000]=‘H’ • Transactions de type {Sn; tn, sn, ln, time} Juin 2008 DGA 48
  • 49. Fouille de données afin d’améliorer le réseau ? • Règles d’association pour optimiser les communications • Transactions de type {Sn; tn, sn, ln, time} • Exemples de règles extraites : – S0L[H] S1L[H], 100% – S0L[L] S0T[M], 85.7% • Objectif : éviter des communications si on peut prévoir les valeurs à transmettre. Juin 2008 DGA 49
  • 50. Exploitation des données du réseau • Prévision de charge dans un réseau électrique : (Rodriguez & Gama, Porto) • Capteurs distribués dans le réseau électrique. • Apprentissage en ligne et détection de changement. • Objectif : maintenir en temps réel un modèle de clustering du réseau et un modèle prédictif capable de détecter les changement. Juin 2008 DGA 50
  • 51. Exploitation des données du réseau • Capteurs autour d’un volcan : (Werner-Allen, Johnson, Ruiz, Lees and Welsh, Harvard) • Capteurs (distribués géographiquement autour du volcan Tungurahua, équateur). • 1,57 Gb de signaux générés en 54 heures. Juin 2008 DGA 51
  • 52. Exploitation des données du réseau • « 20 minutes après un événement d’éruption, des chocs sismiques fréquents se produisent. » • « Autour d’un événement d’émission de gaz, des événements sismiques sont probables. » Juin 2008 DGA 52
  • 53. Exploitation des données du réseau • Monitoring d’un réseau de télécommunications • Capteur mesurant l’utilisation de la bande passante sur des liens. • Détection de congestion et de comportements anormaux. • « 30% des liens sur un switch sont souvent fortement sollicités au même moment et un ralentissement est observé à ce moment ». • « Le trafic sortant d’un sous-réseau est nettement plus élevé que le trafic entrant ». Juin 2008 DGA 53
  • 54. Exploitation des données du réseau • Surveiller des Pandas en Chine (Ma et al., Beijing) • Capteurs météo autour de l’habitat du panda. • Capteurs sur le panda (Huanhuan). • « Est-ce que Huanhuan a des symptômes anormaux par rapport au passé ? Est-ce que d’autres pandas ont des symptômes similaires ? » • « Y a-t-il des corrélations entre les attributs des pandas et ceux de leur habitat ? ». Juin 2008 DGA 54
  • 55. Bilan sur les capteurs • Techniques de fouille sur les réseaux de capteurs • Pour améliorer le réseau ou pour exploiter ses données… • Centralisées : – Ne passent pas à l’échelle – Consomment de l’énergie et de la bande passante (fouille des données transmises à un sink) • Distribuées : – Limitées par les capacités embarquées du capteur • Challenges « rassurants » (en data mining) : – Aspects flots (ressources limitées) – Distribuer les calculs – Concept drift Juin 2008 DGA 55