SlideShare uma empresa Scribd logo
1 de 68
Baixar para ler offline
Pr´sentation de quelques m´thodes et applications de
  e                         e
                clustering de graphes

                          Etienne Cˆme,
                                   o
                      etienne.come@ifsttar.fr


                        8 D´cembre 2011
                           e




 Cˆme, E. (IFSTTAR)
  o                        Clustering de graph   8 D´cembre 2011
                                                    e              1 / 68
Outline

1   Introduction
       Graphes
       Probl´matique de la recherche de communaut´
            e                                    e
2   Clustering de graphes, quelques m´thodes
                                     e
      Mod`le de m´lange d’Erdos Renyi
           e       e
      Maximisation de la modularit´e
      Clustering spectral
3   Extraction locale de communaut´ e
      Probl´matique
            e
      Solutions existantes
      Noise cluster model
      Exp´rimentation : extraction de communaut´s de blogs
          e                                    e
4   Clustering hi´rarchique / multi-´chelles
                 e                  e
      Probl´matique
            e
      Clustering spectral sur graphes orient´s
                                             e
      Extension hi´rarchique
                   e
      Exp´rimentation : Identification d’aires urbaines
          e
     Cˆme, E. (IFSTTAR)
      o                         Clustering de graph      8 D´cembre 2011
                                                            e              2 / 68
Introduction   Graphes


Introduction, graphes
Graphe
Deux ´l´ments G = {V , E } :
     ee
    V : nœuds ou sommets
    E : liens, arcs (orient´) ou arˆtes (non-orient´)
                           e       e               e




    Cˆme, E. (IFSTTAR)
     o                             Clustering de graph   8 D´cembre 2011
                                                            e              3 / 68
Introduction   Graphes


Introduction, graphes
Plusieurs repr´sentations
              e
    Matrice d’adjacence A :

                                     Aij = 1, si i ∼ j
                            A:
                                     Aij = 0, sinon.

    liste d’adjacence




    Cˆme, E. (IFSTTAR)
     o                            Clustering de graph    8 D´cembre 2011
                                                            e              4 / 68
Introduction   Graphes


Introduction, graphes

Plusieurs variations
    orient´ / non orient´
          e             e
    valu´ / non valu´
        e           e




    Cˆme, E. (IFSTTAR)
     o                          Clustering de graph   8 D´cembre 2011
                                                         e              5 / 68
Introduction   Graphes


Introduction, graphes

Plusieurs variations
    orient´ / non orient´
          e             e
    valu´ / non valu´
        e           e




    Cˆme, E. (IFSTTAR)
     o                          Clustering de graph   8 D´cembre 2011
                                                         e              6 / 68
Introduction   Graphes


Introduction, graphes

Plusieurs variations
    orient´ / non orient´
          e             e
    valu´ / non valu´
        e           e




    Cˆme, E. (IFSTTAR)
     o                          Clustering de graph   8 D´cembre 2011
                                                         e              7 / 68
Introduction   Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...




   Cˆme, E. (IFSTTAR)
    o                             Clustering de graph    8 D´cembre 2011
                                                            e              8 / 68
Introduction   Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...




   Cˆme, E. (IFSTTAR)
    o                             Clustering de graph    8 D´cembre 2011
                                                            e              9 / 68
Introduction   Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...




   Cˆme, E. (IFSTTAR)
    o                             Clustering de graph   8 D´cembre 2011
                                                           e              10 / 68
Introduction              Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...

                                                                                                          1
                                                                                                          2
                                                                                                          3
                                                                                                          4




                         8


                         6


                         4


                         2


                         0


                        −2


                        −4


                        −6


                        −8

                         −6   −4   −2   0   2    4   6   8   10   −8   −6   −4   −2   0   2   4   6   8




   Cˆme, E. (IFSTTAR)
    o                                           Clustering de graph                                           8 D´cembre 2011
                                                                                                                 e              11 / 68
Introduction            Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...


                        100




                        200




                        300




                        400




                        500




                        600




                        700




                        800




                        900




                        1000
                               100   200   300   400   500      600    700   800   900   1000




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph                                  8 D´cembre 2011
                                                                                                   e              12 / 68
Introduction            Graphes


Introduction, graphes
Beaucoup de domaines d’application
    r´seaux routiers, biologiques, sociaux, ....
     e
    analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
                   e
    ...


                        100




                        200




                        300




                        400




                        500




                        600




                        700




                        800




                        900




                        1000
                               100   200   300   400   500      600    700   800   900   1000




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph                                  8 D´cembre 2011
                                                                                                   e              13 / 68
Introduction   Probl´matique de la recherche de communaut´
                                                e                                    e


Probl´matique
     e



”A community could be loosely described as a collection of vertices within
a graph that are densely connected amongst themselves while being
loosely connected to the rest of the graph.”

    regrouper les nœuds d’un graphe dans diff´rents groupes ou clusters
                                              e
    ⇒ de mani`re ` ”maximiser la connectivit´ intra-cluster et/ou
               e a                            e
    minimiser la connectivit´ inter-cluster”.
                            e
    Rmq : le nombre de clusters peut ˆtre connu ou inconnu.
                                     e




    Cˆme, E. (IFSTTAR)
     o                          Clustering de graph                      8 D´cembre 2011
                                                                            e              14 / 68
Clustering de graphes, quelques m´thodes
                                               e         Mod`le de m´lange d’Erdos Renyi
                                                            e       e


Mod`le de m´lange d’Erdos Renyi
   e       e


Variables :
    Xij ∈ {0, 1} variable binaire encodant la pr´sence ou l’absence d’un
                                                e
    liens entre i et j :

                                   1, si il existe un liens entre i et j
                         xij =                                                                           (1)
                                   0, sinon.

    Zj ∈ {1, . . . , K } sont des variables latentes, d´crivant l’appartenance
                                                       e
    de j ` un des K clusters possibles :
         a

                             zj = k, si j appartient au cluster k.                                       (2)




    Cˆme, E. (IFSTTAR)
     o                                        Clustering de graph                      8 D´cembre 2011
                                                                                          e              15 / 68
Clustering de graphes, quelques m´thodes
                                                 e         Mod`le de m´lange d’Erdos Renyi
                                                              e       e


Mod`le de m´lange d’Erdos Renyi
   e       e



Mod`le g´n´ratif :
   e e e
  1   tirer le groupe de chaque noeud suivant les proportions γ
  2   ajouter un lien entre i et j avec une probabilit´ πkl si i appartient au
                                                      e
      cluster k et j appartient au cluster l.

                                              i.i.d
                                      Zj       ∼       M(1, γ),          ∀j ∈ {1, . . . , N}               (3)
                                              i.i.d
              Xij |Zi = k, Zj = l              ∼       B(πkl ),       ∀i, j ∈ {1, . . . , N},              (4)




      Cˆme, E. (IFSTTAR)
       o                                        Clustering de graph                      8 D´cembre 2011
                                                                                            e              16 / 68
Clustering de graphes, quelques m´thodes
                                              e         Mod`le de m´lange d’Erdos Renyi
                                                           e       e


Mod`le de m´lange d’Erdos Renyi
   e       e
Param`tres :
     e
    γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1)
    π : matrice de liens, exemple :
                                               
                           0.1   0.01 0.01 0.005
                       0.005 0.2 0.01 0.01 
                  π=  0.005 0.001 0.1 0.01  .
                                                

                          0.005 0.001 0.01 0.3
Recherche de communaut´ :
                      e
                                                                       
                                   α1
                                     α2                                
                                π=                                     ,
                                        α3                             
                                                                   α4

avec α >> .
   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                      8 D´cembre 2011
                                                                                         e              17 / 68
Clustering de graphes, quelques m´thodes
                                               e         Mod`le de m´lange d’Erdos Renyi
                                                            e       e


Mod`le de m´lange d’Erdos Renyi
   e       e
Optimization :
Strat´gie altern´e de type EM...
     e          e
! mais probl`me plus compliqu´ que EM classique (pas d’ind´pendance
             e                e                           e
conditionnellement aux donn´es observ´es)
                            e        e
    approche variationnelle
    CEM, online CEM
    ...

Remarques
    permet une mod´lisation assez fine (pas limit´ ` la recherche de
                  e                             ea
    communaut´)e
    k doit ˆtre fix´ ou choisi par balayage
           e      e
    assez lourd en temps de calcul (difficile de traiter des gros graphes)

    Cˆme, E. (IFSTTAR)
     o                                        Clustering de graph                      8 D´cembre 2011
                                                                                          e              18 / 68
Clustering de graphes, quelques m´thodes
                                               e          Maximisation de la modularit´
                                                                                      e


Maximisation de la modularit´
                            e

D´finition du crit`re
 e               e
La modularit´ Q est ´gale ` la somme des connectivit´s intra-cluster
            e        e      a                         e
moins la connectivit´ intra-cluster attendue sous hypoth`se uniforme.
                    e                                   e
                                                          ki kj
                                Q=             (Aij −           )δ(zi , zj ),
                                                           m
                                         i=j


avec ki = N Aij le degr´ du nœud i et m =
             j=1            e                                               N
                                                                            j=1 kj ,      zi le num´ro de
                                                                                                   e
cluster du noeud i et δ la fonction de Kronecker.

Remarques
    permet de travailler sans un nombre de clusters pr´d´fini.
                                                      e e
    assez l´ger en temps de calcul.
           e


    Cˆme, E. (IFSTTAR)
     o                                         Clustering de graph                         8 D´cembre 2011
                                                                                              e              19 / 68
Clustering de graphes, quelques m´thodes
                                              e         Maximisation de la modularit´
                                                                                    e


Maximisation de la modularit´
                            e




Optimisation
    R´cuit Simul´
     e          e
    Optimisation gloutonne Louvain
    ...




   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                        8 D´cembre 2011
                                                                                           e              20 / 68
Clustering de graphes, quelques m´thodes
                                                 e         Clustering spectral


Clustering spectral r´cursif sur graphe orient´/valu´
                     e                        e     e
L, matrice Laplacienne (graphes non orient´s) :
                                          e
                                                L=D −A                                             (5)
! f t Lf =       i∼j (fi   − fj )2 (Mesure de r´gularit´ de f sur L)
                                               e       e

L, matrice Laplacienne normalis´e (graphes non orient´s) :
                               e                     e
                           L = D −1/2 LD −1/2 = I − D −1/2 AD 1/2                                  (6)

Propri´t´s :
      ee
  1   L et L ´tant sym´triques, leurs valeurs propres sont r´elles et non
             e        e                                     e
      n´gatives.
       e
  2   0 = λ0 <= λ1 <= ... <= λn−1 .
  3   Nombre de composante connexe de G = multiplicit´ de la valeur
                                                     e
      propre 0.
      Cˆme, E. (IFSTTAR)
       o                                        Clustering de graph              8 D´cembre 2011
                                                                                    e              21 / 68
Clustering de graphes, quelques m´thodes
                                              e         Clustering spectral


D´finitions : coupe S, volume vol, ...
 e



                                                                              S




                                                                              Coupe




                                                           S




    Coupe :
                                                        ¯
                                               V = {S ∪ S}                                              (7)
   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                      8 D´cembre 2011
                                                                                         e              22 / 68
Clustering de graphes, quelques m´thodes
                                              e         Clustering spectral


D´finitions : coupe S, volume vol, ...
 e



                                                                              S




                                                                              Coupe




                                                           S




    Volume d’un noeud :
                                             vol v =               Av ,u                                (8)
                                                            u
   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                      8 D´cembre 2011
                                                                                         e              23 / 68
Clustering de graphes, quelques m´thodes
                                              e         Clustering spectral


D´finitions : coupe S, volume vol, ...
 e



                                                                              S




                                                                              Coupe




                                                           S




    Volume d’un ensemble de noeuds :
                                            vol S =                vol v                                (9)
                                                          v ∈S

   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                      8 D´cembre 2011
                                                                                         e              24 / 68
Clustering de graphes, quelques m´thodes
                                              e         Clustering spectral


D´finition : coupe S, volume vol, ...
 e



                                                                              S




                                                                              Coupe




                                                           S




    Volume d’une coupe :
                                         vol δS =                    Au,v                               (10)
                                                               ¯
                                                        u∈S,v ∈S
   Cˆme, E. (IFSTTAR)
    o                                        Clustering de graph                      8 D´cembre 2011
                                                                                         e               25 / 68
Clustering de graphes, quelques m´thodes
                                               e         Clustering spectral


Crit`res de coupes
    e



Ration Cut :
                                              ¯                 vol δS
                                  RatioCut(S, S) =                   ¯ ,                         (11)
                                                                |S|.|S|
           ¯
o` |S| et |S| sont respectivement les nombres de sommets de S et de S.
  u                                                                     ¯
Le probl`me de minimisation pour trouver la solution approxim´e se r´sout
         e                                                      e      e
` partir de la matrice laplacienne L et de son second plus petit vecteur
a
propre(cf. [HK92]).




    Cˆme, E. (IFSTTAR)
     o                                        Clustering de graph              8 D´cembre 2011
                                                                                  e               26 / 68
Clustering de graphes, quelques m´thodes
                                               e         Clustering spectral


Crit`res de coupes
    e
Conductance ou constante de Cheeger :
                                                      vol δS
                                 φG (S) =                       ¯                                (12)
                                                 min(vol S, vol S)
On peut aussi d´finir la conductance d’un graphe :
               e

                                         φG = min φG (S)                                         (13)
                                                   S⊂V


In´galit´ de cheeeger :
  e     e
                               φ2
                                G
                                  ≤ λ1 ≤ 2φG                           (14)
                                2
Ces in´galit´s permettent de consid´rer la solution relˆch´e obtenue `
       e     e                      e                  a e           a
partir de la matrice laplacienne normalis´e, comme le montre Chung dans
                                         e
[Chu07].

    Cˆme, E. (IFSTTAR)
     o                                        Clustering de graph              8 D´cembre 2011
                                                                                  e               27 / 68
Clustering de graphes, quelques m´thodes
                                               e         Clustering spectral


Crit`res de coupes
    e



Normalized Cut :
                                         1         1
                            ncut(S) = vol δS(+       ¯)                  (15)
                                       vol S    vol S
La solution relˆch´e de la minimisation de ce crit`re se trouve ` partir de
               a e                                e             a
la matrice laplacienne normalis´e L et de son second plus petit vecteur
                               e
propre (cf. [SM00]).




    Cˆme, E. (IFSTTAR)
     o                                        Clustering de graph              8 D´cembre 2011
                                                                                  e              28 / 68
Clustering de graphes, quelques m´thodes
                                                e         Clustering spectral




Algorithme de recherche coupe optimale
 1   Calcul de la matrice L ou L du graphe G (on suppose ici que le
     graphe est fortement connexe)
 2   Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur
                                       ea
     propre λ1
 3   Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L
 4   Calcul du crit`re de coupe sur chaque coupe possible de la matrice Lp
                   e
     ou Lp apr`s permutation
               e
 5   Choix de la coupe I qui minimise le crit`re parmi les n − 1 coupes
                                             e
     possibles




     Cˆme, E. (IFSTTAR)
      o                                        Clustering de graph              8 D´cembre 2011
                                                                                   e              29 / 68
Extraction locale de communaut´
                                                e




Extraction locale de communaut´
                              e




 Cˆme, E. (IFSTTAR)
  o                                      Clustering de graph   8 D´cembre 2011
                                                                  e              30 / 68
Extraction locale de communaut´
                                                   e   Probl´matique
                                                            e


Introduction



Motivations Extraction de communaut´
                                   e
    Extraire une communaut´ en partant d’un ensemble de graines
                          e
    Algorithme ”On line”, complexit´ ∼ taille de la communaut´
                                   e                         e

Solution : Noise cluster model
    Mod`le g´n´ratif simple
       e    e e
    Une communaut´ environn´e par du bruit
                 e         e




    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph        8 D´cembre 2011
                                                                          e              31 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Introduction, (exemple jouet)




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              32 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Introduction, (graphe clustering)




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              33 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Introduction, (graines)




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              34 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Introduction, (extraction d’une communaut´)
                                         e




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              35 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Introduction, (community extraction)




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              36 / 68
Extraction locale de communaut´
                                                  e   Probl´matique
                                                           e


Avantages




   les graines permettent d’avoir un focus pour analyser le graphe
   meilleure complexit´
                      e
   exploration du graphe complet ´vit´e
                                 e e
   moins de probl`me avec des tailles de communaut´s diff´rentes
                 e                                e     e




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph        8 D´cembre 2011
                                                                         e              37 / 68
Extraction locale de communaut´
                                                  e   Solutions existantes


Solutions existantes au probl`me de l’extraction
                             e


Bagrow & al [BB05]
    Parcours en largeur d’abord du graph en partant d’une graine ;
    jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuil
    pr´d´fini. (i.e. la proportion de liens trouv´s au niveau courant qui ne
      e e                                       e
    m`nent pas ` des noeuds d´j` connus)
      e          a               ea

Probl`mes
     e
    Uniquement une graˆ
                      ıne
    Tous les noeuds d’un niveau sont inclus.




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph               8 D´cembre 2011
                                                                                e              38 / 68
Extraction locale de communaut´
                                                   e   Solutions existantes


Solutions existantes au probl`me de l’extraction
                             e
Clauset [Cla05]
    optimisation gloutonne ` partir d’une graine d’un crit`re ”modularit´
                           a                              e             e
    locale” Qloc ;
    fronti`re B : ensemble des noeuds ayant un voisin encore inconnu ;
          e
    ”modularit´ locale” : nombre de liens entre B et l’ensemble des
              e
    noeuds connus C diviser par le nombre total de liens ayant au moins
    une extr´mit´ dans B.
            e e
                            i∈C,j∈B Bij +       i∈B,j∈C Bij
                  Qloc =                                    ,        (16)
                                        i,j Bij

avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient ` B.
                                                             a

Probl`mes
     e
    Ne peut prendre en compte qu’une graˆ
                                        ıne
    d´finition et choix du crit`re d’arrˆt
     e                        e        e
    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph               8 D´cembre 2011
                                                                                 e              39 / 68
Extraction locale de communaut´
                                                   e   Solutions existantes


Solutions existantes au probl`me de l’extraction
                             e



Autres solutions
    [AL06] marche al´atoire et conductance
                    e
    [SG10] optimisation combinatoire

Probl`me
     e
    complexit´ d´pend de la taille du graphe.
             e e




    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph               8 D´cembre 2011
                                                                                 e              40 / 68
Extraction locale de communaut´
                                                   e    Noise cluster model


Noise cluster model

D´finition du mod`le
 e              e

                                         i.i.d
                                  Zi      ∼       B(γ),           ∀i ∈ {1, . . . , N},                (17)
                                         i.i.d
              Xij |Zi × Zj = 1            ∼       B(α),           ∀i, j ∈ {1, . . . , N},             (18)
                                         i.i.d
              Xij |Zi × Zj = 0            ∼       B(β),           ∀i, j ∈ {1, . . . , N},             (19)

avec zi = 1, si i appartient ` la communaut´ et 0 sinon.
                             a             e

                                                       α β
                                          π=               ,
                                                       β β

avec α >> β.



    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph                     8 D´cembre 2011
                                                                                       e               41 / 68
Extraction locale de communaut´
                                                   e     Noise cluster model




Notations :
    Taille de la communaut´ :
                          e

                                                Nc =               zi
                                                             i

    Degr´s :
        e

              djin =               xij ,   djout =               xji ,   dj =         (xij + xji )
                         i:zi =1                       i:zi =1                  i:zi =1

    Probabilit´ a posteriori :
              e

           pjin = P(Zj = 1|Xij = xij , Zi = zi , ∀i ∈ {1, . . . , N}),
         pjout    = P(Zj = 1|Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}),
      pjin,out    = P(Zj = 1|Xij = xij , Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}),


    Cˆme, E. (IFSTTAR)
     o                                       Clustering de graph                          8 D´cembre 2011
                                                                                             e              42 / 68
Extraction locale de communaut´
                                                    e   Noise cluster model




Simplifications :
Avec ce mod`le les probabilit´s a posteriori se simplifient :
           e                 e
    param`tres (α, β, γ) ;
         e
    nombre de liens avec la communaut´ (djin , djout , djin,out ) ;
                                     e
    taille de la communaut´ (Nc) ;
                          e

Exemple pour pjin

                                             in                          in
                                         αdj × (1 − α)(Nc−dj ) × γ
 pjin =          in                          in                    in            in
             αdj × (1 − α)(Nc−dj ) × γ + β dj × (1 − β)(Nc−dj ) × (1 − γ)




    Cˆme, E. (IFSTTAR)
     o                                       Clustering de graph              8 D´cembre 2011
                                                                                 e              43 / 68
Extraction locale de communaut´
                                                      e   Noise cluster model




Test d’appartenance ` la communaut´
                    a             e
Test d’appartenance ` la communaut´ : seuil sur le nombre de liens avec
                    a             e
les membres de la communaut´.
                            e

                                   {pjin > s} ⇔ {djin > dmin },                                   (20)

with

              log s × (1 − β)Nc × (1 − γ) − log (1 − s) × (1 − α)Nc × γ
dmin =
                          log (α × (1 − β)) − log ((1 − α) × β)




       Cˆme, E. (IFSTTAR)
        o                                      Clustering de graph              8 D´cembre 2011
                                                                                   e               44 / 68
Extraction locale de communaut´
                                                   e                       Noise cluster model


                                                  alpha=0.1,beta=0.001,gamma=0.05,Nc=200

                                                 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq




                            0.8
                     pc

                            0.4
                                             q




                            0.0
                                      qqqq


                                  0                 10              20          30          40   50

                                                                          din



                                                         alpha=0.1,beta=0.001,gamma=0.05
                            10
                            8
                     dmin

                            6
                            4
                            2




                                      0                   100             200         300        400

                                                                          Nc




Fig.: (haut) valeur de pjin en fonction de djin avec α = 0.1, β = 0.001, γ = 0.05
et Nc = 200 ; (bas) ´volution du seuil dmin par rapport ` Nc avec α = 0.1,
                    e                                    a
β = 0.001, γ = 0.05 et s = 0.5.

    Cˆme, E. (IFSTTAR)
     o                                                          Clustering de graph                    8 D´cembre 2011
                                                                                                          e              45 / 68
Extraction locale de communaut´
                                                         e    Noise cluster model


Apprentissage des param`tres ”CEM on line”[ZAM08]
                       e

Vraisemblance classifiante :

  Lc (X, Z, θ) =                zi log(γ) +              (1 − zi ) log(1 − γ)
                            i                       i

         +               zi × zj × xij log(α) +                     zi × zj (1 − ×xij ) log(1 − α)
               i,j:i=j                                    i,j:i=j

+             (1 − zi × zj ) × xij log(β) +                       (1 − zi × zj ) × (1 − xij ) log(1 − β)
    i,j:i=j                                             i,j:i=j

avec Z = {z1 , . . . , zN }, X = {xij : i = j, i, j ∈ {1, . . . , N}}, et θ = (γ, α, β)
le vecteur de param`tres.
                        e



      Cˆme, E. (IFSTTAR)
       o                                          Clustering de graph                  8 D´cembre 2011
                                                                                          e              46 / 68
Extraction locale de communaut´
                                                   e    Noise cluster model


Apprentissage des param`tres ”CEM on line”[ZAM08]
                       e


Si la partition Z = {z1 , . . . , zN } est connue, les param`tres maximisant la
                                                            e
vraisemblance classifiante sont donn´es par :
                                           e
                             Nc
                 γ =
                 ˆ              ,                                                                    (21)
                             N
                                       N
                              1
                 α =
                 ˆ             2
                                                (zi × zj )xij ,                                      (22)
                             Nc
                                   i,j=1, i=j
                                                           N
                 ˆ                 1
                 β =                                                (1 − zi × zj )xij ,              (23)
                             Nc × (N + Nc )
                              ¯
                                                       i,j=1, i=j

avec Nc = N − Nc .
      ¯




    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph                    8 D´cembre 2011
                                                                                      e               47 / 68
Extraction locale de communaut´
                                                     e   Noise cluster model


Proc´dure d’extraction propos´e
    e                        e


Algorithme
Coupl´ un algorithme de parcours de graphe en largeur (en partant des
      e
graines) avec la proc´dure suivante,
                     e
Pour chaque noeuds travers´ :
                            e
  1   utiliser le test d’appartenance d´finit pr´c´demment (20) pour
                                       e       e e
      l’ajouter ou non ` la communaut´
                         a               e
  2   mettre ` jour les param`tres (21, 22, 23), en utilisant la partition
             a               e
      courante
Jusqu’` ce qu’aucun noeud ne passe le test d’appartenance.
      a




      Cˆme, E. (IFSTTAR)
       o                                      Clustering de graph              8 D´cembre 2011
                                                                                  e              48 / 68
Extraction locale de communaut´
                                                   e   Exp´rimentation : extraction de communaut´s de blogs
                                                          e                                     e


Exp´rimentation : extraction de communaut´s de blogs
   e                                     e




Protocole :
    crawler multi-thread utilisant l’algorithme pr´c´dent ;
                                                  e e
    graˆ
       ınes : classement de blogs pour diff´rentes cat´gories ( URLs
                                          e          e
    http ://www.wikio.com)
    100 ou 50 graines pour 4 communaut´s test :
                                      e




    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph                       8 D´cembre 2011
                                                                                         e                    49 / 68
Extraction locale de communaut´
                                                   e   Exp´rimentation : extraction de communaut´s de blogs
                                                          e                                     e


Extraction de communaut´s de blogs
                       e

          Illustration (fr)         Scrapbooking (fr)               Cuisine(fr)          Politics (en)
  α
  ˆ       0.01829                   0.02955                         0.03846              0.02004
  ˆ
  β       0.00094                   0.00232                         0.00209              0.00068
  ˆ α
  β/ˆ     0.05139                   0.07851                         0.05434              0.03393
  Nc      1 360                     701                             622                  1 808
  N       37 101                    13 467                          16 364               84 702
  dia     8                         8                               6                    7
  apl     3.059                     2.749                           2.71                 3.014
               e         e ˆ ˆ
Tab.: Param`tres estim´es α, β et statistiques descriptives des communaut´s
                                                                         e
extraites : dia diam`tre, apl longueur moyen des chemin entre membres de la
                    e
communaut´.  e




    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph                       8 D´cembre 2011
                                                                                         e                    50 / 68
Extraction locale de communaut´
                                                   e   Exp´rimentation : extraction de communaut´s de blogs
                                                          e                                     e


Extraction de communaut´s de blogs
                       e
  Community                    Precision         Vocabulary extracted
  Illustration (fr)              99%             (animation 34.37%, drawing 28.96%,
                                                 illustration 25.30%, sketches 24.55%,
                                                 world 20.31%,...)
  Scrapbooking (fr)               98%            (scrap 84.16%, scrapbooking 58.24%,
                                                 tampons 47.71%, scrapper 29.58%,
                                                 embellissements 22.53%,...)
  Cooking (fr)                   100%            (cuisine 83.72%, recettes 79.45%, re-
                                                 cette 73.81%, chocolat 68.73%, sucre
                                                 64.14%,...)
  Politics (en)                   96%            (senate      28.78%,     conservatives
                                                 21.12%, pundit 20.11%, terrorism
                                                 19.76%, congressional 19.25%,...)
Tab.: Analyse du contenue. Pr´cision ´valu´e sur 100 blogs au hasard,
                                e    e     e
vocabulaire repr´sentatif de la communaut´.
                e                        e

    Cˆme, E. (IFSTTAR)
     o                                      Clustering de graph                       8 D´cembre 2011
                                                                                         e                    51 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                                  Fig.: Illustration (fr).



Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    52 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                               Fig.: Scrapbooking (fr).




Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    53 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                                    Fig.: Cuisine (fr).




Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    54 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                                    Fig.: Cuisine (fr).




Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    55 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                                    Fig.: Politics (en).




Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    56 / 68
Extraction locale de communaut´
                                               e   Exp´rimentation : extraction de communaut´s de blogs
                                                      e                                     e




                                    Fig.: Politics (en).

Cˆme, E. (IFSTTAR)
 o                                      Clustering de graph                       8 D´cembre 2011
                                                                                     e                    57 / 68
Extraction locale de communaut´
                                                  e   Exp´rimentation : extraction de communaut´s de blogs
                                                         e                                     e


Conclusion




Conclusion
    approche gloutonne simple ;
    complexit´ ∼ taille de la communaut´ ;
             e                         e
    extraction de communaut´s de blogs
                           e




   Cˆme, E. (IFSTTAR)
    o                                      Clustering de graph                       8 D´cembre 2011
                                                                                        e                    58 / 68
Clustering hi´rarchique / multi-´chelles
                         e                  e




             Clustering
   hi´rarchique / multi-´chelles
     e                  e




Cˆme, E. (IFSTTAR)
 o                                          Clustering de graph   8 D´cembre 2011
                                                                     e              59 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Probl´matique
                                                                e


Probl´matique
     e

Introduction
Analyse de graphe pr´sentant diff´rentes ´chelles d’analyse pertinentes :
                     e          e       e
R´gionales, Aire urbaines, ...
 e

Piste ´tudi´e
      e    e
Mise en relation des pˆles urbains ´l´mentaires grˆce ` des donn´es
                       o           ee             a a           e
relatives au transport :
    flux (domicile-travail/´cole et autres)
                          e
    infrastructures (transports en commun et individuels)
Traitement sous forme de graphe, aspect multi-´chelle et hi´rarchique.
                                              e            e
Recherche de communaut´s, clustering de graphe :
                        e
    clustering spectral r´cursif [Gleich06,Chung05]
                         e
    maximisation de la modularit´ hi´rarchique [Newman04]
                                e e

    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph        8 D´cembre 2011
                                                                              e              60 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Clustering spectral sur graphes orient´s
                                                                                                 e


Extension aux graphes orient´s
                            e


Matrice laplacienne normalis´e dirig´e :
                            e       e
                               1
            L = L(G ) = I − (Π1/2 PΠ−1/2 + Π−1/2 PΠ1/2 ),
                     ˜                                                 (24)
                               2
o` P est la matrice de transition associ´ ` G ; Π est la matrice diagonale
 u                                      ea
form´e par π la distribution stationnaire de la marche al´atoire.
    e                                                    e

Avantages :
    extension des notions de coupe, volumes ...
    permet de se ramener ` une matrice sym´trique
                         a                e




    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph                          8 D´cembre 2011
                                                                                                e              61 / 68
Clustering hi´rarchique / multi-´chelles
                               e                  e          Extension hi´rarchique
                                                                         e


Extension aux graphes orient´s
                            e

Algorithme de clustering hi´rarchique
                           e
  1   Calcul de la matrice laplacienne dirig´e L du graphe G
                                            e
  2   S´paration de G en composantes connexes et application des ´tapes
       e                                                         e
      suivantes sur chaque composante
  3   Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur
                                        ea
      propre
  4   Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L
  5   Calcul du crit`re ncut, ou ϕ sur la matrice Lp1 apr`s permutation
                    e                                    e
  6   Choix de la coupe I qui minimise le crit`re choisi sur Lp1
                                              e
  7   Application r´cursive des ´tapes 2 ` 7 sur les partitions engendr´es
                   e             e         a                           e
      par la coupe I , tant que les partitions obtenues sont de taille
      sup´rieure ` p (la taille minimale d´finie initialement).
         e       a                          e


      Cˆme, E. (IFSTTAR)
       o                                          Clustering de graph                 8 D´cembre 2011
                                                                                         e              62 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Exp´rimentation : Identification d’aires urbaines
                                                              e


Exp´rimentation : Identification d’aires urbaines
   e
Donn´es
    e
Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´.
                                                    e     e
37 948 communes=communes, 1 560 058 arcs.




                              Fig.:     Matrice d’adjacence ordonn´e al´atoirement.
                                                                  e    e

    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph                         8 D´cembre 2011
                                                                                               e              63 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Exp´rimentation : Identification d’aires urbaines
                                                              e


Exp´rimentation : Identification d’aires urbaines
   e
Donn´es
    e
Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´.
                                                    e     e
37 948 communes=communes, 1 560 058 arcs.




                         Fig.:     Matrice d’adjacence ordonn´e par clustering spectral.
                                                             e

    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph                         8 D´cembre 2011
                                                                                               e              64 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Exp´rimentation : Identification d’aires urbaines
                                                              e


Exp´rimentation : Identification d’aires urbaines
   e




                                                                            Région Nord-Est de la France :
                                                                            Champagne-Ardenne
                                                                            Alsace
                                                                            Lorraine
                                                                            Franche-Comté
                                                                            (+département de l'Aisne)

                                                                            Flux transfrontaliers :
                                                                            Belgique, Luxembourg,
                                                                            Allemagne, Suisse




Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
                                                                  e
Premier niveau : cluster de communes du Nord-Est de la France



    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph                                          8 D´cembre 2011
                                                                                                                e              65 / 68
Clustering hi´rarchique / multi-´chelles
                              e                  e          Exp´rimentation : Identification d’aires urbaines
                                                               e


Exp´rimentation : Identification d’aires urbaines
   e




                                                                             Région Est de la France :
                                                                             Alsace
                                                                             Franche-Comté
                                                                             (+départements Haute-Marne
                                                                             et Vosges)

                                                                             Flux transfrontaliers :
                                                                             Allemagne, Suisse




Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
                                                                   e
Deuxi`me niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau)
     e



     Cˆme, E. (IFSTTAR)
      o                                          Clustering de graph                                      8 D´cembre 2011
                                                                                                             e              66 / 68
Clustering hi´rarchique / multi-´chelles
                             e                  e          Exp´rimentation : Identification d’aires urbaines
                                                              e


Exp´rimentation : Identification d’aires urbaines
   e




                                                                         Régions Est :
                                                                         Centrée certaines communes du Doubs :
                                                                         Cantons de Morteau, Montbenoit,
                                                                         Russey, Vercel, Pierrefontaine les Varans,
                                                                         Clerval


                                                                         Et de certaines communes Suisse
                                                                         au Nord de Neuchâtel




Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
                                                                  e
Troisi`me niveau : cluster de communes du Doubs (zoom sur le 2`me niveau)
      e                                                       e



    Cˆme, E. (IFSTTAR)
     o                                          Clustering de graph                                                   8 D´cembre 2011
                                                                                                                         e              67 / 68
Clustering hi´rarchique / multi-´chelles
                         e                  e          Exp´rimentation : Identification d’aires urbaines
                                                          e

R. Andersen and K. Lang.
Communities from seed sets.
In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.
ACM Press, 2006.
J.P. Bagrow and E.M. Bollt.
A local method for detecting communities.
Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.

F. Chung.
Four proofs for the cheeger inequality and graph partition algorithms.
In Proceedings of ICCM, volume 2, pages 751–772, 2007.

A. Clauset.
Finding local community structure in networks.
Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.

L. Hagen and A.B. Kahng.
New spectral methods for ratio cut partitioning and clustering.
11(9) :1074–1085, 1992.
M. Sozio and A. Gionis.
The community-search problem and how to plan a successful cocktail party.
In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and Data
Mining (KDD), pages –, 2010.

J. Shi and J. Malik.
Normalized cuts and image segmentation.
22(8) E. (IFSTTAR)2000.
Cˆme, :888–905,
 o                              Clustering de graph                                     8 D´cembre 2011
                                                                                           e              68 / 68

Mais conteúdo relacionado

Último

Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxShinyaHilalYamanaka
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkRefRama
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxrajaakiass01
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Technologia Formation
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...Universidad Complutense de Madrid
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfssuserc72852
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Coursebenezerngoran
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKNassimaMdh
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLElebaobabbleu
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxabdououanighd
 

Último (20)

Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 

Destaque

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destaque (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Presentation Tisic 2011

  • 1. Pr´sentation de quelques m´thodes et applications de e e clustering de graphes Etienne Cˆme, o etienne.come@ifsttar.fr 8 D´cembre 2011 e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 1 / 68
  • 2. Outline 1 Introduction Graphes Probl´matique de la recherche de communaut´ e e 2 Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Maximisation de la modularit´e Clustering spectral 3 Extraction locale de communaut´ e Probl´matique e Solutions existantes Noise cluster model Exp´rimentation : extraction de communaut´s de blogs e e 4 Clustering hi´rarchique / multi-´chelles e e Probl´matique e Clustering spectral sur graphes orient´s e Extension hi´rarchique e Exp´rimentation : Identification d’aires urbaines e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 2 / 68
  • 3. Introduction Graphes Introduction, graphes Graphe Deux ´l´ments G = {V , E } : ee V : nœuds ou sommets E : liens, arcs (orient´) ou arˆtes (non-orient´) e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 3 / 68
  • 4. Introduction Graphes Introduction, graphes Plusieurs repr´sentations e Matrice d’adjacence A : Aij = 1, si i ∼ j A: Aij = 0, sinon. liste d’adjacence Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 4 / 68
  • 5. Introduction Graphes Introduction, graphes Plusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 5 / 68
  • 6. Introduction Graphes Introduction, graphes Plusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 6 / 68
  • 7. Introduction Graphes Introduction, graphes Plusieurs variations orient´ / non orient´ e e valu´ / non valu´ e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 7 / 68
  • 8. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 8 / 68
  • 9. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 9 / 68
  • 10. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 10 / 68
  • 11. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 1 2 3 4 8 6 4 2 0 −2 −4 −6 −8 −6 −4 −2 0 2 4 6 8 10 −8 −6 −4 −2 0 2 4 6 8 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 11 / 68
  • 12. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 12 / 68
  • 13. Introduction Graphes Introduction, graphes Beaucoup de domaines d’application r´seaux routiers, biologiques, sociaux, .... e analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv e ... 100 200 300 400 500 600 700 800 900 1000 100 200 300 400 500 600 700 800 900 1000 Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 13 / 68
  • 14. Introduction Probl´matique de la recherche de communaut´ e e Probl´matique e ”A community could be loosely described as a collection of vertices within a graph that are densely connected amongst themselves while being loosely connected to the rest of the graph.” regrouper les nœuds d’un graphe dans diff´rents groupes ou clusters e ⇒ de mani`re ` ”maximiser la connectivit´ intra-cluster et/ou e a e minimiser la connectivit´ inter-cluster”. e Rmq : le nombre de clusters peut ˆtre connu ou inconnu. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 14 / 68
  • 15. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Mod`le de m´lange d’Erdos Renyi e e Variables : Xij ∈ {0, 1} variable binaire encodant la pr´sence ou l’absence d’un e liens entre i et j : 1, si il existe un liens entre i et j xij = (1) 0, sinon. Zj ∈ {1, . . . , K } sont des variables latentes, d´crivant l’appartenance e de j ` un des K clusters possibles : a zj = k, si j appartient au cluster k. (2) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 15 / 68
  • 16. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Mod`le de m´lange d’Erdos Renyi e e Mod`le g´n´ratif : e e e 1 tirer le groupe de chaque noeud suivant les proportions γ 2 ajouter un lien entre i et j avec une probabilit´ πkl si i appartient au e cluster k et j appartient au cluster l. i.i.d Zj ∼ M(1, γ), ∀j ∈ {1, . . . , N} (3) i.i.d Xij |Zi = k, Zj = l ∼ B(πkl ), ∀i, j ∈ {1, . . . , N}, (4) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 16 / 68
  • 17. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Mod`le de m´lange d’Erdos Renyi e e Param`tres : e γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1) π : matrice de liens, exemple :   0.1 0.01 0.01 0.005 0.005 0.2 0.01 0.01  π= 0.005 0.001 0.1 0.01  .  0.005 0.001 0.01 0.3 Recherche de communaut´ : e   α1  α2  π= ,  α3  α4 avec α >> . Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 17 / 68
  • 18. Clustering de graphes, quelques m´thodes e Mod`le de m´lange d’Erdos Renyi e e Mod`le de m´lange d’Erdos Renyi e e Optimization : Strat´gie altern´e de type EM... e e ! mais probl`me plus compliqu´ que EM classique (pas d’ind´pendance e e e conditionnellement aux donn´es observ´es) e e approche variationnelle CEM, online CEM ... Remarques permet une mod´lisation assez fine (pas limit´ ` la recherche de e ea communaut´)e k doit ˆtre fix´ ou choisi par balayage e e assez lourd en temps de calcul (difficile de traiter des gros graphes) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 18 / 68
  • 19. Clustering de graphes, quelques m´thodes e Maximisation de la modularit´ e Maximisation de la modularit´ e D´finition du crit`re e e La modularit´ Q est ´gale ` la somme des connectivit´s intra-cluster e e a e moins la connectivit´ intra-cluster attendue sous hypoth`se uniforme. e e ki kj Q= (Aij − )δ(zi , zj ), m i=j avec ki = N Aij le degr´ du nœud i et m = j=1 e N j=1 kj , zi le num´ro de e cluster du noeud i et δ la fonction de Kronecker. Remarques permet de travailler sans un nombre de clusters pr´d´fini. e e assez l´ger en temps de calcul. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 19 / 68
  • 20. Clustering de graphes, quelques m´thodes e Maximisation de la modularit´ e Maximisation de la modularit´ e Optimisation R´cuit Simul´ e e Optimisation gloutonne Louvain ... Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 20 / 68
  • 21. Clustering de graphes, quelques m´thodes e Clustering spectral Clustering spectral r´cursif sur graphe orient´/valu´ e e e L, matrice Laplacienne (graphes non orient´s) : e L=D −A (5) ! f t Lf = i∼j (fi − fj )2 (Mesure de r´gularit´ de f sur L) e e L, matrice Laplacienne normalis´e (graphes non orient´s) : e e L = D −1/2 LD −1/2 = I − D −1/2 AD 1/2 (6) Propri´t´s : ee 1 L et L ´tant sym´triques, leurs valeurs propres sont r´elles et non e e e n´gatives. e 2 0 = λ0 <= λ1 <= ... <= λn−1 . 3 Nombre de composante connexe de G = multiplicit´ de la valeur e propre 0. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 21 / 68
  • 22. Clustering de graphes, quelques m´thodes e Clustering spectral D´finitions : coupe S, volume vol, ... e S Coupe S Coupe : ¯ V = {S ∪ S} (7) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 22 / 68
  • 23. Clustering de graphes, quelques m´thodes e Clustering spectral D´finitions : coupe S, volume vol, ... e S Coupe S Volume d’un noeud : vol v = Av ,u (8) u Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 23 / 68
  • 24. Clustering de graphes, quelques m´thodes e Clustering spectral D´finitions : coupe S, volume vol, ... e S Coupe S Volume d’un ensemble de noeuds : vol S = vol v (9) v ∈S Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 24 / 68
  • 25. Clustering de graphes, quelques m´thodes e Clustering spectral D´finition : coupe S, volume vol, ... e S Coupe S Volume d’une coupe : vol δS = Au,v (10) ¯ u∈S,v ∈S Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 25 / 68
  • 26. Clustering de graphes, quelques m´thodes e Clustering spectral Crit`res de coupes e Ration Cut : ¯ vol δS RatioCut(S, S) = ¯ , (11) |S|.|S| ¯ o` |S| et |S| sont respectivement les nombres de sommets de S et de S. u ¯ Le probl`me de minimisation pour trouver la solution approxim´e se r´sout e e e ` partir de la matrice laplacienne L et de son second plus petit vecteur a propre(cf. [HK92]). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 26 / 68
  • 27. Clustering de graphes, quelques m´thodes e Clustering spectral Crit`res de coupes e Conductance ou constante de Cheeger : vol δS φG (S) = ¯ (12) min(vol S, vol S) On peut aussi d´finir la conductance d’un graphe : e φG = min φG (S) (13) S⊂V In´galit´ de cheeeger : e e φ2 G ≤ λ1 ≤ 2φG (14) 2 Ces in´galit´s permettent de consid´rer la solution relˆch´e obtenue ` e e e a e a partir de la matrice laplacienne normalis´e, comme le montre Chung dans e [Chu07]. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 27 / 68
  • 28. Clustering de graphes, quelques m´thodes e Clustering spectral Crit`res de coupes e Normalized Cut : 1 1 ncut(S) = vol δS(+ ¯) (15) vol S vol S La solution relˆch´e de la minimisation de ce crit`re se trouve ` partir de a e e a la matrice laplacienne normalis´e L et de son second plus petit vecteur e propre (cf. [SM00]). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 28 / 68
  • 29. Clustering de graphes, quelques m´thodes e Clustering spectral Algorithme de recherche coupe optimale 1 Calcul de la matrice L ou L du graphe G (on suppose ici que le graphe est fortement connexe) 2 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur ea propre λ1 3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L 4 Calcul du crit`re de coupe sur chaque coupe possible de la matrice Lp e ou Lp apr`s permutation e 5 Choix de la coupe I qui minimise le crit`re parmi les n − 1 coupes e possibles Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 29 / 68
  • 30. Extraction locale de communaut´ e Extraction locale de communaut´ e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 30 / 68
  • 31. Extraction locale de communaut´ e Probl´matique e Introduction Motivations Extraction de communaut´ e Extraire une communaut´ en partant d’un ensemble de graines e Algorithme ”On line”, complexit´ ∼ taille de la communaut´ e e Solution : Noise cluster model Mod`le g´n´ratif simple e e e Une communaut´ environn´e par du bruit e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 31 / 68
  • 32. Extraction locale de communaut´ e Probl´matique e Introduction, (exemple jouet) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 32 / 68
  • 33. Extraction locale de communaut´ e Probl´matique e Introduction, (graphe clustering) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 33 / 68
  • 34. Extraction locale de communaut´ e Probl´matique e Introduction, (graines) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 34 / 68
  • 35. Extraction locale de communaut´ e Probl´matique e Introduction, (extraction d’une communaut´) e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 35 / 68
  • 36. Extraction locale de communaut´ e Probl´matique e Introduction, (community extraction) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 36 / 68
  • 37. Extraction locale de communaut´ e Probl´matique e Avantages les graines permettent d’avoir un focus pour analyser le graphe meilleure complexit´ e exploration du graphe complet ´vit´e e e moins de probl`me avec des tailles de communaut´s diff´rentes e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 37 / 68
  • 38. Extraction locale de communaut´ e Solutions existantes Solutions existantes au probl`me de l’extraction e Bagrow & al [BB05] Parcours en largeur d’abord du graph en partant d’une graine ; jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuil pr´d´fini. (i.e. la proportion de liens trouv´s au niveau courant qui ne e e e m`nent pas ` des noeuds d´j` connus) e a ea Probl`mes e Uniquement une graˆ ıne Tous les noeuds d’un niveau sont inclus. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 38 / 68
  • 39. Extraction locale de communaut´ e Solutions existantes Solutions existantes au probl`me de l’extraction e Clauset [Cla05] optimisation gloutonne ` partir d’une graine d’un crit`re ”modularit´ a e e locale” Qloc ; fronti`re B : ensemble des noeuds ayant un voisin encore inconnu ; e ”modularit´ locale” : nombre de liens entre B et l’ensemble des e noeuds connus C diviser par le nombre total de liens ayant au moins une extr´mit´ dans B. e e i∈C,j∈B Bij + i∈B,j∈C Bij Qloc = , (16) i,j Bij avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient ` B. a Probl`mes e Ne peut prendre en compte qu’une graˆ ıne d´finition et choix du crit`re d’arrˆt e e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 39 / 68
  • 40. Extraction locale de communaut´ e Solutions existantes Solutions existantes au probl`me de l’extraction e Autres solutions [AL06] marche al´atoire et conductance e [SG10] optimisation combinatoire Probl`me e complexit´ d´pend de la taille du graphe. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 40 / 68
  • 41. Extraction locale de communaut´ e Noise cluster model Noise cluster model D´finition du mod`le e e i.i.d Zi ∼ B(γ), ∀i ∈ {1, . . . , N}, (17) i.i.d Xij |Zi × Zj = 1 ∼ B(α), ∀i, j ∈ {1, . . . , N}, (18) i.i.d Xij |Zi × Zj = 0 ∼ B(β), ∀i, j ∈ {1, . . . , N}, (19) avec zi = 1, si i appartient ` la communaut´ et 0 sinon. a e α β π= , β β avec α >> β. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 41 / 68
  • 42. Extraction locale de communaut´ e Noise cluster model Notations : Taille de la communaut´ : e Nc = zi i Degr´s : e djin = xij , djout = xji , dj = (xij + xji ) i:zi =1 i:zi =1 i:zi =1 Probabilit´ a posteriori : e pjin = P(Zj = 1|Xij = xij , Zi = zi , ∀i ∈ {1, . . . , N}), pjout = P(Zj = 1|Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}), pjin,out = P(Zj = 1|Xij = xij , Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}), Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 42 / 68
  • 43. Extraction locale de communaut´ e Noise cluster model Simplifications : Avec ce mod`le les probabilit´s a posteriori se simplifient : e e param`tres (α, β, γ) ; e nombre de liens avec la communaut´ (djin , djout , djin,out ) ; e taille de la communaut´ (Nc) ; e Exemple pour pjin in in αdj × (1 − α)(Nc−dj ) × γ pjin = in in in in αdj × (1 − α)(Nc−dj ) × γ + β dj × (1 − β)(Nc−dj ) × (1 − γ) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 43 / 68
  • 44. Extraction locale de communaut´ e Noise cluster model Test d’appartenance ` la communaut´ a e Test d’appartenance ` la communaut´ : seuil sur le nombre de liens avec a e les membres de la communaut´. e {pjin > s} ⇔ {djin > dmin }, (20) with log s × (1 − β)Nc × (1 − γ) − log (1 − s) × (1 − α)Nc × γ dmin = log (α × (1 − β)) − log ((1 − α) × β) Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 44 / 68
  • 45. Extraction locale de communaut´ e Noise cluster model alpha=0.1,beta=0.001,gamma=0.05,Nc=200 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq 0.8 pc 0.4 q 0.0 qqqq 0 10 20 30 40 50 din alpha=0.1,beta=0.001,gamma=0.05 10 8 dmin 6 4 2 0 100 200 300 400 Nc Fig.: (haut) valeur de pjin en fonction de djin avec α = 0.1, β = 0.001, γ = 0.05 et Nc = 200 ; (bas) ´volution du seuil dmin par rapport ` Nc avec α = 0.1, e a β = 0.001, γ = 0.05 et s = 0.5. Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 45 / 68
  • 46. Extraction locale de communaut´ e Noise cluster model Apprentissage des param`tres ”CEM on line”[ZAM08] e Vraisemblance classifiante : Lc (X, Z, θ) = zi log(γ) + (1 − zi ) log(1 − γ) i i + zi × zj × xij log(α) + zi × zj (1 − ×xij ) log(1 − α) i,j:i=j i,j:i=j + (1 − zi × zj ) × xij log(β) + (1 − zi × zj ) × (1 − xij ) log(1 − β) i,j:i=j i,j:i=j avec Z = {z1 , . . . , zN }, X = {xij : i = j, i, j ∈ {1, . . . , N}}, et θ = (γ, α, β) le vecteur de param`tres. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 46 / 68
  • 47. Extraction locale de communaut´ e Noise cluster model Apprentissage des param`tres ”CEM on line”[ZAM08] e Si la partition Z = {z1 , . . . , zN } est connue, les param`tres maximisant la e vraisemblance classifiante sont donn´es par : e Nc γ = ˆ , (21) N N 1 α = ˆ 2 (zi × zj )xij , (22) Nc i,j=1, i=j N ˆ 1 β = (1 − zi × zj )xij , (23) Nc × (N + Nc ) ¯ i,j=1, i=j avec Nc = N − Nc . ¯ Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 47 / 68
  • 48. Extraction locale de communaut´ e Noise cluster model Proc´dure d’extraction propos´e e e Algorithme Coupl´ un algorithme de parcours de graphe en largeur (en partant des e graines) avec la proc´dure suivante, e Pour chaque noeuds travers´ : e 1 utiliser le test d’appartenance d´finit pr´c´demment (20) pour e e e l’ajouter ou non ` la communaut´ a e 2 mettre ` jour les param`tres (21, 22, 23), en utilisant la partition a e courante Jusqu’` ce qu’aucun noeud ne passe le test d’appartenance. a Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 48 / 68
  • 49. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Exp´rimentation : extraction de communaut´s de blogs e e Protocole : crawler multi-thread utilisant l’algorithme pr´c´dent ; e e graˆ ınes : classement de blogs pour diff´rentes cat´gories ( URLs e e http ://www.wikio.com) 100 ou 50 graines pour 4 communaut´s test : e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 49 / 68
  • 50. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Extraction de communaut´s de blogs e Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en) α ˆ 0.01829 0.02955 0.03846 0.02004 ˆ β 0.00094 0.00232 0.00209 0.00068 ˆ α β/ˆ 0.05139 0.07851 0.05434 0.03393 Nc 1 360 701 622 1 808 N 37 101 13 467 16 364 84 702 dia 8 8 6 7 apl 3.059 2.749 2.71 3.014 e e ˆ ˆ Tab.: Param`tres estim´es α, β et statistiques descriptives des communaut´s e extraites : dia diam`tre, apl longueur moyen des chemin entre membres de la e communaut´. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 50 / 68
  • 51. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Extraction de communaut´s de blogs e Community Precision Vocabulary extracted Illustration (fr) 99% (animation 34.37%, drawing 28.96%, illustration 25.30%, sketches 24.55%, world 20.31%,...) Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%, tampons 47.71%, scrapper 29.58%, embellissements 22.53%,...) Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re- cette 73.81%, chocolat 68.73%, sucre 64.14%,...) Politics (en) 96% (senate 28.78%, conservatives 21.12%, pundit 20.11%, terrorism 19.76%, congressional 19.25%,...) Tab.: Analyse du contenue. Pr´cision ´valu´e sur 100 blogs au hasard, e e e vocabulaire repr´sentatif de la communaut´. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 51 / 68
  • 52. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Illustration (fr). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 52 / 68
  • 53. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Scrapbooking (fr). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 53 / 68
  • 54. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Cuisine (fr). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 54 / 68
  • 55. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Cuisine (fr). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 55 / 68
  • 56. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Politics (en). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 56 / 68
  • 57. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Fig.: Politics (en). Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 57 / 68
  • 58. Extraction locale de communaut´ e Exp´rimentation : extraction de communaut´s de blogs e e Conclusion Conclusion approche gloutonne simple ; complexit´ ∼ taille de la communaut´ ; e e extraction de communaut´s de blogs e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 58 / 68
  • 59. Clustering hi´rarchique / multi-´chelles e e Clustering hi´rarchique / multi-´chelles e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 59 / 68
  • 60. Clustering hi´rarchique / multi-´chelles e e Probl´matique e Probl´matique e Introduction Analyse de graphe pr´sentant diff´rentes ´chelles d’analyse pertinentes : e e e R´gionales, Aire urbaines, ... e Piste ´tudi´e e e Mise en relation des pˆles urbains ´l´mentaires grˆce ` des donn´es o ee a a e relatives au transport : flux (domicile-travail/´cole et autres) e infrastructures (transports en commun et individuels) Traitement sous forme de graphe, aspect multi-´chelle et hi´rarchique. e e Recherche de communaut´s, clustering de graphe : e clustering spectral r´cursif [Gleich06,Chung05] e maximisation de la modularit´ hi´rarchique [Newman04] e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 60 / 68
  • 61. Clustering hi´rarchique / multi-´chelles e e Clustering spectral sur graphes orient´s e Extension aux graphes orient´s e Matrice laplacienne normalis´e dirig´e : e e 1 L = L(G ) = I − (Π1/2 PΠ−1/2 + Π−1/2 PΠ1/2 ), ˜ (24) 2 o` P est la matrice de transition associ´ ` G ; Π est la matrice diagonale u ea form´e par π la distribution stationnaire de la marche al´atoire. e e Avantages : extension des notions de coupe, volumes ... permet de se ramener ` une matrice sym´trique a e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 61 / 68
  • 62. Clustering hi´rarchique / multi-´chelles e e Extension hi´rarchique e Extension aux graphes orient´s e Algorithme de clustering hi´rarchique e 1 Calcul de la matrice laplacienne dirig´e L du graphe G e 2 S´paration de G en composantes connexes et application des ´tapes e e suivantes sur chaque composante 3 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur ea propre 4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L 5 Calcul du crit`re ncut, ou ϕ sur la matrice Lp1 apr`s permutation e e 6 Choix de la coupe I qui minimise le crit`re choisi sur Lp1 e 7 Application r´cursive des ´tapes 2 ` 7 sur les partitions engendr´es e e a e par la coupe I , tant que les partitions obtenues sont de taille sup´rieure ` p (la taille minimale d´finie initialement). e a e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 62 / 68
  • 63. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e Exp´rimentation : Identification d’aires urbaines e Donn´es e Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´. e e 37 948 communes=communes, 1 560 058 arcs. Fig.: Matrice d’adjacence ordonn´e al´atoirement. e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 63 / 68
  • 64. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e Exp´rimentation : Identification d’aires urbaines e Donn´es e Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´. e e 37 948 communes=communes, 1 560 058 arcs. Fig.: Matrice d’adjacence ordonn´e par clustering spectral. e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 64 / 68
  • 65. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e Exp´rimentation : Identification d’aires urbaines e Région Nord-Est de la France : Champagne-Ardenne Alsace Lorraine Franche-Comté (+département de l'Aisne) Flux transfrontaliers : Belgique, Luxembourg, Allemagne, Suisse Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. e Premier niveau : cluster de communes du Nord-Est de la France Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 65 / 68
  • 66. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e Exp´rimentation : Identification d’aires urbaines e Région Est de la France : Alsace Franche-Comté (+départements Haute-Marne et Vosges) Flux transfrontaliers : Allemagne, Suisse Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. e Deuxi`me niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau) e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 66 / 68
  • 67. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e Exp´rimentation : Identification d’aires urbaines e Régions Est : Centrée certaines communes du Doubs : Cantons de Morteau, Montbenoit, Russey, Vercel, Pierrefontaine les Varans, Clerval Et de certaines communes Suisse au Nord de Neuchâtel Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation. e Troisi`me niveau : cluster de communes du Doubs (zoom sur le 2`me niveau) e e Cˆme, E. (IFSTTAR) o Clustering de graph 8 D´cembre 2011 e 67 / 68
  • 68. Clustering hi´rarchique / multi-´chelles e e Exp´rimentation : Identification d’aires urbaines e R. Andersen and K. Lang. Communities from seed sets. In Proceedings of the 15th International Conference on World Wide Web, pages 223–232. ACM Press, 2006. J.P. Bagrow and E.M. Bollt. A local method for detecting communities. Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005. F. Chung. Four proofs for the cheeger inequality and graph partition algorithms. In Proceedings of ICCM, volume 2, pages 751–772, 2007. A. Clauset. Finding local community structure in networks. Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005. L. Hagen and A.B. Kahng. New spectral methods for ratio cut partitioning and clustering. 11(9) :1074–1085, 1992. M. Sozio and A. Gionis. The community-search problem and how to plan a successful cocktail party. In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and Data Mining (KDD), pages –, 2010. J. Shi and J. Malik. Normalized cuts and image segmentation. 22(8) E. (IFSTTAR)2000. Cˆme, :888–905, o Clustering de graph 8 D´cembre 2011 e 68 / 68