SlideShare uma empresa Scribd logo
1 de 49
Baixar para ler offline
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Introduction à l’étude des grands graphes
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Travail réalisé en collaboration avec Fabrice Rossi
Institut de Mathématiques de Toulouse, France -
nathalie.villa@math.ups-tlse.fr
12 novembre 2007
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Sommaire
1 Les graphes
2 Objectifs
3 Noyau de la chaleur et cartes de Kohonen
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Sommaire
1 Les graphes
2 Objectifs
3 Noyau de la chaleur et cartes de Kohonen
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Sommets
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Sommets
Arêtes
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Exemple 1 : Les réseaux sociaux
Graphe construit à partir d’un corpus d’archives médiévales
À partir de 1000 contrats agraires du
Moyen-Âge (1250-1350), on construit un graphe :
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Exemple 2 : Réseau d’intéraction de protéines
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Exemple 3 : Graphes bipartis (marketing)
Adrien
Béatrice
Corinne
Les misérables
L’assommoir
Bel ami
Le deuxième sexe
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Qu’est-ce qu’un graphe ?
Exemple 3 : Graphes bipartis (recherche d’informations)
triste
vie
amour
La vie n’est pas triste.
Elle a des heures tristes.
Nous sommes tristes parce que
nous pleurons.
Quand il n’y a pas d’amour,
il n’y a pas de vie.
Plaisir d’amour ne dure qu’un moment,
chagrin d’amour dure toute la vie.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Pondération des arêtes
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Pondération des arêtes
3
5
7
6.15
4.35
2
4
3.4
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Pondération des arêtes
Exemple 1 : Les réseaux sociaux
Graphe construit à partir d’un corpus d’archives médiévales
À partir de 1000 contrats agraires
(1250-1350), on construit un graphe pondéré :
sommets : les paysans trouvés dans les contrats ;
poids : nombre de contrats où deux paysans sont cités
simultanément.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Pondération des arêtes
Exemple 2 : À partir d’un graphe biparti :
Adrien
Béatrice
Corinne
Les misérables
L’assommoir
Bel ami
Le deuxième sexe
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Pondération des arêtes
Exemple 2 : À partir d’un graphe biparti :
Adrien Béatrice
Corinne
1
2
11
2
1
Les misérables
L’assommoir
Bel ami
Le deuxième sexe
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Orientation des arêtes
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Orientation des arêtes
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Orientation des arêtes
Exemple 1 : Internet (ici, « blogosphère »)
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Visualiser une évolution
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Visualiser une évolution
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Visualiser une évolution
Exemple 1 : Évolution temporelle d’un caractère d’une
population
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
Étiquettes qualitatives. . .
A
B
A B
B
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
. . . ou quantitatives
(0,5 ;0,2)
(1,3 ;5)
(1,5 ;3) (1,2 ;0.2)
(3,3 ;1,4)
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
Exemple 1 : Interaction de protéines
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
Exemple 1 : Interaction de protéines
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
Exemple 1 : Interaction de protéines
Détection des intéractions par une approche biologique.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Étiqueter les sommets
Exemple 2 : Dans [Bleakley et al., 2007], les auteurs
reconstruisent les arêtes d’un réseau métabolique
sommets = enzymes ; arêtes = relations fonctionnelles
à partir de :
1 la connaissance partielle du réseau ;
2 différentes étiquettes quantitatives : données d’expression
des gènes, données de localisation des enzymes dans la
cellule, données de profils phylogénétiques des enzymes
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Sommaire
1 Les graphes
2 Objectifs
3 Noyau de la chaleur et cartes de Kohonen
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Présentation du problème
Données
On suppose connu un graphe pondéré non orienté, G,
de sommets {x1, . . . , xn} ;
d’arêtes pondérées par (wij)i,j=1...,n, wii = 0, wij = wji et
n
j=1 wij = di (degré du sommet xi).
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Présentation du problème
Données
On suppose connu un graphe pondéré non orienté, G,
de sommets {x1, . . . , xn} ;
d’arêtes pondérées par (wij)i,j=1...,n, wii = 0, wij = wji et
n
j=1 wij = di (degré du sommet xi).
Objectifs
Deux objectifs simultanés :
1 classification de sommets d’un graphe en groupes de
similarité ;
2 représentation simplifiée du graphe par ses groupes et leurs
relations respectives.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Applications concrètes
Réseaux sociaux Identifier des sous-groupes homogènes
d’individus (communautés) et la manière dont ils sont
structurés entre eux ;
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Applications concrètes
Réseaux sociaux Identifier des sous-groupes homogènes
d’individus (communautés) et la manière dont ils sont
structurés entre eux ;
World Wide Web, Recherche d’informations Grouper les sites
Web par similarité pour faciliter l’identification de
sites pertinents ;
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Applications concrètes
Réseaux sociaux Identifier des sous-groupes homogènes
d’individus (communautés) et la manière dont ils sont
structurés entre eux ;
World Wide Web, Recherche d’informations Grouper les sites
Web par similarité pour faciliter l’identification de
sites pertinents ;
Marketing Identifier des groupes d’individus ou des groupes de
produits pour effectuer des conseils d’achats aux
acheteurs en ligne ;
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Applications concrètes
Réseaux sociaux Identifier des sous-groupes homogènes
d’individus (communautés) et la manière dont ils sont
structurés entre eux ;
World Wide Web, Recherche d’informations Grouper les sites
Web par similarité pour faciliter l’identification de
sites pertinents ;
Marketing Identifier des groupes d’individus ou des groupes de
produits pour effectuer des conseils d’achats aux
acheteurs en ligne ;
Graphes de protéines, réseau métabolique Proposer des
regroupements thématiques de protéines,
d’enzymes, etc
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Sommaire
1 Les graphes
2 Objectifs
3 Noyau de la chaleur et cartes de Kohonen
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Cartes de Kohonen : le principe
Données initiales (xi) dans
un espace de grande dimension
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Cartes de Kohonen : le principe
Données initiales (xi) dans
un espace de grande dimension
Projection sur une carte de petite
dimension en minimisant l’énergie
En
= M
i=1 h(d(f(xj), i)) xj − pi
2
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Adaptation aux graphes
Problème
L’algorithme de cartes de Kohonen classifie les données selon
leurs distances dans l’espace initial : pas de distance entre les
sommets d’un graphe !
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Adaptation aux graphes
Problème
L’algorithme de cartes de Kohonen classifie les données selon
leurs distances dans l’espace initial : pas de distance entre les
sommets d’un graphe !
Solutions proposées
1 Adaptation de l’algorithme à des données décrites par une
mesure de dissimilarité : [Kohohen and Somervuo, 1998] ;
2 Utilisation d’un noyau :
[Lau et al., 2006, Villa and Rossi, 2007].
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Dissimilarités
Dissimilarités courantes
1 Distance de Jaccard : δ(xi, xj) =
|{xk :w(xk ,xj) 0 et w(xk ,xi) 0}|
|{xk :w(xk ,xj) 0}|+|{xk :w(xk ,xi) 0}|
;
2 Plus court chemin : δ(xi, xj) = Longueur du plus court
chemin entre xi et xj en suivant les arêtes du graphe ;
Limites : Utilise des informations très locales (partielles) sur la
structure du graphe.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Laplacien d’un graphe
Pour un graphe
de sommets V = {x1, . . . , xn}
pondérés par (wi,j)i,j=1,...,n (positifs) tels que, pour tout
i, j = 1, . . . , n, wi,j = wj,i et di = n
j=1 wi,j
on résume le graphe par son Laplacian, L = (Li,j)i,j=1,...,n :
Li,j =
−wi,j if i j
di if i = j
;
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Propriétés du Laplacien [von Luxburg, 2007]
Problème de la coupe optimale
Le problème (optimisation discrète) de trouver une partition du
graphe en k groupes de sommets, A1, . . . , Ak qui minimise
1
2
k
i=1 j∈Ai,j Ai
wj,j
est approché par le problème d’optimisation continue suivant
min
H∈Rn×k
Tr HT
LH subject to HT
H = I
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Spectral clustering
Méthode
1 Déterminer les k derniers vecteurs propres,
u1, . . . , uk de L et poser U = [u1, . . . , uk ] ;
2 Utiliser un algorithme de cartes de Kohonen
(carte de taille k) sur les lignes de U.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Spectral clustering
Méthode
1 Déterminer les k derniers vecteurs propres,
u1, . . . , uk de L et poser U = [u1, . . . , uk ] ;
2 Utiliser un algorithme de cartes de Kohonen
(carte de taille k) sur les lignes de U.
Limites du spectral clustering
Utilisation partielle de la structure du graphe ; tous les vecteurs
propres ont le même poids.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Une version régularisée de L
Régularisation : la matrice de diffusion : pour β > 0,
Kβ = e−βL
= +∞
k=1
(−βL)k
k! .
⇒
kβ
: V × V → R
(xi, xj) → K
β
i,j
noyau de diffusion (ou noyau de la chaleur).
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Intérêts
1 Interprétation intuitive kβ(i, j) peut être interprétée comme
l’énergie accumulée en i lorsque l’énergie a été injectée en j
au temps 0 et que l’énergie circule de manière continue dans
les arêtes du graphe selon une fraction qui dépend de β.
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Intérêts
1 Interprétation intuitive kβ(i, j) peut être interprétée comme
l’énergie accumulée en i lorsque l’énergie a été injectée en j
au temps 0 et que l’énergie circule de manière continue dans
les arêtes du graphe selon une fraction qui dépend de β.
2 Noyau de la chaleur et RKHS
Graphe → Espace de Hilbert de grande dimension
(H, ., . )
Dans (H, ., . ), pratiquer un algorithme de classification ou
carte de Kohonen (SOM).
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Resultats pour une grille 7 × 7 [Boulet et al., 2007]
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Resultats pour une grille 7 × 7 [Boulet et al., 2007]
Nathalie Villa Grands graphes
Les graphes
Objectifs
Noyau de la chaleur et cartes de Kohonen
References
Bibliographie
Bleakley, K., Biau, G., and Vert, J. (2007).
Supervised reconstruction of biological networks with local models.
Bioinformatics, 23(13) :i57–i65.
Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2007).
Batch kernel SOM and related laplacian methods for social network analysis.
Neurocomputing.
Submitted.
Kohohen, T. and Somervuo, P. (1998).
Self-Organizing maps of symbol strings.
Neurocomputing, 21 :19–30.
Lau, K., Yin, H., and Hubbard, S. (2006).
Kernel self-organising maps for classification.
Neurocomputing, 69 :2033–2040.
Villa, N. and Rossi, F. (2007).
A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph.
In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07), Bielefield, Germany.
von Luxburg, U. (2007).
A tutorial on spectral clustering.
Technical Report TR-149, Max Planck Institut für biologische Kybernetik.
Avaliable at http://www.kyb.mpg.de/publications/attachments/luxburg06_TR_v2_4139%5B%1%5D.pdf.
Nathalie Villa Grands graphes

Mais conteúdo relacionado

Destaque

Social Network Analysis and Visualization
Social Network Analysis and VisualizationSocial Network Analysis and Visualization
Social Network Analysis and VisualizationAlberto Ramirez
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
NoSQL Databases: Why, what and when
NoSQL Databases: Why, what and whenNoSQL Databases: Why, what and when
NoSQL Databases: Why, what and whenLorenzo Alberton
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
Architectures techniques NoSQL
Architectures techniques NoSQLArchitectures techniques NoSQL
Architectures techniques NoSQLOCTO Technology
 

Destaque (6)

Social Network Analysis and Visualization
Social Network Analysis and VisualizationSocial Network Analysis and Visualization
Social Network Analysis and Visualization
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
NoSQL Databases: Why, what and when
NoSQL Databases: Why, what and whenNoSQL Databases: Why, what and when
NoSQL Databases: Why, what and when
 
Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
Architectures techniques NoSQL
Architectures techniques NoSQLArchitectures techniques NoSQL
Architectures techniques NoSQL
 
Théorie Des Graphes
Théorie Des GraphesThéorie Des Graphes
Théorie Des Graphes
 

Mais de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Mais de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Introduction à l’étude des grands graphes

  • 1. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Introduction à l’étude des grands graphes Nathalie Villa-Vialaneix http ://www.nathalievilla.org Travail réalisé en collaboration avec Fabrice Rossi Institut de Mathématiques de Toulouse, France - nathalie.villa@math.ups-tlse.fr 12 novembre 2007 Nathalie Villa Grands graphes
  • 2. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Sommaire 1 Les graphes 2 Objectifs 3 Noyau de la chaleur et cartes de Kohonen Nathalie Villa Grands graphes
  • 3. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Sommaire 1 Les graphes 2 Objectifs 3 Noyau de la chaleur et cartes de Kohonen Nathalie Villa Grands graphes
  • 4. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Sommets Nathalie Villa Grands graphes
  • 5. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Sommets Arêtes Nathalie Villa Grands graphes
  • 6. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Exemple 1 : Les réseaux sociaux Graphe construit à partir d’un corpus d’archives médiévales À partir de 1000 contrats agraires du Moyen-Âge (1250-1350), on construit un graphe : Nathalie Villa Grands graphes
  • 7. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Exemple 2 : Réseau d’intéraction de protéines Nathalie Villa Grands graphes
  • 8. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Exemple 3 : Graphes bipartis (marketing) Adrien Béatrice Corinne Les misérables L’assommoir Bel ami Le deuxième sexe Nathalie Villa Grands graphes
  • 9. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Qu’est-ce qu’un graphe ? Exemple 3 : Graphes bipartis (recherche d’informations) triste vie amour La vie n’est pas triste. Elle a des heures tristes. Nous sommes tristes parce que nous pleurons. Quand il n’y a pas d’amour, il n’y a pas de vie. Plaisir d’amour ne dure qu’un moment, chagrin d’amour dure toute la vie. Nathalie Villa Grands graphes
  • 10. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Pondération des arêtes Nathalie Villa Grands graphes
  • 11. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Pondération des arêtes 3 5 7 6.15 4.35 2 4 3.4 Nathalie Villa Grands graphes
  • 12. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Pondération des arêtes Exemple 1 : Les réseaux sociaux Graphe construit à partir d’un corpus d’archives médiévales À partir de 1000 contrats agraires (1250-1350), on construit un graphe pondéré : sommets : les paysans trouvés dans les contrats ; poids : nombre de contrats où deux paysans sont cités simultanément. Nathalie Villa Grands graphes
  • 13. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Pondération des arêtes Exemple 2 : À partir d’un graphe biparti : Adrien Béatrice Corinne Les misérables L’assommoir Bel ami Le deuxième sexe Nathalie Villa Grands graphes
  • 14. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Pondération des arêtes Exemple 2 : À partir d’un graphe biparti : Adrien Béatrice Corinne 1 2 11 2 1 Les misérables L’assommoir Bel ami Le deuxième sexe Nathalie Villa Grands graphes
  • 15. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Orientation des arêtes Nathalie Villa Grands graphes
  • 16. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Orientation des arêtes Nathalie Villa Grands graphes
  • 17. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Orientation des arêtes Exemple 1 : Internet (ici, « blogosphère ») Nathalie Villa Grands graphes
  • 18. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Visualiser une évolution Nathalie Villa Grands graphes
  • 19. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Visualiser une évolution Nathalie Villa Grands graphes
  • 20. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Visualiser une évolution Exemple 1 : Évolution temporelle d’un caractère d’une population Nathalie Villa Grands graphes
  • 21. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets Étiquettes qualitatives. . . A B A B B Nathalie Villa Grands graphes
  • 22. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets . . . ou quantitatives (0,5 ;0,2) (1,3 ;5) (1,5 ;3) (1,2 ;0.2) (3,3 ;1,4) Nathalie Villa Grands graphes
  • 23. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets Exemple 1 : Interaction de protéines Nathalie Villa Grands graphes
  • 24. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets Exemple 1 : Interaction de protéines Nathalie Villa Grands graphes
  • 25. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets Exemple 1 : Interaction de protéines Détection des intéractions par une approche biologique. Nathalie Villa Grands graphes
  • 26. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Étiqueter les sommets Exemple 2 : Dans [Bleakley et al., 2007], les auteurs reconstruisent les arêtes d’un réseau métabolique sommets = enzymes ; arêtes = relations fonctionnelles à partir de : 1 la connaissance partielle du réseau ; 2 différentes étiquettes quantitatives : données d’expression des gènes, données de localisation des enzymes dans la cellule, données de profils phylogénétiques des enzymes Nathalie Villa Grands graphes
  • 27. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Sommaire 1 Les graphes 2 Objectifs 3 Noyau de la chaleur et cartes de Kohonen Nathalie Villa Grands graphes
  • 28. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Présentation du problème Données On suppose connu un graphe pondéré non orienté, G, de sommets {x1, . . . , xn} ; d’arêtes pondérées par (wij)i,j=1...,n, wii = 0, wij = wji et n j=1 wij = di (degré du sommet xi). Nathalie Villa Grands graphes
  • 29. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Présentation du problème Données On suppose connu un graphe pondéré non orienté, G, de sommets {x1, . . . , xn} ; d’arêtes pondérées par (wij)i,j=1...,n, wii = 0, wij = wji et n j=1 wij = di (degré du sommet xi). Objectifs Deux objectifs simultanés : 1 classification de sommets d’un graphe en groupes de similarité ; 2 représentation simplifiée du graphe par ses groupes et leurs relations respectives. Nathalie Villa Grands graphes
  • 30. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Applications concrètes Réseaux sociaux Identifier des sous-groupes homogènes d’individus (communautés) et la manière dont ils sont structurés entre eux ; Nathalie Villa Grands graphes
  • 31. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Applications concrètes Réseaux sociaux Identifier des sous-groupes homogènes d’individus (communautés) et la manière dont ils sont structurés entre eux ; World Wide Web, Recherche d’informations Grouper les sites Web par similarité pour faciliter l’identification de sites pertinents ; Nathalie Villa Grands graphes
  • 32. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Applications concrètes Réseaux sociaux Identifier des sous-groupes homogènes d’individus (communautés) et la manière dont ils sont structurés entre eux ; World Wide Web, Recherche d’informations Grouper les sites Web par similarité pour faciliter l’identification de sites pertinents ; Marketing Identifier des groupes d’individus ou des groupes de produits pour effectuer des conseils d’achats aux acheteurs en ligne ; Nathalie Villa Grands graphes
  • 33. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Applications concrètes Réseaux sociaux Identifier des sous-groupes homogènes d’individus (communautés) et la manière dont ils sont structurés entre eux ; World Wide Web, Recherche d’informations Grouper les sites Web par similarité pour faciliter l’identification de sites pertinents ; Marketing Identifier des groupes d’individus ou des groupes de produits pour effectuer des conseils d’achats aux acheteurs en ligne ; Graphes de protéines, réseau métabolique Proposer des regroupements thématiques de protéines, d’enzymes, etc Nathalie Villa Grands graphes
  • 34. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Sommaire 1 Les graphes 2 Objectifs 3 Noyau de la chaleur et cartes de Kohonen Nathalie Villa Grands graphes
  • 35. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Cartes de Kohonen : le principe Données initiales (xi) dans un espace de grande dimension Nathalie Villa Grands graphes
  • 36. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Cartes de Kohonen : le principe Données initiales (xi) dans un espace de grande dimension Projection sur une carte de petite dimension en minimisant l’énergie En = M i=1 h(d(f(xj), i)) xj − pi 2 Nathalie Villa Grands graphes
  • 37. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Adaptation aux graphes Problème L’algorithme de cartes de Kohonen classifie les données selon leurs distances dans l’espace initial : pas de distance entre les sommets d’un graphe ! Nathalie Villa Grands graphes
  • 38. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Adaptation aux graphes Problème L’algorithme de cartes de Kohonen classifie les données selon leurs distances dans l’espace initial : pas de distance entre les sommets d’un graphe ! Solutions proposées 1 Adaptation de l’algorithme à des données décrites par une mesure de dissimilarité : [Kohohen and Somervuo, 1998] ; 2 Utilisation d’un noyau : [Lau et al., 2006, Villa and Rossi, 2007]. Nathalie Villa Grands graphes
  • 39. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Dissimilarités Dissimilarités courantes 1 Distance de Jaccard : δ(xi, xj) = |{xk :w(xk ,xj) 0 et w(xk ,xi) 0}| |{xk :w(xk ,xj) 0}|+|{xk :w(xk ,xi) 0}| ; 2 Plus court chemin : δ(xi, xj) = Longueur du plus court chemin entre xi et xj en suivant les arêtes du graphe ; Limites : Utilise des informations très locales (partielles) sur la structure du graphe. Nathalie Villa Grands graphes
  • 40. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Laplacien d’un graphe Pour un graphe de sommets V = {x1, . . . , xn} pondérés par (wi,j)i,j=1,...,n (positifs) tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i et di = n j=1 wi,j on résume le graphe par son Laplacian, L = (Li,j)i,j=1,...,n : Li,j = −wi,j if i j di if i = j ; Nathalie Villa Grands graphes
  • 41. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Propriétés du Laplacien [von Luxburg, 2007] Problème de la coupe optimale Le problème (optimisation discrète) de trouver une partition du graphe en k groupes de sommets, A1, . . . , Ak qui minimise 1 2 k i=1 j∈Ai,j Ai wj,j est approché par le problème d’optimisation continue suivant min H∈Rn×k Tr HT LH subject to HT H = I Nathalie Villa Grands graphes
  • 42. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Spectral clustering Méthode 1 Déterminer les k derniers vecteurs propres, u1, . . . , uk de L et poser U = [u1, . . . , uk ] ; 2 Utiliser un algorithme de cartes de Kohonen (carte de taille k) sur les lignes de U. Nathalie Villa Grands graphes
  • 43. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Spectral clustering Méthode 1 Déterminer les k derniers vecteurs propres, u1, . . . , uk de L et poser U = [u1, . . . , uk ] ; 2 Utiliser un algorithme de cartes de Kohonen (carte de taille k) sur les lignes de U. Limites du spectral clustering Utilisation partielle de la structure du graphe ; tous les vecteurs propres ont le même poids. Nathalie Villa Grands graphes
  • 44. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Une version régularisée de L Régularisation : la matrice de diffusion : pour β > 0, Kβ = e−βL = +∞ k=1 (−βL)k k! . ⇒ kβ : V × V → R (xi, xj) → K β i,j noyau de diffusion (ou noyau de la chaleur). Nathalie Villa Grands graphes
  • 45. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Intérêts 1 Interprétation intuitive kβ(i, j) peut être interprétée comme l’énergie accumulée en i lorsque l’énergie a été injectée en j au temps 0 et que l’énergie circule de manière continue dans les arêtes du graphe selon une fraction qui dépend de β. Nathalie Villa Grands graphes
  • 46. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Intérêts 1 Interprétation intuitive kβ(i, j) peut être interprétée comme l’énergie accumulée en i lorsque l’énergie a été injectée en j au temps 0 et que l’énergie circule de manière continue dans les arêtes du graphe selon une fraction qui dépend de β. 2 Noyau de la chaleur et RKHS Graphe → Espace de Hilbert de grande dimension (H, ., . ) Dans (H, ., . ), pratiquer un algorithme de classification ou carte de Kohonen (SOM). Nathalie Villa Grands graphes
  • 47. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Resultats pour une grille 7 × 7 [Boulet et al., 2007] Nathalie Villa Grands graphes
  • 48. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Resultats pour une grille 7 × 7 [Boulet et al., 2007] Nathalie Villa Grands graphes
  • 49. Les graphes Objectifs Noyau de la chaleur et cartes de Kohonen References Bibliographie Bleakley, K., Biau, G., and Vert, J. (2007). Supervised reconstruction of biological networks with local models. Bioinformatics, 23(13) :i57–i65. Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2007). Batch kernel SOM and related laplacian methods for social network analysis. Neurocomputing. Submitted. Kohohen, T. and Somervuo, P. (1998). Self-Organizing maps of symbol strings. Neurocomputing, 21 :19–30. Lau, K., Yin, H., and Hubbard, S. (2006). Kernel self-organising maps for classification. Neurocomputing, 69 :2033–2040. Villa, N. and Rossi, F. (2007). A comparison between dissimilarity SOM and kernel SOM for clustering the vertices of a graph. In Proceedings of the 6th Workshop on Self-Organizing Maps (WSOM 07), Bielefield, Germany. von Luxburg, U. (2007). A tutorial on spectral clustering. Technical Report TR-149, Max Planck Institut für biologische Kybernetik. Avaliable at http://www.kyb.mpg.de/publications/attachments/luxburg06_TR_v2_4139%5B%1%5D.pdf. Nathalie Villa Grands graphes