SlideShare uma empresa Scribd logo
1 de 86
Baixar para ler offline
Outils de clustering diachronique pour analyser
l’´evolution de la production scientifique
Nicolas Dugu´e - S´eminaire SYNALP
1 juillet 2016
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Contexte
Projet ISTEX
Biblioth`eque num´erique de publications ;
Enseignement sup´erieur et recherche ;
> 13M de documents.
2/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Contexte
Projet ISTEX
Biblioth`eque num´erique de publications ;
Enseignement sup´erieur et recherche ;
> 13M de documents.
2/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Contexte
Projet ISTEX
Biblioth`eque num´erique de publications ;
Enseignement sup´erieur et recherche ;
> 13M de documents.
→ Outils pour explorer, fouiller la base de publications : ISTEX-R.
2/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Contexte
Projet ISTEX
Biblioth`eque num´erique de publications ;
Enseignement sup´erieur et recherche ;
> 13M de documents.
ISTEX-R
Suivre l’´evolution de la recherche dans un domaine ;
2/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Suivre l’´evolution de la production scientifique : Pourquoi ?
Faciliter bibliographie ;
Faciliter ´evaluation de l’innovation ;
Financement, gouvernance de la recherche.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Suivre l’´evolution de la production scientifique : Pourquoi ?
Faciliter bibliographie ;
Faciliter ´evaluation de l’innovation ;
Financement, gouvernance de la recherche.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Suivre l’´evolution de la production scientifique : Pourquoi ?
Faciliter bibliographie ;
Faciliter ´evaluation de l’innovation ;
Financement, gouvernance de la recherche.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donn´ees de fenˆetres de temps distinctes ;
Analyses fines ;
Utilis´e par sociologues [CFR11], linguistes [Per13],
historiens [TF15] ;
Pratique pour la visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donn´ees de fenˆetres de temps distinctes ;
Analyses fines ;
Utilis´e par sociologues [CFR11], linguistes [Per13],
historiens [TF15] ;
Pratique pour la visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donn´ees de fenˆetres de temps distinctes ;
Analyses fines ;
Utilis´e par sociologues [CFR11], linguistes [Per13],
historiens [TF15] ;
Pratique pour la visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
Analyse diachronique : Pourquoi ?
Comparer donn´ees de fenˆetres de temps distinctes ;
Analyses fines ;
Utilis´e par sociologues [CFR11], linguistes [Per13],
historiens [TF15] ;
Pratique pour la visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
ISTEX-R : Corpus de d´emonstration
10.000 documents ;
Tous de la mˆeme th´ematique...
Le vieillissement, la g´erontologie !
3 p´eriodes : de 1996 `a 2010.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
ISTEX-R : Corpus de d´emonstration
10.000 documents ;
Tous de la mˆeme th´ematique...
Le vieillissement, la g´erontologie !
3 p´eriodes : de 1996 `a 2010.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
ISTEX-R : Corpus de d´emonstration
10.000 documents ;
Tous de la mˆeme th´ematique...
Le vieillissement, la g´erontologie !
3 p´eriodes : de 1996 `a 2010.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
ISTEX-R : Corpus de d´emonstration
10.000 documents ;
Tous de la mˆeme th´ematique...
Le vieillissement, la g´erontologie !
3 p´eriodes : de 1996 `a 2010.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
M´ethodologie non supervis´ee
Indexation des documents dans chaque p´eriode ;
Clustering des documents dans chaque p´eriode →
Th´ematiques ;
Identification des labels de cluster/th´ematique ;
Analyse diachronique ;
Visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
M´ethodologie non supervis´ee
Indexation des documents dans chaque p´eriode ;
Clustering des documents dans chaque p´eriode →
Th´ematiques ;
Identification des labels de cluster/th´ematique ;
Analyse diachronique ;
Visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
M´ethodologie non supervis´ee
Indexation des documents dans chaque p´eriode ;
Clustering des documents dans chaque p´eriode →
Th´ematiques ;
Identification des labels de cluster/th´ematique ;
Analyse diachronique ;
Visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
M´ethodologie non supervis´ee
Indexation des documents dans chaque p´eriode ;
Clustering des documents dans chaque p´eriode →
Th´ematiques ;
Identification des labels de cluster/th´ematique ;
Analyse diachronique ;
Visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Suivre l’´evolution de la production scientifique
d’un domaine : analyse diachronique
M´ethodologie non supervis´ee
Indexation des documents dans chaque p´eriode ;
Clustering des documents dans chaque p´eriode →
Th´ematiques ;
Identification des labels de cluster/th´ematique ;
Analyse diachronique ;
Visualisation.
3/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
4/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Feature F-Mesure
Intuitive ;
Interpr´etable ;
Contexte supervis´e : S´election de variables [LC14] ;
Contexte non supervis´e : ´Etiquetage de clusters [LFG15] ;
Sans param`etre.
5/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Un exemple supervis´e
Taille Pieds Longueur Cheveux Taille Nez Classe
9 5 5 M
9 10 5 M
9 20 6 M
5 15 5 F
6 25 6 F
5 25 5 F
6/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Repr´esentativit´e Versus Typicit´e
FPc(f) = Wf
c
Wc
→ repr´esentativit´e, dominance
7/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Repr´esentativit´e Versus Typicit´e
FPc(f) = Wf
c
Wc
→ repr´esentativit´e, dominance
FRc(f) = Wf
c
Wf → typicit´e, saillance
7/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Repr´esentativit´e Versus Typicit´e
FPc(f) = Wf
c
Wc
→ repr´esentativit´e, dominance
FRc(f) = Wf
c
Wf → typicit´e, saillance
FF la moyenne harmonique.
7/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Un exemple supervis´e
Taille Pieds Longueur Cheveux Taille Nez Classe
9 5 5 M
9 10 5 M
9 20 6 M
5 15 5 F
6 25 6 F
5 25 5 F
WTaillePieds
M = 27
8/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Un exemple supervis´e
Taille Pieds Longueur Cheveux Taille Nez Classe
9 5 5 M
9 10 5 M
9 20 6 M
5 15 5 F
6 25 6 F
5 25 5 F
WTaillePieds
M = 27
WTaillePieds
= 43
8/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Un exemple supervis´e
Taille Pieds Longueur Cheveux Taille Nez Classe
9 5 5 M
9 10 5 M
9 20 6 M
5 15 5 F
6 25 6 F
5 25 5 F
WTaillePieds
M = 27
WTaillePieds
= 43
WM = 78
FRM(TaillePieds) =
27
43
FPM(TaillePieds) =
27
78
8/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
S´election de variables
Sc = f ∈ F|FFc(f) > FF(f), FFc(f) > FF
avec
FF(f) F-Mesure moyenne de f
FF la F-Mesure moyenne
9/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
S´election de variables
Taille Pieds Longueur Cheveux Taille Nez
0.46 0.39 0.3 FFM(f)
0.22 0.66 0.24 FFF (f)
0.34 0.53 0.27 FF(f)
0.38 FF
→ Taille du nez pas s´electionn´ee
10/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
S´election de variables : Contraste
Gc(f) =
FFc(f)
FF(f)
Gc(f) > 1 → f est active pour le cluster c
Gc(f) < 1 → f est passive pour le cluster c
11/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
12/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Discours des pr´esidents Chirac et Mitterrand : DEFT’05 challenge
73255 phrases de J. Chirac
11320 phrases de F. Mitterrand
→ Identifier les phrases de Mitterrand dans un texte sans noms ni
ann´ees.
13/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Chirac VS Mitterrand : le challenge
14/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
15/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
Classification des verbes du franc¸ais → ´Etiquetage de
clusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage
des feuilles [LTA08] ;
Qualit´e de clustering.
16/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
Classification des verbes du franc¸ais → ´Etiquetage de
clusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage
des feuilles [LTA08] ;
Qualit´e de clustering.
16/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
Classification des verbes du franc¸ais → ´Etiquetage de
clusters [FGL12, LFG15] ;
Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage
des feuilles [LTA08] ;
Qualit´e de clustering.
16/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
17/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Indice de Dunn
Maximiser
min1≤i<j≤k dist(Ci, Cj)
maxm=1,··· ,k diamDU(Cm)
18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Indice de Dunn
Maximiser
min1≤i<j≤k dist(Ci, Cj)
maxm=1,··· ,k diamDU(Cm)
Davis Bouldin
Minimiser
1
k
k
i=1
max
j=1,··· ,k;i=j
{
diamDB(ci) + diamDB(cj)
DistDB(Ci, Cj)
}
18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Compacit´e des clusters ;
Bonne s´epararation des cluster ;
Distance Euclidienne ;
Distance aux centroides ;
18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Compacit´e des clusters ;
Bonne s´epararation des cluster ;
Distance Euclidienne ;
Distance aux centroides ;
18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Controler qualit´e de la partition en fonction de l’´etiquetage :
Clusters compacts et s´epar´es : partagent les mˆemes features
saillantes ;
PC =
1
k
k
i=1
1
ni
f∈Si
Gi(f)
Clusters compacts et tr`es s´epar´es : Features actives dans un
cluster, passives dans les autres.
18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering
Controler qualit´e de la partition en fonction de l’´etiquetage :
Clusters compacts et s´epar´es : partagent les mˆemes features
saillantes ;
PC =
1
k
k
i=1
1
ni
f∈Si
Gi(f)
Clusters compacts et tr`es s´epar´es : Features actives dans un
cluster, passives dans les autres.
EC =
1
k
k
i=1


|si |
ni f∈Si
Gi(f) + |si |
ni h∈Si
1
Gi (h)
|si| + |si|


18/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
19/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Qualit´e de clustering pour la diachronie
TABLE : Jeux de donn´ees de faible dimension
IRIS IRIS-b WINE PEN SOY
Nbr. class 3 3 3 10 16
Nbr data 150 150 178 10992 292
Nbr feat. 4 12 13 16 84
TABLE : Jeux de donn´ees de dimension moyenne `a ´elev´ee
ZOO VRBF R8 R52
Nbr. class 7 12-16 8 52
Nbr data 101 2183 7674 9100
Nbr feat. 114 231 3497 7369
20/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
R´esultats
Meilleurs r´esultats obtenus avec K-Means, GNG [F+95],
IGNG-F [LFG15] de k=2 `a k=3·Nb class
TABLE : R´esultats sur donn´ees en basse dimension.
IRIS IRIS-b WINE PEN SOY
DB 2 5 5 7 19 2/5
CH 2 3 6 8 5 1/5
DU 1 1 8 17 8 0/5
SI 4 2 7 14 14 1/5
PC 3 3 4 9 16 4/5
EC 3 3 4 9 16 4/5
MaxP 3 3 5 11 19
Nbr. class 3 3 3 10 16
21/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
R´esultats
Meilleurs r´esultats obtenus avec K-Means, GNG [F+95],
IGNG-F [LFG15] de k=2 `a k=3·Nb class
TABLE : R´esultats sur donn´ees en dimension el´ev´ee.
ZOO VRBF R8 R52
DB 8 -out- 5 58 1/4
CH 4 7 6 -out- 1/4
DU 8 2 -out- -out- 1/4
SI 4 -out- -out- 54 1/4
PC 7 18 -out- -out- 1/4
EC 7 15 6 52 4/4
MaxP 10 12-16 6 50-55
Nbr. class 7 12-16 8 52
21/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
R´esultats
FIGURE : Valeur d’EC et PC sur Reuters 52
21/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
R´esultats
TABLE : R´esultats sur donn´ees ZOO bruit´ees : 7 classes de r´ef´erence.
ZOO
ZOO
Noise
10%
ZOO
Noise
20%
ZOO
Noise
30%
DB 8 4 3 3 1/4
CH 4 5 3 3 0/4
DU 8 2 2 2 1/4
SI 14 -out- -out- -out- 0/4
PC 6 4 11 9 1/4
EC 7 5 6 9 2/4
MaxP 10 7 10 10
21/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
R´esultats
FIGURE : Valeurs d’EC sur ZOO et ZOO bruit´es
21/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
EC efficace en basse et haute dimension ;
EC moins sensible aux donn´ees bruit´ees ;
Ind´ependant de la m´ethode de clustering utilis´ee ;
Particuli`erement adapt´e pour l’´etiquetage ;
TODO : Sensibilit´e `a chevauchement, sparsit´e ?
22/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
EC efficace en basse et haute dimension ;
EC moins sensible aux donn´ees bruit´ees ;
Ind´ependant de la m´ethode de clustering utilis´ee ;
Particuli`erement adapt´e pour l’´etiquetage ;
TODO : Sensibilit´e `a chevauchement, sparsit´e ?
22/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
EC efficace en basse et haute dimension ;
EC moins sensible aux donn´ees bruit´ees ;
Ind´ependant de la m´ethode de clustering utilis´ee ;
Particuli`erement adapt´e pour l’´etiquetage ;
TODO : Sensibilit´e `a chevauchement, sparsit´e ?
22/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
EC efficace en basse et haute dimension ;
EC moins sensible aux donn´ees bruit´ees ;
Ind´ependant de la m´ethode de clustering utilis´ee ;
Particuli`erement adapt´e pour l’´etiquetage ;
TODO : Sensibilit´e `a chevauchement, sparsit´e ?
22/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Dans un contexte non supervis´e
EC efficace en basse et haute dimension ;
EC moins sensible aux donn´ees bruit´ees ;
Ind´ependant de la m´ethode de clustering utilis´ee ;
Particuli`erement adapt´e pour l’´etiquetage ;
TODO : Sensibilit´e `a chevauchement, sparsit´e ?
22/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
23/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
Propager l’activation d’un cluster `a d’autres clusters via leurs
´etiquettes
P(t|s) =
f∈Ss∩St
FFt (f)
f∈St
FFt (f)
24/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
Propager l’activation d’un cluster `a d’autres clusters via leurs
´etiquettes
P(t|s) =
f∈Ss∩St
FFt (f)
f∈St
FFt (f)
P( gr1 | red ) =
2
2
P( gr2 | red ) =
1
1
24/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
Propager l’activation d’un cluster `a d’autres clusters via leurs
´etiquettes
P(t|s) =
f∈Ss∩St
FFt (f)
f∈St
FFt (f)
P( red | gr1 ) =
2
3
24/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
Calculer les activations moyennes :
D’un cluster
PA(s) =
1
|Env(s)|
t∈Env(s)
P(t|s)
D’une partition
As =
1
|S|
s∈S
PA(s)
25/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
Clusters similaires si :
Dans un sens...
P(t|s) > PA(s) et P(t|s) > As + σs
... et dans l’autre !
P(s|t) > PA(t) et P(s|t) > At + σt
26/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Raisonnement bay´esien pour l’analyse
diachronique
M´ethode sans param`etres pour d´etecter :
Clusters similaires ;
Clusters qui se s´eparent ;
Clusters qui fusionnent.
27/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
28/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Corpus Vieillissement
Presque 10.000 documents ;
Li´es `a la th´ematique du vieillissement, g´erontologie ;
3 p´eriodes : de 1996 `a 2010
D´emonstrateur
https://github.com/nicolasdugue/istex-demonstrateur
D´emonstrateur
http://localhost:3000/
29/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Plan
1 S´election de variables pour l’´etiquetage
La m´ethode
Chirac VS Mitterrand
Non supervis´e
2 Clustering et qualit´e [LDC16]
De nouvelles mesures
´Evaluation
3 Analyse diachronique [DLC16b]
4 Visualisation [DLC16a]
5 Conclusion et int´egration
30/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Conclusion
1 Une mesure, la Feature F-Mesure
Sans param`etres ;
Supervis´e : S´election de variables ;
Non supervis´e : ´Etiquetage de clusters ;
31/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Conclusion
1 Une mesure, la Feature F-Mesure
Sans param`etres ;
Supervis´e : S´election de variables ;
Non supervis´e : ´Etiquetage de clusters ;
2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et
de la m´ethode de clustering [LDC16]
31/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Conclusion
1 Une mesure, la Feature F-Mesure
Sans param`etres ;
Supervis´e : S´election de variables ;
Non supervis´e : ´Etiquetage de clusters ;
2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et
de la m´ethode de clustering [LDC16]
3 Raisonnement Bay´esien
Propager l’activation d’un cluster `a d’autres clusters via leurs
´etiquettes [DLC16b]
31/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Conclusion
1 Une mesure, la Feature F-Mesure
Sans param`etres ;
Supervis´e : S´election de variables ;
Non supervis´e : ´Etiquetage de clusters ;
2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et
de la m´ethode de clustering [LDC16]
3 Raisonnement Bay´esien
Propager l’activation d’un cluster `a d’autres clusters via leurs
´etiquettes [DLC16b]
1 + 2 + 3 + Visu = Analyse diachronique [DLC16a]
31/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Conclusion
Outil Java/Python : Feature F-Mesure et Mesures de qualit´e ;
Outil Javascript : Visualisation [DLC16a].
→ https://github.com/nicolasdugue/
32/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Perspectives
Analyse diachronique des r´eseaux de collaborations entre
auteurs [DTCL15, OPC13] ;
R´esum´e automatique avec Feature F-Mesure ;
Algorithme agglom´eratif pour optimiser EC ou PC ?
33/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Perspectives
Analyse diachronique des r´eseaux de collaborations entre
auteurs [DTCL15, OPC13] ;
R´esum´e automatique avec Feature F-Mesure ;
Algorithme agglom´eratif pour optimiser EC ou PC ?
33/38
N. Dugu´e
INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION
Perspectives
Analyse diachronique des r´eseaux de collaborations entre
auteurs [DTCL15, OPC13] ;
R´esum´e automatique avec Feature F-Mesure ;
Algorithme agglom´eratif pour optimiser EC ou PC ?
33/38
N. Dugu´e
R´ef´erences I
[CFR11] Dominique Cardon, Guilhem Fouetillou, and Camille Roth.
Two paths of glory-structural positions and trajectories of websites
within their topical territory.
In ICWSM, 2011.
[DLC16a] Nicolas Dugu´e, Jean-Charles Lamirel, and Pascal Cuxac.
Keep track of your clusters !
In Research Challenges in Information Science (RCIS), 2016.
[DLC16b] Nicolas Dugu´e, Jean-Charles Lamirel, and Pascal Cuxac.
Visualisation pour la d´etection d’´evolution dans des corpus de
publications scientifiques.
In Les Cahiers Du Num´erique, 2016.
33/38
N. Dugu´e
R´ef´erences II
[DTCL15] Nicolas Dugu´e, Ali Tebbakh, Pascal Cuxac, and Jean-charles
Lamirel.
Feature selection and complex networks methods for an analysis
of collaboration evolution in science : an application to the istex
digital library.
In ISKO-MAGHREB, 2015.
[F+
95] Bernd Fritzke et al.
A growing neural gas network learns topologies.
Advances in neural information processing systems, 7 :625–632,
1995.
34/38
N. Dugu´e
R´ef´erences III
[FGL12] Ingrid Falk, Claire Gardent, and Jean-Charles Lamirel.
Classifying french verbs using french and english lexical resources.
In Association for Computational Linguistics : Long Papers-Volume
1, pages 854–863, 2012.
[LC14] J. C. Lamirel and P. Cuxac.
Improving textual data classification and discrimination using an
ad-hoc metric : Application to a famous text discrimination
challenge.
In ISKO-Maghreb : Concepts and Tools for knowledge
Management, pages 1–6, 2014.
35/38
N. Dugu´e
R´ef´erences IV
[LDC16] Jean-Charles Lamirel, Nicolas Dugu´e, and Pascal Cuxac.
New efficient clustering quality indices.
In International Joint Conference on Neural Networks (IJCNN),
2016.
Soumis.
[LFG15] Jean-Charles Lamirel, Ingrid Falk, and Claire Gardent.
Federating clustering and cluster labelling capabilities with a single
approach based on feature maximization : French verb classes
identification with igngf neural clustering.
Neurocomputing, 147 :136–146, 2015.
36/38
N. Dugu´e
R´ef´erences V
[LTA08] Jean-Charles Lamirel, Anh Phuong Ta, and Mohammed Attik.
Novel labeling strategies for hierarchical representation of
multidimensional data analysis results.
In IASTED International Conference on Artificial Intelligence and
Applications (AIA), Innsbruck, Austria, 2008.
[OPC13] Elisa Omodei, Thierry Poibeau, and Jean-Philippe Cointet.
A symmetric approach to understand the dynamics of scientific
collaborations and knowledge production.
In 4e conf´erence sur les mod`eles et l’analyse des r´eseaux :
Approches math´ematiques et informatiques, pages 10–p, 2013.
[Per13] Maria-Pilar Perea.
Dynamic cartography with diachronic data : Dialectal stratigraphy.
Literary and linguistic computing, 28(1) :147–156, 2013.
37/38
N. Dugu´e
R´ef´erences VI
[TF15] Roberto Theron and Laura Fontanillo.
Diachronic-information visualization in historical dictionaries.
Information Visualization, 14(2) :111–136, 2015.
38/38
N. Dugu´e
R´esum´e automatique
38/38
N. Dugu´e
R´esum´e automatique
38/38
N. Dugu´e
R´esum´e automatique
38/38
N. Dugu´e

Mais conteúdo relacionado

Semelhante a Outils de clustering diachronique pour analyser ́ l’ evolution de la production scientifique

Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...
Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...
Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...Barkawi MANSOUR
 
Introduction to NI, LabVIEW, ELVIS and Planet NI
Introduction to NI, LabVIEW, ELVIS and Planet NIIntroduction to NI, LabVIEW, ELVIS and Planet NI
Introduction to NI, LabVIEW, ELVIS and Planet NIslemoslideshare
 
Living documentation au service de l'agilité
Living documentation au service de l'agilitéLiving documentation au service de l'agilité
Living documentation au service de l'agilitéDorra BARTAGUIZ
 
Agile En Seine 2023 - La Living Doc Au Service De L'Agilité
Agile En Seine 2023 - La Living Doc Au Service De L'AgilitéAgile En Seine 2023 - La Living Doc Au Service De L'Agilité
Agile En Seine 2023 - La Living Doc Au Service De L'AgilitéAgile En Seine
 
Présentation Eolienne.pptx
Présentation Eolienne.pptxPrésentation Eolienne.pptx
Présentation Eolienne.pptxFLORIAN264869
 
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTION
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTIONRadiographie Industrielle - SCI, CONTRÔLE ET INSPECTION
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTIONSCI Control & Inspección
 

Semelhante a Outils de clustering diachronique pour analyser ́ l’ evolution de la production scientifique (7)

Indexation image
Indexation imageIndexation image
Indexation image
 
Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...
Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...
Impact de l’évolution du cône de déjection du kori de kourtéré sur le fleuve ...
 
Introduction to NI, LabVIEW, ELVIS and Planet NI
Introduction to NI, LabVIEW, ELVIS and Planet NIIntroduction to NI, LabVIEW, ELVIS and Planet NI
Introduction to NI, LabVIEW, ELVIS and Planet NI
 
Living documentation au service de l'agilité
Living documentation au service de l'agilitéLiving documentation au service de l'agilité
Living documentation au service de l'agilité
 
Agile En Seine 2023 - La Living Doc Au Service De L'Agilité
Agile En Seine 2023 - La Living Doc Au Service De L'AgilitéAgile En Seine 2023 - La Living Doc Au Service De L'Agilité
Agile En Seine 2023 - La Living Doc Au Service De L'Agilité
 
Présentation Eolienne.pptx
Présentation Eolienne.pptxPrésentation Eolienne.pptx
Présentation Eolienne.pptx
 
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTION
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTIONRadiographie Industrielle - SCI, CONTRÔLE ET INSPECTION
Radiographie Industrielle - SCI, CONTRÔLE ET INSPECTION
 

Outils de clustering diachronique pour analyser ́ l’ evolution de la production scientifique

  • 1. Outils de clustering diachronique pour analyser l’´evolution de la production scientifique Nicolas Dugu´e - S´eminaire SYNALP 1 juillet 2016
  • 2. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Contexte Projet ISTEX Biblioth`eque num´erique de publications ; Enseignement sup´erieur et recherche ; > 13M de documents. 2/38 N. Dugu´e
  • 3. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Contexte Projet ISTEX Biblioth`eque num´erique de publications ; Enseignement sup´erieur et recherche ; > 13M de documents. 2/38 N. Dugu´e
  • 4. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Contexte Projet ISTEX Biblioth`eque num´erique de publications ; Enseignement sup´erieur et recherche ; > 13M de documents. → Outils pour explorer, fouiller la base de publications : ISTEX-R. 2/38 N. Dugu´e
  • 5. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Contexte Projet ISTEX Biblioth`eque num´erique de publications ; Enseignement sup´erieur et recherche ; > 13M de documents. ISTEX-R Suivre l’´evolution de la recherche dans un domaine ; 2/38 N. Dugu´e
  • 6. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Suivre l’´evolution de la production scientifique : Pourquoi ? Faciliter bibliographie ; Faciliter ´evaluation de l’innovation ; Financement, gouvernance de la recherche. 3/38 N. Dugu´e
  • 7. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Suivre l’´evolution de la production scientifique : Pourquoi ? Faciliter bibliographie ; Faciliter ´evaluation de l’innovation ; Financement, gouvernance de la recherche. 3/38 N. Dugu´e
  • 8. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Suivre l’´evolution de la production scientifique : Pourquoi ? Faciliter bibliographie ; Faciliter ´evaluation de l’innovation ; Financement, gouvernance de la recherche. 3/38 N. Dugu´e
  • 9. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Analyse diachronique : Pourquoi ? Comparer donn´ees de fenˆetres de temps distinctes ; Analyses fines ; Utilis´e par sociologues [CFR11], linguistes [Per13], historiens [TF15] ; Pratique pour la visualisation. 3/38 N. Dugu´e
  • 10. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Analyse diachronique : Pourquoi ? Comparer donn´ees de fenˆetres de temps distinctes ; Analyses fines ; Utilis´e par sociologues [CFR11], linguistes [Per13], historiens [TF15] ; Pratique pour la visualisation. 3/38 N. Dugu´e
  • 11. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Analyse diachronique : Pourquoi ? Comparer donn´ees de fenˆetres de temps distinctes ; Analyses fines ; Utilis´e par sociologues [CFR11], linguistes [Per13], historiens [TF15] ; Pratique pour la visualisation. 3/38 N. Dugu´e
  • 12. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique Analyse diachronique : Pourquoi ? Comparer donn´ees de fenˆetres de temps distinctes ; Analyses fines ; Utilis´e par sociologues [CFR11], linguistes [Per13], historiens [TF15] ; Pratique pour la visualisation. 3/38 N. Dugu´e
  • 13. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique ISTEX-R : Corpus de d´emonstration 10.000 documents ; Tous de la mˆeme th´ematique... Le vieillissement, la g´erontologie ! 3 p´eriodes : de 1996 `a 2010. 3/38 N. Dugu´e
  • 14. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique ISTEX-R : Corpus de d´emonstration 10.000 documents ; Tous de la mˆeme th´ematique... Le vieillissement, la g´erontologie ! 3 p´eriodes : de 1996 `a 2010. 3/38 N. Dugu´e
  • 15. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique ISTEX-R : Corpus de d´emonstration 10.000 documents ; Tous de la mˆeme th´ematique... Le vieillissement, la g´erontologie ! 3 p´eriodes : de 1996 `a 2010. 3/38 N. Dugu´e
  • 16. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique ISTEX-R : Corpus de d´emonstration 10.000 documents ; Tous de la mˆeme th´ematique... Le vieillissement, la g´erontologie ! 3 p´eriodes : de 1996 `a 2010. 3/38 N. Dugu´e
  • 17. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique M´ethodologie non supervis´ee Indexation des documents dans chaque p´eriode ; Clustering des documents dans chaque p´eriode → Th´ematiques ; Identification des labels de cluster/th´ematique ; Analyse diachronique ; Visualisation. 3/38 N. Dugu´e
  • 18. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique M´ethodologie non supervis´ee Indexation des documents dans chaque p´eriode ; Clustering des documents dans chaque p´eriode → Th´ematiques ; Identification des labels de cluster/th´ematique ; Analyse diachronique ; Visualisation. 3/38 N. Dugu´e
  • 19. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique M´ethodologie non supervis´ee Indexation des documents dans chaque p´eriode ; Clustering des documents dans chaque p´eriode → Th´ematiques ; Identification des labels de cluster/th´ematique ; Analyse diachronique ; Visualisation. 3/38 N. Dugu´e
  • 20. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique M´ethodologie non supervis´ee Indexation des documents dans chaque p´eriode ; Clustering des documents dans chaque p´eriode → Th´ematiques ; Identification des labels de cluster/th´ematique ; Analyse diachronique ; Visualisation. 3/38 N. Dugu´e
  • 21. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Suivre l’´evolution de la production scientifique d’un domaine : analyse diachronique M´ethodologie non supervis´ee Indexation des documents dans chaque p´eriode ; Clustering des documents dans chaque p´eriode → Th´ematiques ; Identification des labels de cluster/th´ematique ; Analyse diachronique ; Visualisation. 3/38 N. Dugu´e
  • 22. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 4/38 N. Dugu´e
  • 23. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Feature F-Mesure Intuitive ; Interpr´etable ; Contexte supervis´e : S´election de variables [LC14] ; Contexte non supervis´e : ´Etiquetage de clusters [LFG15] ; Sans param`etre. 5/38 N. Dugu´e
  • 24. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Un exemple supervis´e Taille Pieds Longueur Cheveux Taille Nez Classe 9 5 5 M 9 10 5 M 9 20 6 M 5 15 5 F 6 25 6 F 5 25 5 F 6/38 N. Dugu´e
  • 25. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Repr´esentativit´e Versus Typicit´e FPc(f) = Wf c Wc → repr´esentativit´e, dominance 7/38 N. Dugu´e
  • 26. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Repr´esentativit´e Versus Typicit´e FPc(f) = Wf c Wc → repr´esentativit´e, dominance FRc(f) = Wf c Wf → typicit´e, saillance 7/38 N. Dugu´e
  • 27. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Repr´esentativit´e Versus Typicit´e FPc(f) = Wf c Wc → repr´esentativit´e, dominance FRc(f) = Wf c Wf → typicit´e, saillance FF la moyenne harmonique. 7/38 N. Dugu´e
  • 28. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Un exemple supervis´e Taille Pieds Longueur Cheveux Taille Nez Classe 9 5 5 M 9 10 5 M 9 20 6 M 5 15 5 F 6 25 6 F 5 25 5 F WTaillePieds M = 27 8/38 N. Dugu´e
  • 29. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Un exemple supervis´e Taille Pieds Longueur Cheveux Taille Nez Classe 9 5 5 M 9 10 5 M 9 20 6 M 5 15 5 F 6 25 6 F 5 25 5 F WTaillePieds M = 27 WTaillePieds = 43 8/38 N. Dugu´e
  • 30. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Un exemple supervis´e Taille Pieds Longueur Cheveux Taille Nez Classe 9 5 5 M 9 10 5 M 9 20 6 M 5 15 5 F 6 25 6 F 5 25 5 F WTaillePieds M = 27 WTaillePieds = 43 WM = 78 FRM(TaillePieds) = 27 43 FPM(TaillePieds) = 27 78 8/38 N. Dugu´e
  • 31. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION S´election de variables Sc = f ∈ F|FFc(f) > FF(f), FFc(f) > FF avec FF(f) F-Mesure moyenne de f FF la F-Mesure moyenne 9/38 N. Dugu´e
  • 32. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION S´election de variables Taille Pieds Longueur Cheveux Taille Nez 0.46 0.39 0.3 FFM(f) 0.22 0.66 0.24 FFF (f) 0.34 0.53 0.27 FF(f) 0.38 FF → Taille du nez pas s´electionn´ee 10/38 N. Dugu´e
  • 33. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION S´election de variables : Contraste Gc(f) = FFc(f) FF(f) Gc(f) > 1 → f est active pour le cluster c Gc(f) < 1 → f est passive pour le cluster c 11/38 N. Dugu´e
  • 34. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 12/38 N. Dugu´e
  • 35. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Discours des pr´esidents Chirac et Mitterrand : DEFT’05 challenge 73255 phrases de J. Chirac 11320 phrases de F. Mitterrand → Identifier les phrases de Mitterrand dans un texte sans noms ni ann´ees. 13/38 N. Dugu´e
  • 36. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Chirac VS Mitterrand : le challenge 14/38 N. Dugu´e
  • 37. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 15/38 N. Dugu´e
  • 38. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e Classification des verbes du franc¸ais → ´Etiquetage de clusters [FGL12, LFG15] ; Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage des feuilles [LTA08] ; Qualit´e de clustering. 16/38 N. Dugu´e
  • 39. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e Classification des verbes du franc¸ais → ´Etiquetage de clusters [FGL12, LFG15] ; Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage des feuilles [LTA08] ; Qualit´e de clustering. 16/38 N. Dugu´e
  • 40. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e Classification des verbes du franc¸ais → ´Etiquetage de clusters [FGL12, LFG15] ; Visualisation hyperbolique d’un arbre hi´erarchique → ´Etiquetage des feuilles [LTA08] ; Qualit´e de clustering. 16/38 N. Dugu´e
  • 41. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 17/38 N. Dugu´e
  • 42. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Indice de Dunn Maximiser min1≤i<j≤k dist(Ci, Cj) maxm=1,··· ,k diamDU(Cm) 18/38 N. Dugu´e
  • 43. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Indice de Dunn Maximiser min1≤i<j≤k dist(Ci, Cj) maxm=1,··· ,k diamDU(Cm) Davis Bouldin Minimiser 1 k k i=1 max j=1,··· ,k;i=j { diamDB(ci) + diamDB(cj) DistDB(Ci, Cj) } 18/38 N. Dugu´e
  • 44. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Compacit´e des clusters ; Bonne s´epararation des cluster ; Distance Euclidienne ; Distance aux centroides ; 18/38 N. Dugu´e
  • 45. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Compacit´e des clusters ; Bonne s´epararation des cluster ; Distance Euclidienne ; Distance aux centroides ; 18/38 N. Dugu´e
  • 46. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Controler qualit´e de la partition en fonction de l’´etiquetage : Clusters compacts et s´epar´es : partagent les mˆemes features saillantes ; PC = 1 k k i=1 1 ni f∈Si Gi(f) Clusters compacts et tr`es s´epar´es : Features actives dans un cluster, passives dans les autres. 18/38 N. Dugu´e
  • 47. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering Controler qualit´e de la partition en fonction de l’´etiquetage : Clusters compacts et s´epar´es : partagent les mˆemes features saillantes ; PC = 1 k k i=1 1 ni f∈Si Gi(f) Clusters compacts et tr`es s´epar´es : Features actives dans un cluster, passives dans les autres. EC = 1 k k i=1   |si | ni f∈Si Gi(f) + |si | ni h∈Si 1 Gi (h) |si| + |si|   18/38 N. Dugu´e
  • 48. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 19/38 N. Dugu´e
  • 49. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Qualit´e de clustering pour la diachronie TABLE : Jeux de donn´ees de faible dimension IRIS IRIS-b WINE PEN SOY Nbr. class 3 3 3 10 16 Nbr data 150 150 178 10992 292 Nbr feat. 4 12 13 16 84 TABLE : Jeux de donn´ees de dimension moyenne `a ´elev´ee ZOO VRBF R8 R52 Nbr. class 7 12-16 8 52 Nbr data 101 2183 7674 9100 Nbr feat. 114 231 3497 7369 20/38 N. Dugu´e
  • 50. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION R´esultats Meilleurs r´esultats obtenus avec K-Means, GNG [F+95], IGNG-F [LFG15] de k=2 `a k=3·Nb class TABLE : R´esultats sur donn´ees en basse dimension. IRIS IRIS-b WINE PEN SOY DB 2 5 5 7 19 2/5 CH 2 3 6 8 5 1/5 DU 1 1 8 17 8 0/5 SI 4 2 7 14 14 1/5 PC 3 3 4 9 16 4/5 EC 3 3 4 9 16 4/5 MaxP 3 3 5 11 19 Nbr. class 3 3 3 10 16 21/38 N. Dugu´e
  • 51. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION R´esultats Meilleurs r´esultats obtenus avec K-Means, GNG [F+95], IGNG-F [LFG15] de k=2 `a k=3·Nb class TABLE : R´esultats sur donn´ees en dimension el´ev´ee. ZOO VRBF R8 R52 DB 8 -out- 5 58 1/4 CH 4 7 6 -out- 1/4 DU 8 2 -out- -out- 1/4 SI 4 -out- -out- 54 1/4 PC 7 18 -out- -out- 1/4 EC 7 15 6 52 4/4 MaxP 10 12-16 6 50-55 Nbr. class 7 12-16 8 52 21/38 N. Dugu´e
  • 52. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION R´esultats FIGURE : Valeur d’EC et PC sur Reuters 52 21/38 N. Dugu´e
  • 53. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION R´esultats TABLE : R´esultats sur donn´ees ZOO bruit´ees : 7 classes de r´ef´erence. ZOO ZOO Noise 10% ZOO Noise 20% ZOO Noise 30% DB 8 4 3 3 1/4 CH 4 5 3 3 0/4 DU 8 2 2 2 1/4 SI 14 -out- -out- -out- 0/4 PC 6 4 11 9 1/4 EC 7 5 6 9 2/4 MaxP 10 7 10 10 21/38 N. Dugu´e
  • 54. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION R´esultats FIGURE : Valeurs d’EC sur ZOO et ZOO bruit´es 21/38 N. Dugu´e
  • 55. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e EC efficace en basse et haute dimension ; EC moins sensible aux donn´ees bruit´ees ; Ind´ependant de la m´ethode de clustering utilis´ee ; Particuli`erement adapt´e pour l’´etiquetage ; TODO : Sensibilit´e `a chevauchement, sparsit´e ? 22/38 N. Dugu´e
  • 56. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e EC efficace en basse et haute dimension ; EC moins sensible aux donn´ees bruit´ees ; Ind´ependant de la m´ethode de clustering utilis´ee ; Particuli`erement adapt´e pour l’´etiquetage ; TODO : Sensibilit´e `a chevauchement, sparsit´e ? 22/38 N. Dugu´e
  • 57. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e EC efficace en basse et haute dimension ; EC moins sensible aux donn´ees bruit´ees ; Ind´ependant de la m´ethode de clustering utilis´ee ; Particuli`erement adapt´e pour l’´etiquetage ; TODO : Sensibilit´e `a chevauchement, sparsit´e ? 22/38 N. Dugu´e
  • 58. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e EC efficace en basse et haute dimension ; EC moins sensible aux donn´ees bruit´ees ; Ind´ependant de la m´ethode de clustering utilis´ee ; Particuli`erement adapt´e pour l’´etiquetage ; TODO : Sensibilit´e `a chevauchement, sparsit´e ? 22/38 N. Dugu´e
  • 59. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Dans un contexte non supervis´e EC efficace en basse et haute dimension ; EC moins sensible aux donn´ees bruit´ees ; Ind´ependant de la m´ethode de clustering utilis´ee ; Particuli`erement adapt´e pour l’´etiquetage ; TODO : Sensibilit´e `a chevauchement, sparsit´e ? 22/38 N. Dugu´e
  • 60. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 23/38 N. Dugu´e
  • 61. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique Propager l’activation d’un cluster `a d’autres clusters via leurs ´etiquettes P(t|s) = f∈Ss∩St FFt (f) f∈St FFt (f) 24/38 N. Dugu´e
  • 62. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique Propager l’activation d’un cluster `a d’autres clusters via leurs ´etiquettes P(t|s) = f∈Ss∩St FFt (f) f∈St FFt (f) P( gr1 | red ) = 2 2 P( gr2 | red ) = 1 1 24/38 N. Dugu´e
  • 63. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique Propager l’activation d’un cluster `a d’autres clusters via leurs ´etiquettes P(t|s) = f∈Ss∩St FFt (f) f∈St FFt (f) P( red | gr1 ) = 2 3 24/38 N. Dugu´e
  • 64. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique Calculer les activations moyennes : D’un cluster PA(s) = 1 |Env(s)| t∈Env(s) P(t|s) D’une partition As = 1 |S| s∈S PA(s) 25/38 N. Dugu´e
  • 65. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique Clusters similaires si : Dans un sens... P(t|s) > PA(s) et P(t|s) > As + σs ... et dans l’autre ! P(s|t) > PA(t) et P(s|t) > At + σt 26/38 N. Dugu´e
  • 66. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Raisonnement bay´esien pour l’analyse diachronique M´ethode sans param`etres pour d´etecter : Clusters similaires ; Clusters qui se s´eparent ; Clusters qui fusionnent. 27/38 N. Dugu´e
  • 67. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 28/38 N. Dugu´e
  • 68. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Corpus Vieillissement Presque 10.000 documents ; Li´es `a la th´ematique du vieillissement, g´erontologie ; 3 p´eriodes : de 1996 `a 2010 D´emonstrateur https://github.com/nicolasdugue/istex-demonstrateur D´emonstrateur http://localhost:3000/ 29/38 N. Dugu´e
  • 69. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Plan 1 S´election de variables pour l’´etiquetage La m´ethode Chirac VS Mitterrand Non supervis´e 2 Clustering et qualit´e [LDC16] De nouvelles mesures ´Evaluation 3 Analyse diachronique [DLC16b] 4 Visualisation [DLC16a] 5 Conclusion et int´egration 30/38 N. Dugu´e
  • 70. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Conclusion 1 Une mesure, la Feature F-Mesure Sans param`etres ; Supervis´e : S´election de variables ; Non supervis´e : ´Etiquetage de clusters ; 31/38 N. Dugu´e
  • 71. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Conclusion 1 Une mesure, la Feature F-Mesure Sans param`etres ; Supervis´e : S´election de variables ; Non supervis´e : ´Etiquetage de clusters ; 2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et de la m´ethode de clustering [LDC16] 31/38 N. Dugu´e
  • 72. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Conclusion 1 Une mesure, la Feature F-Mesure Sans param`etres ; Supervis´e : S´election de variables ; Non supervis´e : ´Etiquetage de clusters ; 2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et de la m´ethode de clustering [LDC16] 3 Raisonnement Bay´esien Propager l’activation d’un cluster `a d’autres clusters via leurs ´etiquettes [DLC16b] 31/38 N. Dugu´e
  • 73. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Conclusion 1 Une mesure, la Feature F-Mesure Sans param`etres ; Supervis´e : S´election de variables ; Non supervis´e : ´Etiquetage de clusters ; 2 Qualit´e du clustering pour l’´etiquetage, ind´ependant du crit`ere et de la m´ethode de clustering [LDC16] 3 Raisonnement Bay´esien Propager l’activation d’un cluster `a d’autres clusters via leurs ´etiquettes [DLC16b] 1 + 2 + 3 + Visu = Analyse diachronique [DLC16a] 31/38 N. Dugu´e
  • 74. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Conclusion Outil Java/Python : Feature F-Mesure et Mesures de qualit´e ; Outil Javascript : Visualisation [DLC16a]. → https://github.com/nicolasdugue/ 32/38 N. Dugu´e
  • 75. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Perspectives Analyse diachronique des r´eseaux de collaborations entre auteurs [DTCL15, OPC13] ; R´esum´e automatique avec Feature F-Mesure ; Algorithme agglom´eratif pour optimiser EC ou PC ? 33/38 N. Dugu´e
  • 76. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Perspectives Analyse diachronique des r´eseaux de collaborations entre auteurs [DTCL15, OPC13] ; R´esum´e automatique avec Feature F-Mesure ; Algorithme agglom´eratif pour optimiser EC ou PC ? 33/38 N. Dugu´e
  • 77. INTRODUCTION ´ETIQUETAGE CLUSTERING,QUALIT ´E DIACHRONIE VISUALISATION CONCLUSION ET INT ´EGRATION Perspectives Analyse diachronique des r´eseaux de collaborations entre auteurs [DTCL15, OPC13] ; R´esum´e automatique avec Feature F-Mesure ; Algorithme agglom´eratif pour optimiser EC ou PC ? 33/38 N. Dugu´e
  • 78. R´ef´erences I [CFR11] Dominique Cardon, Guilhem Fouetillou, and Camille Roth. Two paths of glory-structural positions and trajectories of websites within their topical territory. In ICWSM, 2011. [DLC16a] Nicolas Dugu´e, Jean-Charles Lamirel, and Pascal Cuxac. Keep track of your clusters ! In Research Challenges in Information Science (RCIS), 2016. [DLC16b] Nicolas Dugu´e, Jean-Charles Lamirel, and Pascal Cuxac. Visualisation pour la d´etection d’´evolution dans des corpus de publications scientifiques. In Les Cahiers Du Num´erique, 2016. 33/38 N. Dugu´e
  • 79. R´ef´erences II [DTCL15] Nicolas Dugu´e, Ali Tebbakh, Pascal Cuxac, and Jean-charles Lamirel. Feature selection and complex networks methods for an analysis of collaboration evolution in science : an application to the istex digital library. In ISKO-MAGHREB, 2015. [F+ 95] Bernd Fritzke et al. A growing neural gas network learns topologies. Advances in neural information processing systems, 7 :625–632, 1995. 34/38 N. Dugu´e
  • 80. R´ef´erences III [FGL12] Ingrid Falk, Claire Gardent, and Jean-Charles Lamirel. Classifying french verbs using french and english lexical resources. In Association for Computational Linguistics : Long Papers-Volume 1, pages 854–863, 2012. [LC14] J. C. Lamirel and P. Cuxac. Improving textual data classification and discrimination using an ad-hoc metric : Application to a famous text discrimination challenge. In ISKO-Maghreb : Concepts and Tools for knowledge Management, pages 1–6, 2014. 35/38 N. Dugu´e
  • 81. R´ef´erences IV [LDC16] Jean-Charles Lamirel, Nicolas Dugu´e, and Pascal Cuxac. New efficient clustering quality indices. In International Joint Conference on Neural Networks (IJCNN), 2016. Soumis. [LFG15] Jean-Charles Lamirel, Ingrid Falk, and Claire Gardent. Federating clustering and cluster labelling capabilities with a single approach based on feature maximization : French verb classes identification with igngf neural clustering. Neurocomputing, 147 :136–146, 2015. 36/38 N. Dugu´e
  • 82. R´ef´erences V [LTA08] Jean-Charles Lamirel, Anh Phuong Ta, and Mohammed Attik. Novel labeling strategies for hierarchical representation of multidimensional data analysis results. In IASTED International Conference on Artificial Intelligence and Applications (AIA), Innsbruck, Austria, 2008. [OPC13] Elisa Omodei, Thierry Poibeau, and Jean-Philippe Cointet. A symmetric approach to understand the dynamics of scientific collaborations and knowledge production. In 4e conf´erence sur les mod`eles et l’analyse des r´eseaux : Approches math´ematiques et informatiques, pages 10–p, 2013. [Per13] Maria-Pilar Perea. Dynamic cartography with diachronic data : Dialectal stratigraphy. Literary and linguistic computing, 28(1) :147–156, 2013. 37/38 N. Dugu´e
  • 83. R´ef´erences VI [TF15] Roberto Theron and Laura Fontanillo. Diachronic-information visualization in historical dictionaries. Information Visualization, 14(2) :111–136, 2015. 38/38 N. Dugu´e