SlideShare uma empresa Scribd logo
1 de 11
Baixar para ler offline
Combinaison de classification non
   supervisée et supervisée




          Thèse présentée par :
             Fatma Karem




       Encadreurs : Arnaud Martin
                    Mounir Dhibi
Rapport de Stage Fatma Karem 2010




Plan du rapport
      1. Objectifs de la thèse
      2. Problématique du sujet
      3. Combinaison de classification non-
        supervisée
      4. Combinaison de classification
        supervisée
      5. Combinaison de classification mixte
      6. Réflexions
        Bibliographie




                      -1-
Rapport de Stage Fatma Karem 2010

1) Objectifs de la thèse :
  Faire une combinaison entre une méthode de classification non-supervisée
  avec celle supervisée en vue d’améliorer la qualité de la classification.


2) Problématique du sujet :
  Avant d’aborder la problématique du sujet on commence par présenter
  brièvement la classification supervisée et non supervisée.

  a) Classification supervisée et non-supervisée :

L’objectif de la classification c’est d’identifier les classes auxquelles
appartiennent des objets à partir de traits descriptifs (attributs,
caractéristiques). On distingue deux types de classifications supervisée et
non-supervisée appelée aussi "classification automatique" ou "clustering" ou
"regroupement".
- Si on est dans le dernier cas on est appelé à identifier les populations d’un
ensemble de données. Il faut pouvoir affecter une nouvelle observation à
une classe. Le problème ici est difficile puisque les observations disponibles
ne sont pas initialement identifiées comme appartenant à telle ou telle
population : il faudra déduire cette information de la répartition spatiale des
observations. Parmi les méthodes non-supervisées courantes :
K-means, classification hiérarchique.

- Si on est dans le contexte supervisé on dispose déjà des exemples déjà
étiquetés. L’objectif ici est d’apprendre à l’aide d’un ensemble
d'entraînement des règles qui permettent de prédire (ou « deviner »)
certaines caractéristiques de nouvelles observations. On construit alors un
modèle en vue de classer les nouvelles observations. Parmi les méthodes
supervisées on cite : discrimination linéaire (Ex: régression logistique ou
recherche d’hyperplan séparateur), régression en général, méthode des plus
proches voisins, arbres de décision, réseaux de neurones, machines à vecteur
de support (SVM) et classificateur de Bayes.

Quelque soit le type de classification on est confronté à des problèmes dont
on cite le manque de données pour faire l’apprentissage, données incertaines
et imprécises ce qui empêche la construction d’un modèle correct dans le cas

                                   -2-
Rapport de Stage Fatma Karem 2010

supervisé. Pour la classification non-supervisée : on trouve la difficulté de
limiter les frontières des classes qui ne sont pas toujours reconnaissables,
l’espace à plusieurs dimensions (>2) et la dépendance des paramètres
initiaux.
Une solution envisageable pour surmonter les problèmes des deux types est
la fusion.

  b) Formalisme mathématique de la problématique :

On présente les deux formalismes relatifs à chaque type de classification :

      Classification supervisée              Classification non-supervisée

       P : population                          P : population
       D : ensemble de descripteurs            D : ensemble de descripteurs
       {q1,……,qns } : ensemble de              {c1,……,cns’ } : ensemble de
       classes                                 clusters
       Xs :        :   fonction    qui            :        :   fonction     qui
       associe une description à tout          associe une description à tout
       élément de P                            élément de P
       Ys:                    :                  :                     :
       fonction qui associe une classe        fonction qui associe un cluster à
       à chaque élément de P                  chaque élément de P
       C:      {1,……,qns } : fonction          Objectif recherché : trouver
       de classement
       Objectif recherché : apprendre
       C.


  Les principales difficultés qui découlent auxquelles est confronté la fusion
  sont la différence entre les nombres de classes et de clusters générées,
  problème de correspondance entre les deux et la résolution de conflit et
  d’ambiguïté engendrés.
  Les principales problématiques qui se présentent sont :

  - Chercher CC(c,q) : la correspondance entre un cluster c et une classe q.
     CC : {c1,……,cn } { q1,……,qn }



                                   -3-
Rapport de Stage Fatma Karem 2010

   -   Optimiser ns et ns’ afin d’avoir à la fin :                             ( ns
       et ns’ sont respectivement le nombre de classes et clusters trouvés).

On présentera dans ce qui suit quelques travaux émanant de chaque type de
combinaison :


3)Combinaison de classification non-supervisée :

On présentera à ce niveau un travail marquant qui est celui de Cédric
Wemmert, Pierre Gançarski et Germain Forestier. L’objectif était de faire
une nouvelle méthode de classification basée sur la collaboration de plusieurs
classifieurs non-supervisés. Celle-ci se déroule en trois étapes : tournage
indépendant et parallèle des classifieurs, évaluation des résultats de chacun et
raffinement, et unification des résultats. La deuxième étape est l’étape la plus
délicate puisque la correspondance entre les clusters de chaque couple de
classifieurs et une résolution de conflits sont faite à ce stade là d’une façon
itérative afin d’obtenir un nombre similaire de classes. A la fin une unification
est envisagée grâce à la méthode de vôte par exemple. Les actions à envisager
en cas de conflit sont : scission, fusion ou suppression de clusters.
La combinaison était employée pour faire une analyse d’images multi-
sources. Le problème d’hétérogénéité des sources, résolutions et de temps
d’acquisition se pose. Une meilleure solution était de combiner pour alléger
les obstacles rencontrés. [1]

4)Combinaison de classification supervisée :
Comme travail fait on présente le travail d’Arnaud Martin en vue de classifier
les images sonar. Le problème de caractérisation des fonds marins est toujours
lié aux méthodes d’analyses de texture qui sont en abondance ce qui présente
une difficulté au niveau du choix de la meilleure. Il est lié aussi au problème
de l’imperfection des appareils de mesure. La solution proposée était de
fusionner 4 classifieurs constitué chacun d’une méthode d’extraction de
paramètres de texture et d’un perceptron multi-couches. La fusion
d’informations haut niveau se fait au niveau des sorties numériques des
perceptrons soit au niveau des sorties symboliques représentant les classes
affectées. Les paramètres extraits des classifieurs sont les matrices de co-

                                     -4-
Rapport de Stage Fatma Karem 2010

occurrence, les matrices de longueurs de plages, la transformée en ondelettes
et les filtres de Gabor.
Ces quatre jeux de paramètres sont ensuite considérés indépendamment à
l’entrée de quatre perceptrons multicouche ayant chacun une couche de sortie
de six neurones correspondant aux six classes de sédiments présents dans les
images sonar.
La fusion était faite grâce à la théorie des croyances. [2]


5) Combinaison mixte de classification :
   On présentera deux travaux de cette catégorie. Le premier est celui
   d’Urszula Markowska-Kaczmar et Tomaz Switek. Le deuxième appartient
   à Maria Guijarro et Gonzalo Pajares.

   a) Travail n°1 :

Une nouvelle methode de classification CUSC (Combined Unsupervised-
Supervised Classification) était faite basée comme son nom l’indique sur une
combinaison entre méthode de classification non-supervisée et une
supervisée.
Le fonctionnement de la méthode se déroule essentiellement selon deux
phases : construction de la structure du classifieur et recherche de l’ensemble
des règles de classification pour les éléments de forme complexe.
La structure du classifieur est une structure arborescente elle prend la forme
d’un arbre. Durant la première étape la structure se construit dynamiquement
grâce à une méthode non-supervisée qui est la classification neuronale
NC(Neural Clustering) et des données d’apprentissage. L’arbre est composé
de nœuds et de feuilles. Les nœuds correspondent aux éléments de structure
qui n’influent pas directement sur les décisions de classification. Les feuilles
de l’arbre classifient les formes.
On aura à la fin une structure emboîtée de clusters qui peuvent être de deux
types simple et complexe. Ceux qui sont simples sont ceux qui contiennent
des vecteurs appartenant à une seule classe et ceux complexes sont ceux qui
contiennent des vecteurs appartenant à plusieurs clusters.
La deuxième phase qui est la recherche des règles de classification. Le but ici
c’est de trouver un ensemble de règles conjonctives dans les attributs qui
facilite la classification des éléments complexes. On tend à avoir des classes
exclusives. Ceci se fait ici via un extracteur de règles appelé Bee Miner. On
obtient à la fin un ensemble de règles relatives à chaque cluster.[3]

   b) Travail n°2 :
                                     -5-
Rapport de Stage Fatma Karem 2010

Les auteurs présentent un nouvel classifieur basé sur la combinaison de 6
classifieurs qui sont : FC (Fuzzy Clustering), l’approche bayésienne
paramétrique (BP), l’approche bayésienne non- paramétrique (BN), cartes
auto-organisatrices (Self-organizing feature maps (SO)) et deux versions des
approches de quantification d’apprentissage de vecteurs (learning vector
quantization approach (L1, L2)). La combinaison est faite grâce à une
approche de décision floue multi-critère (MCDM : Fuzzy multicriteria
decision making approach). Le nouveau classifieur opère selon le schéma ci-
dessous (fig1).




   Fig.1. L’architecture du classifieur hybride basé sur l’approche MCDM

- Le fonctionnement du classifieur se fait selon 2 étapes : apprentissage et
classification.

 Apprentissage :

Durant l’apprentissage, une partition optimale est construite à partir des
données d’apprentissage. Le partitionnement se fait grâce au clustering flou
(FC). Le nombre de clusters est mis à jour automatiquement jusqu’à tomber
sur le nombre de clusters optimal . La validation de la partition se fait grâce
à un critère: l’inertie intra-classe ou la somme des erreurs carrées comme ils
l’appellent dans l’article (SE : Sum-of-squared error criterion). Le critère en
question a été normalisé afin d’obtenir une valeur comprise entre 0 et 1.

                                    -6-
Rapport de Stage Fatma Karem 2010

Une fois la partition optimale a été trouvée (le nombre optimal de classes et
les sous-ensembles Si), on passe à l’estimation des paramètres des 5
classifieurs restants : BP, BN, SO, L1 et L2. Chacun des classifieurs reçoit les
centres initiaux obtenus pour la partition validée. Puis il les met à jour tout en
tenant compte du nombre optimal de clusters trouvé. Tous les paramètres
estimés de tous les classifieurs sont stockés.
Ensuite on passe à l’estimation des compétences de chacun. On calcule la la
somme normalisée des erreurs carrées pour FC, BP, SO, L1et L2. Et on
calcule pour BN le critère de variance minimale relative (VC) ( Related
minimum variance criteria). On obtient par conséquent à la fin les
compétences de chaque classifieur tout en tenant compte des sous-ensembles
Si avec leur nombre estimé de clusters .

 Classification :

On procède maintenant à la classification des nouveaux vecteurs x. Il faut
chercher à quelles classes ils appartiennent. La décision est prise grâce à la
combinaison des supports fournis par chacun des 6 classifieurs et leurs
compétences à travers une méthodologie floue multi-critère (MCDM). On
garde toujours le même nombre de classes .
L’approche en question considère deux critères : bénéfice (C1) et coût (C2).
C1 concerne les classifieurs suivants : FC, BP et BN. Il tient compte des
degrés flous d’appartenance de x aux clusters et les probabilités de x sachant
les clusters existants en utilisant les fonctions de densité de probabilité. C2 est
utilisé pour les 3 autres : SO, L1 et L2. Il utilise la distance euclidienne de x à
chacun des centres. Une fois calculés ces deux critères pour chacun ils seront
pondérés par des poids qui tiennent compte des performances des classifieurs
calculés dans l’étape d’apprentissage. On procède après à une construction de
table de décision de performance normalisée qui sélectionne la meilleure
alternative pour le nouveau vecteur.[4]

6) Réflexions sur la fusion entre classification
  supervisée et non- supervisée:
On reprend le formalisme mathématique fait précédemment :

        Classification supervisée              Classification non-supervisée
        P : population                            P : population
        D : ensemble de descripteurs              D : ensemble de descripteurs
        { q1,……,qns } : ensemble de               {c1,……,cns’ } : ensemble de
        classes                                   clusters

                                      -7-
Rapport de Stage Fatma Karem 2010

        Xs :          : fonction qui                 :           : fonction qui
        associe une description à tout            associe une description à tout
        élément de P                              élément de P
       Ys:       q1,……,qns} :                       :        c1,……,cns’} :
       fonction qui associe une classe           fonction qui associe un cluster
       à chaque élément de P                     à chaque élément de P
        C:      {q1,……,qns} :                          = {c1, c2,……,cns’ } : cadre
        fonction de classement                    de discernement du          non-
           = {q1, q2,……,qns } : cadre             supervisé
        de discernement du supervisé
                                                   c2                ,……………,c1
         q2               ,……………,q1               ∪c2∪c3∪……cns′           ,    :
        ∪q2∪q3∪……qns              , }:            ensemble de toutes les
        ensemble de toutes les                    disjonctions possibles des
        disjonctions possibles des                clusters ci
        classes qi
            : fonction de masse pour la               : fonction de masse pour
        classification supervisée qui             la      classification    non-
        vérifie     en    général    la           supervisée qui vérifie en
        contrainte :                              général la contrainte :




- On propose de chercher la correspondance entre les clusters et les classes
  en se basant sur une mesure de similarité entre les deux.
  Soit ql la classe qui correspond à un cluster ck , celle-ci est obtenue par la
  formule :

   CC(ck , qs) = ql avec S(ck , ql ) = max({ S(ck , qs ),   qs   { q1,……,qn } })
   (1)

   Avec S la mesure de similarité entre un cluster et une classe. Elle s’obtient
   grâce au recouvrement entre les deux. Premièrement il faut calculer
   l’intersection entre chaque couple : cluster et classe (ck , qs ) des deux
   résultats ( non-supervisé et supervisé) et l’écrire dans une matrice de
   confusion qu’on note       .




                                      -8-
Rapport de Stage Fatma Karem 2010




     Où

                      et                                             le nombre de
   clusters et le nombre de classes issues des deux types de classifications.
   Après, la similarité S(ck , qs) entre le cluster ck et la classe qs est évaluée en
   observant la relation entre la taille de leur intersection et la taille du
   cluster, et en tenant compte de la distribution des données dans la classe :


                                 S(ck , qs) =

- Une fois on a obtenu la correspondance entre les clusters et les classes. On
  procède à l’étiquetage des éléments de chaque cluster sur la base de l’étape
  précédente et son intersection avec sa classe correspondante :

        x         si x    ck et si x   B avec B =                  ql = CC(ck , qs)
      alors x   ql .

           x      si x    ck et si x   B alors x    ql .

   L’ambiguïté se présente pour le deuxième cas. On cherche alors les classes
   d’appartenance des points restants.
   Une fois la recherche terminée on calcule les fonctions de masse
   correspondantes de chaque cluster. Pour les clusters présentant plusieurs
   étiquettes de classe on peut attribuer à chaque sous-ensemble de la même
   étiquette une fonction de masse égale au rapport entre sa cardinalité et la
   cardinalité totale du cluster l’incluant en prenant comme valeur de
   coefficient d’affaiblissement le maximum entre les valeurs de masse
   trouvées précédemment.

   Le déroulement global du processus se présente comme suit :
   1- Lancement d’une méthode de classification non-supervisée.
   2- Lancement d’une méthode de classification supervisée.
   3- Recherche de la correspondance entre clusters et classes.
   4- Calcul des fonctions de masses pour chaque ensemble       et             .
   5- Faire la combinaison

                                        -9-
Rapport de Stage Fatma Karem 2010

     6- Décision

Bibliographie

[1] : Germain Forestier, Cédric Wemmert et Pierre Gançarski, “ Multisource
Images Analysis Using Collaborative Clustering,” 2008.


[2] : Arnaud Martin, “Fusion de classifieurs pour la classification d’images
sonar,” 2005.

[3] : Urszula Markowska-Kaczmar et Tomasz Switek, “Combined
Unsupervised-Supervised Classification Method,” dans Knowledge-Based and
Intelligent Information and Engineering Systems, 2009, 861-868,
http://dx.doi.org/10.1007/978-3-642-04592-9_107.


[4] : Maria Guijarro et Gonzalo Pajares, “On combining classifiers through a
fuzzy multicriteria decision making approach: Applied to natural textured
images,” 2009, Expert Systems with Applications 36 (2009) 7262–7269 edition.




                                    - 10 -

Mais conteúdo relacionado

Destaque

Rapport de stage (3)
Rapport de stage (3)Rapport de stage (3)
Rapport de stage (3)Hamza Chater
 
Auto apprentissage des langues avec les tice tarek, cherif, brahim et marion
Auto apprentissage des langues avec les tice tarek, cherif, brahim et marionAuto apprentissage des langues avec les tice tarek, cherif, brahim et marion
Auto apprentissage des langues avec les tice tarek, cherif, brahim et mariongringo24
 
Reportaje fotográfico de casi todo lo que hicimos en 2014
Reportaje fotográfico de casi todo lo que hicimos en 2014Reportaje fotográfico de casi todo lo que hicimos en 2014
Reportaje fotográfico de casi todo lo que hicimos en 2014ASPM
 
Cubicaje de mercancias peligrosas (21010102204)
Cubicaje  de mercancias peligrosas (21010102204)Cubicaje  de mercancias peligrosas (21010102204)
Cubicaje de mercancias peligrosas (21010102204)Ingrid Barreto
 
Plano secuencia
Plano secuenciaPlano secuencia
Plano secuencianandycg
 
2010 06-consel facebook
2010 06-consel facebook2010 06-consel facebook
2010 06-consel facebookfraniata15d
 
El convoydelavida
El convoydelavidaEl convoydelavida
El convoydelavidaamtrak
 
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRID
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRIDPresentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRID
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRIDASPM
 
tecnicas de estudio
tecnicas de estudiotecnicas de estudio
tecnicas de estudioosliroes
 
La fascinacion de la noche
La fascinacion de la nocheLa fascinacion de la noche
La fascinacion de la nocheLUZ M.
 
El libro del tesoro
El libro del tesoroEl libro del tesoro
El libro del tesoroLUZ M.
 
Miguel hernández
Miguel hernándezMiguel hernández
Miguel hernándezmilmy
 
Casos y cuestionarios taller actividades preventivas
Casos y cuestionarios taller actividades preventivasCasos y cuestionarios taller actividades preventivas
Casos y cuestionarios taller actividades preventivasfcamarelles
 

Destaque (20)

5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Rapport de stage (3)
Rapport de stage (3)Rapport de stage (3)
Rapport de stage (3)
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
 
Auto apprentissage des langues avec les tice tarek, cherif, brahim et marion
Auto apprentissage des langues avec les tice tarek, cherif, brahim et marionAuto apprentissage des langues avec les tice tarek, cherif, brahim et marion
Auto apprentissage des langues avec les tice tarek, cherif, brahim et marion
 
Reportaje fotográfico de casi todo lo que hicimos en 2014
Reportaje fotográfico de casi todo lo que hicimos en 2014Reportaje fotográfico de casi todo lo que hicimos en 2014
Reportaje fotográfico de casi todo lo que hicimos en 2014
 
Cubicaje de mercancias peligrosas (21010102204)
Cubicaje  de mercancias peligrosas (21010102204)Cubicaje  de mercancias peligrosas (21010102204)
Cubicaje de mercancias peligrosas (21010102204)
 
3 a globale
3 a globale3 a globale
3 a globale
 
Plano secuencia
Plano secuenciaPlano secuencia
Plano secuencia
 
Los animales
Los animalesLos animales
Los animales
 
Windows 7
Windows 7Windows 7
Windows 7
 
Ind4
Ind4Ind4
Ind4
 
2010 06-consel facebook
2010 06-consel facebook2010 06-consel facebook
2010 06-consel facebook
 
El convoydelavida
El convoydelavidaEl convoydelavida
El convoydelavida
 
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRID
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRIDPresentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRID
Presentación ASOCIACION DEL SECRETARIADO PROFESIONAL DE MADRID
 
tecnicas de estudio
tecnicas de estudiotecnicas de estudio
tecnicas de estudio
 
La fascinacion de la noche
La fascinacion de la nocheLa fascinacion de la noche
La fascinacion de la noche
 
El libro del tesoro
El libro del tesoroEl libro del tesoro
El libro del tesoro
 
Miguel hernández
Miguel hernándezMiguel hernández
Miguel hernández
 
Casos y cuestionarios taller actividades preventivas
Casos y cuestionarios taller actividades preventivasCasos y cuestionarios taller actividades preventivas
Casos y cuestionarios taller actividades preventivas
 
Sociedad XVI
Sociedad XVISociedad XVI
Sociedad XVI
 

Semelhante a Rapport de stage fatma karem

Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationUMONS
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
Bilan gpf algorithmique_site
Bilan gpf algorithmique_siteBilan gpf algorithmique_site
Bilan gpf algorithmique_siteWael Ismail
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Visualiser la collaboration : quels effets sur l'apprentissage ?
Visualiser la collaboration : quels effets sur l'apprentissage ?Visualiser la collaboration : quels effets sur l'apprentissage ?
Visualiser la collaboration : quels effets sur l'apprentissage ?UMONS
 
Rapport thèse ilef ben slima
Rapport thèse ilef ben slimaRapport thèse ilef ben slima
Rapport thèse ilef ben slimaIlef Ben Slima
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Les réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNLes réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNSALMARACHIDI1
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
Génération automatique de distracteurs dans le cadre de QCM
Génération automatique de distracteurs dans le cadre de QCMGénération automatique de distracteurs dans le cadre de QCM
Génération automatique de distracteurs dans le cadre de QCMThibault André
 
Présentation-Zippering.pptx
Présentation-Zippering.pptxPrésentation-Zippering.pptx
Présentation-Zippering.pptxZakariaNj
 

Semelhante a Rapport de stage fatma karem (20)

Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducation
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Bilan gpf algorithmique_site
Bilan gpf algorithmique_siteBilan gpf algorithmique_site
Bilan gpf algorithmique_site
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Visualiser la collaboration : quels effets sur l'apprentissage ?
Visualiser la collaboration : quels effets sur l'apprentissage ?Visualiser la collaboration : quels effets sur l'apprentissage ?
Visualiser la collaboration : quels effets sur l'apprentissage ?
 
Rapport thèse ilef ben slima
Rapport thèse ilef ben slimaRapport thèse ilef ben slima
Rapport thèse ilef ben slima
 
test
testtest
test
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
FRESNEL_Quentin_Rapport
FRESNEL_Quentin_RapportFRESNEL_Quentin_Rapport
FRESNEL_Quentin_Rapport
 
POO-Cours.pdf
POO-Cours.pdfPOO-Cours.pdf
POO-Cours.pdf
 
Les réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNLes réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNN
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Génération automatique de distracteurs dans le cadre de QCM
Génération automatique de distracteurs dans le cadre de QCMGénération automatique de distracteurs dans le cadre de QCM
Génération automatique de distracteurs dans le cadre de QCM
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
clustering
clusteringclustering
clustering
 
Présentation-Zippering.pptx
Présentation-Zippering.pptxPrésentation-Zippering.pptx
Présentation-Zippering.pptx
 

Mais de fatmakarem

3nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp023nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp02fatmakarem
 
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp014reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01fatmakarem
 
Sapev gabes 2012_atelier
Sapev gabes 2012_atelierSapev gabes 2012_atelier
Sapev gabes 2012_atelierfatmakarem
 
Presentation egc2012v2final
Presentation egc2012v2finalPresentation egc2012v2final
Presentation egc2012v2finalfatmakarem
 
Presentationbelief2012
Presentationbelief2012Presentationbelief2012
Presentationbelief2012fatmakarem
 
+Lelandais belief
+Lelandais belief+Lelandais belief
+Lelandais belieffatmakarem
 

Mais de fatmakarem (7)

3nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp023nouveautesmoodle2v1 111219173259-phpapp02
3nouveautesmoodle2v1 111219173259-phpapp02
 
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp014reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
4reseausociauxportfolioetblogsquelsavantagespdagogiques 111220175343-phpapp01
 
Sapev gabes 2012_atelier
Sapev gabes 2012_atelierSapev gabes 2012_atelier
Sapev gabes 2012_atelier
 
Presentation egc2012v2final
Presentation egc2012v2finalPresentation egc2012v2final
Presentation egc2012v2final
 
Presentationbelief2012
Presentationbelief2012Presentationbelief2012
Presentationbelief2012
 
+Lelandais belief
+Lelandais belief+Lelandais belief
+Lelandais belief
 
These lefort
These lefortThese lefort
These lefort
 

Rapport de stage fatma karem

  • 1. Combinaison de classification non supervisée et supervisée Thèse présentée par : Fatma Karem Encadreurs : Arnaud Martin Mounir Dhibi
  • 2. Rapport de Stage Fatma Karem 2010 Plan du rapport 1. Objectifs de la thèse 2. Problématique du sujet 3. Combinaison de classification non- supervisée 4. Combinaison de classification supervisée 5. Combinaison de classification mixte 6. Réflexions Bibliographie -1-
  • 3. Rapport de Stage Fatma Karem 2010 1) Objectifs de la thèse : Faire une combinaison entre une méthode de classification non-supervisée avec celle supervisée en vue d’améliorer la qualité de la classification. 2) Problématique du sujet : Avant d’aborder la problématique du sujet on commence par présenter brièvement la classification supervisée et non supervisée. a) Classification supervisée et non-supervisée : L’objectif de la classification c’est d’identifier les classes auxquelles appartiennent des objets à partir de traits descriptifs (attributs, caractéristiques). On distingue deux types de classifications supervisée et non-supervisée appelée aussi "classification automatique" ou "clustering" ou "regroupement". - Si on est dans le dernier cas on est appelé à identifier les populations d’un ensemble de données. Il faut pouvoir affecter une nouvelle observation à une classe. Le problème ici est difficile puisque les observations disponibles ne sont pas initialement identifiées comme appartenant à telle ou telle population : il faudra déduire cette information de la répartition spatiale des observations. Parmi les méthodes non-supervisées courantes : K-means, classification hiérarchique. - Si on est dans le contexte supervisé on dispose déjà des exemples déjà étiquetés. L’objectif ici est d’apprendre à l’aide d’un ensemble d'entraînement des règles qui permettent de prédire (ou « deviner ») certaines caractéristiques de nouvelles observations. On construit alors un modèle en vue de classer les nouvelles observations. Parmi les méthodes supervisées on cite : discrimination linéaire (Ex: régression logistique ou recherche d’hyperplan séparateur), régression en général, méthode des plus proches voisins, arbres de décision, réseaux de neurones, machines à vecteur de support (SVM) et classificateur de Bayes. Quelque soit le type de classification on est confronté à des problèmes dont on cite le manque de données pour faire l’apprentissage, données incertaines et imprécises ce qui empêche la construction d’un modèle correct dans le cas -2-
  • 4. Rapport de Stage Fatma Karem 2010 supervisé. Pour la classification non-supervisée : on trouve la difficulté de limiter les frontières des classes qui ne sont pas toujours reconnaissables, l’espace à plusieurs dimensions (>2) et la dépendance des paramètres initiaux. Une solution envisageable pour surmonter les problèmes des deux types est la fusion. b) Formalisme mathématique de la problématique : On présente les deux formalismes relatifs à chaque type de classification : Classification supervisée Classification non-supervisée P : population P : population D : ensemble de descripteurs D : ensemble de descripteurs {q1,……,qns } : ensemble de {c1,……,cns’ } : ensemble de classes clusters Xs : : fonction qui : : fonction qui associe une description à tout associe une description à tout élément de P élément de P Ys: : : : fonction qui associe une classe fonction qui associe un cluster à à chaque élément de P chaque élément de P C: {1,……,qns } : fonction Objectif recherché : trouver de classement Objectif recherché : apprendre C. Les principales difficultés qui découlent auxquelles est confronté la fusion sont la différence entre les nombres de classes et de clusters générées, problème de correspondance entre les deux et la résolution de conflit et d’ambiguïté engendrés. Les principales problématiques qui se présentent sont : - Chercher CC(c,q) : la correspondance entre un cluster c et une classe q. CC : {c1,……,cn } { q1,……,qn } -3-
  • 5. Rapport de Stage Fatma Karem 2010 - Optimiser ns et ns’ afin d’avoir à la fin : ( ns et ns’ sont respectivement le nombre de classes et clusters trouvés). On présentera dans ce qui suit quelques travaux émanant de chaque type de combinaison : 3)Combinaison de classification non-supervisée : On présentera à ce niveau un travail marquant qui est celui de Cédric Wemmert, Pierre Gançarski et Germain Forestier. L’objectif était de faire une nouvelle méthode de classification basée sur la collaboration de plusieurs classifieurs non-supervisés. Celle-ci se déroule en trois étapes : tournage indépendant et parallèle des classifieurs, évaluation des résultats de chacun et raffinement, et unification des résultats. La deuxième étape est l’étape la plus délicate puisque la correspondance entre les clusters de chaque couple de classifieurs et une résolution de conflits sont faite à ce stade là d’une façon itérative afin d’obtenir un nombre similaire de classes. A la fin une unification est envisagée grâce à la méthode de vôte par exemple. Les actions à envisager en cas de conflit sont : scission, fusion ou suppression de clusters. La combinaison était employée pour faire une analyse d’images multi- sources. Le problème d’hétérogénéité des sources, résolutions et de temps d’acquisition se pose. Une meilleure solution était de combiner pour alléger les obstacles rencontrés. [1] 4)Combinaison de classification supervisée : Comme travail fait on présente le travail d’Arnaud Martin en vue de classifier les images sonar. Le problème de caractérisation des fonds marins est toujours lié aux méthodes d’analyses de texture qui sont en abondance ce qui présente une difficulté au niveau du choix de la meilleure. Il est lié aussi au problème de l’imperfection des appareils de mesure. La solution proposée était de fusionner 4 classifieurs constitué chacun d’une méthode d’extraction de paramètres de texture et d’un perceptron multi-couches. La fusion d’informations haut niveau se fait au niveau des sorties numériques des perceptrons soit au niveau des sorties symboliques représentant les classes affectées. Les paramètres extraits des classifieurs sont les matrices de co- -4-
  • 6. Rapport de Stage Fatma Karem 2010 occurrence, les matrices de longueurs de plages, la transformée en ondelettes et les filtres de Gabor. Ces quatre jeux de paramètres sont ensuite considérés indépendamment à l’entrée de quatre perceptrons multicouche ayant chacun une couche de sortie de six neurones correspondant aux six classes de sédiments présents dans les images sonar. La fusion était faite grâce à la théorie des croyances. [2] 5) Combinaison mixte de classification : On présentera deux travaux de cette catégorie. Le premier est celui d’Urszula Markowska-Kaczmar et Tomaz Switek. Le deuxième appartient à Maria Guijarro et Gonzalo Pajares. a) Travail n°1 : Une nouvelle methode de classification CUSC (Combined Unsupervised- Supervised Classification) était faite basée comme son nom l’indique sur une combinaison entre méthode de classification non-supervisée et une supervisée. Le fonctionnement de la méthode se déroule essentiellement selon deux phases : construction de la structure du classifieur et recherche de l’ensemble des règles de classification pour les éléments de forme complexe. La structure du classifieur est une structure arborescente elle prend la forme d’un arbre. Durant la première étape la structure se construit dynamiquement grâce à une méthode non-supervisée qui est la classification neuronale NC(Neural Clustering) et des données d’apprentissage. L’arbre est composé de nœuds et de feuilles. Les nœuds correspondent aux éléments de structure qui n’influent pas directement sur les décisions de classification. Les feuilles de l’arbre classifient les formes. On aura à la fin une structure emboîtée de clusters qui peuvent être de deux types simple et complexe. Ceux qui sont simples sont ceux qui contiennent des vecteurs appartenant à une seule classe et ceux complexes sont ceux qui contiennent des vecteurs appartenant à plusieurs clusters. La deuxième phase qui est la recherche des règles de classification. Le but ici c’est de trouver un ensemble de règles conjonctives dans les attributs qui facilite la classification des éléments complexes. On tend à avoir des classes exclusives. Ceci se fait ici via un extracteur de règles appelé Bee Miner. On obtient à la fin un ensemble de règles relatives à chaque cluster.[3] b) Travail n°2 : -5-
  • 7. Rapport de Stage Fatma Karem 2010 Les auteurs présentent un nouvel classifieur basé sur la combinaison de 6 classifieurs qui sont : FC (Fuzzy Clustering), l’approche bayésienne paramétrique (BP), l’approche bayésienne non- paramétrique (BN), cartes auto-organisatrices (Self-organizing feature maps (SO)) et deux versions des approches de quantification d’apprentissage de vecteurs (learning vector quantization approach (L1, L2)). La combinaison est faite grâce à une approche de décision floue multi-critère (MCDM : Fuzzy multicriteria decision making approach). Le nouveau classifieur opère selon le schéma ci- dessous (fig1). Fig.1. L’architecture du classifieur hybride basé sur l’approche MCDM - Le fonctionnement du classifieur se fait selon 2 étapes : apprentissage et classification.  Apprentissage : Durant l’apprentissage, une partition optimale est construite à partir des données d’apprentissage. Le partitionnement se fait grâce au clustering flou (FC). Le nombre de clusters est mis à jour automatiquement jusqu’à tomber sur le nombre de clusters optimal . La validation de la partition se fait grâce à un critère: l’inertie intra-classe ou la somme des erreurs carrées comme ils l’appellent dans l’article (SE : Sum-of-squared error criterion). Le critère en question a été normalisé afin d’obtenir une valeur comprise entre 0 et 1. -6-
  • 8. Rapport de Stage Fatma Karem 2010 Une fois la partition optimale a été trouvée (le nombre optimal de classes et les sous-ensembles Si), on passe à l’estimation des paramètres des 5 classifieurs restants : BP, BN, SO, L1 et L2. Chacun des classifieurs reçoit les centres initiaux obtenus pour la partition validée. Puis il les met à jour tout en tenant compte du nombre optimal de clusters trouvé. Tous les paramètres estimés de tous les classifieurs sont stockés. Ensuite on passe à l’estimation des compétences de chacun. On calcule la la somme normalisée des erreurs carrées pour FC, BP, SO, L1et L2. Et on calcule pour BN le critère de variance minimale relative (VC) ( Related minimum variance criteria). On obtient par conséquent à la fin les compétences de chaque classifieur tout en tenant compte des sous-ensembles Si avec leur nombre estimé de clusters .  Classification : On procède maintenant à la classification des nouveaux vecteurs x. Il faut chercher à quelles classes ils appartiennent. La décision est prise grâce à la combinaison des supports fournis par chacun des 6 classifieurs et leurs compétences à travers une méthodologie floue multi-critère (MCDM). On garde toujours le même nombre de classes . L’approche en question considère deux critères : bénéfice (C1) et coût (C2). C1 concerne les classifieurs suivants : FC, BP et BN. Il tient compte des degrés flous d’appartenance de x aux clusters et les probabilités de x sachant les clusters existants en utilisant les fonctions de densité de probabilité. C2 est utilisé pour les 3 autres : SO, L1 et L2. Il utilise la distance euclidienne de x à chacun des centres. Une fois calculés ces deux critères pour chacun ils seront pondérés par des poids qui tiennent compte des performances des classifieurs calculés dans l’étape d’apprentissage. On procède après à une construction de table de décision de performance normalisée qui sélectionne la meilleure alternative pour le nouveau vecteur.[4] 6) Réflexions sur la fusion entre classification supervisée et non- supervisée: On reprend le formalisme mathématique fait précédemment : Classification supervisée Classification non-supervisée P : population P : population D : ensemble de descripteurs D : ensemble de descripteurs { q1,……,qns } : ensemble de {c1,……,cns’ } : ensemble de classes clusters -7-
  • 9. Rapport de Stage Fatma Karem 2010 Xs : : fonction qui : : fonction qui associe une description à tout associe une description à tout élément de P élément de P Ys: q1,……,qns} : : c1,……,cns’} : fonction qui associe une classe fonction qui associe un cluster à chaque élément de P à chaque élément de P C: {q1,……,qns} : = {c1, c2,……,cns’ } : cadre fonction de classement de discernement du non- = {q1, q2,……,qns } : cadre supervisé de discernement du supervisé c2 ,……………,c1 q2 ,……………,q1 ∪c2∪c3∪……cns′ , : ∪q2∪q3∪……qns , }: ensemble de toutes les ensemble de toutes les disjonctions possibles des disjonctions possibles des clusters ci classes qi : fonction de masse pour la : fonction de masse pour classification supervisée qui la classification non- vérifie en général la supervisée qui vérifie en contrainte : général la contrainte : - On propose de chercher la correspondance entre les clusters et les classes en se basant sur une mesure de similarité entre les deux. Soit ql la classe qui correspond à un cluster ck , celle-ci est obtenue par la formule : CC(ck , qs) = ql avec S(ck , ql ) = max({ S(ck , qs ), qs { q1,……,qn } }) (1) Avec S la mesure de similarité entre un cluster et une classe. Elle s’obtient grâce au recouvrement entre les deux. Premièrement il faut calculer l’intersection entre chaque couple : cluster et classe (ck , qs ) des deux résultats ( non-supervisé et supervisé) et l’écrire dans une matrice de confusion qu’on note . -8-
  • 10. Rapport de Stage Fatma Karem 2010 Où et le nombre de clusters et le nombre de classes issues des deux types de classifications. Après, la similarité S(ck , qs) entre le cluster ck et la classe qs est évaluée en observant la relation entre la taille de leur intersection et la taille du cluster, et en tenant compte de la distribution des données dans la classe : S(ck , qs) = - Une fois on a obtenu la correspondance entre les clusters et les classes. On procède à l’étiquetage des éléments de chaque cluster sur la base de l’étape précédente et son intersection avec sa classe correspondante :  x si x ck et si x B avec B = ql = CC(ck , qs) alors x ql .  x si x ck et si x B alors x ql . L’ambiguïté se présente pour le deuxième cas. On cherche alors les classes d’appartenance des points restants. Une fois la recherche terminée on calcule les fonctions de masse correspondantes de chaque cluster. Pour les clusters présentant plusieurs étiquettes de classe on peut attribuer à chaque sous-ensemble de la même étiquette une fonction de masse égale au rapport entre sa cardinalité et la cardinalité totale du cluster l’incluant en prenant comme valeur de coefficient d’affaiblissement le maximum entre les valeurs de masse trouvées précédemment. Le déroulement global du processus se présente comme suit : 1- Lancement d’une méthode de classification non-supervisée. 2- Lancement d’une méthode de classification supervisée. 3- Recherche de la correspondance entre clusters et classes. 4- Calcul des fonctions de masses pour chaque ensemble et . 5- Faire la combinaison -9-
  • 11. Rapport de Stage Fatma Karem 2010 6- Décision Bibliographie [1] : Germain Forestier, Cédric Wemmert et Pierre Gançarski, “ Multisource Images Analysis Using Collaborative Clustering,” 2008. [2] : Arnaud Martin, “Fusion de classifieurs pour la classification d’images sonar,” 2005. [3] : Urszula Markowska-Kaczmar et Tomasz Switek, “Combined Unsupervised-Supervised Classification Method,” dans Knowledge-Based and Intelligent Information and Engineering Systems, 2009, 861-868, http://dx.doi.org/10.1007/978-3-642-04592-9_107. [4] : Maria Guijarro et Gonzalo Pajares, “On combining classifiers through a fuzzy multicriteria decision making approach: Applied to natural textured images,” 2009, Expert Systems with Applications 36 (2009) 7262–7269 edition. - 10 -