SlideShare uma empresa Scribd logo
1 de 14
(k narres neighbours, ou k plus proches
      voisins)

                  Réalisé par :
                 Wassim
                 Lahbibi


2012-2013
plan   1         Introduction

       2         Généralités

       3      Domaine d’activité

       4     Principe de
           fonctionnement
       5      Mesures de distance

       6    Notations et Algorithme

       7    Avantage et inconvénient

       8          conclusion
Introduction
   Le data mining emploie des techniques et des
    algorithme issus de disciplines scientifiques
    diverses telles que
    les statistiques, l‘intelligence artificielle ou
    l‘informatique, pour construire des modèles à
    partir des données
   Parmi les techniques utilisées, il ya la méthode
    de k plus proche voisin.
Généralités
•   la méthode des k plus proches voisins est une méthode de
    d’apprentissage supervisé.

•   dédiée à la classification.

•   En abrégé k-NN ou KNN, de l'anglais k-nearest neighbor.

•   L’algorithme KNN figure parmi les plus simples algorithmes
    d’apprentissage artificiel.

•   L’objectif de l’algorithme est de classé les exemples non
    étiquetés sur la base de leur similarité avec les exemples
    de la base d’apprentissage .
Domaine d’activité
   L’algorithme kNN est utilisée dans de
    nombreux domaines :

•   La reconnaissance de formes.
•   La recherche de nouveaux biomarqueurs pour
    le diagnostic.
•   Algorithmes de compression.
•   Analyse d’image satellite
•   Marketing ciblé
Principe de fonctionnement
   Le principe de cet algorithme de classification est
    très simple. On lui fournit:
•    un ensemble de données d’apprentissage D
•   une fonction de distance d
•   et un entier k

   Pour tout nouveau point de test x, pour lequel il
    doit prendre une décision, l’algorithme recherche
    dans D les k points les plus proches de x au sens
    de la distance d , et attribue x à la classe qui est
    la plus fréquente parmi ces k voisins.
Exemple

•Dans l’exemple suivant, on a 3 classes
et le but est de trouver la valeur de la classe de l’exemple
inconnu x.
•On prend la distance Euclidienne et k=5 voisins
•Des 5 plus proches voisins, 4 appartiennent à ω1 et 1
appartient à ω3, donc x est affecté à ω1, la classe majoritaire
Comment choisir la valeur de K
?
   K=1 : frontières des classes très complexes
      très sensible aux fluctuations des données
       (variance élevée).
      risque de sur-ajustement.

      résiste mal aux données bruitées.

   K=n : frontière rigide
      moins sensible au bruit

      plus la valeur de k est grande plus la
       résultat d’affectation est bien réalisée
Mesures de distance
   Mesures souvent utilisées pour la distance dist(xi, xj)
•   la distance Euclidienne: qui calcule la racine carrée de la
    somme des différences carrées entre les coordonnées de
    deux points :




   la distance de Manhattan: qui calcule la somme des valeur
    absolue des différences entre les coordonnées de deux
    points :




•   la distance de Minkowski: qui est une métrique de distance
    générale.
Notations et Algorithme
     Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage
     Soit x l’exemple dont on souhaite déterminer la classe

Algorithme
Début
  pour chaque ( (x′, c) ∈ D) faire
  Calculer la distance dist(x, x′)
  fin

      pour chaque {x′ ∈ kppv(x)} faire
          compter le nombre d’occurrence de chaque classe
      fin
          Attribuer à x la classe la plus fréquente;
fin
Avantages

    Apprentissage rapide
    Méthode facile à comprendre
    Adapté aux domaines où chaque classe est
     représentée par plusieurs prototypes et où
     les frontières sont irrégulières (ex.
     Reconnaissance de chiffre manuscrits ou
     d'images satellites)
Inconvénients

    prédiction lente car il faut revoir tous les
     exemples à chaque fois.
    méthode gourmande en place mémoire
    sensible aux attributs non pertinents et
     corrélés
    particulièrement vulnérable au fléau de la
     dimensionnalité
Conclusion
   dans cette présentation nous avons vue le
    principe de k plus proche voisin mais il y a
    d’autres algorithmes utilisés par le data mining
    comme :
   Arbres de décision
   Réseaux de neurones
   Classification bayésienne…
Merci pour votre
   attention

Mais conteúdo relacionado

Mais procurados

Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheMohamed Heny SELMI
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueYosra ADDALI
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesSana Aroussi
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
Benharratharijtp4 arbre de décision
Benharratharijtp4 arbre de décisionBenharratharijtp4 arbre de décision
Benharratharijtp4 arbre de décisionARIJ BenHarrath
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 

Mais procurados (20)

Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
 
Rapport PFE
Rapport PFERapport PFE
Rapport PFE
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Benharratharijtp4 arbre de décision
Benharratharijtp4 arbre de décisionBenharratharijtp4 arbre de décision
Benharratharijtp4 arbre de décision
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 

Semelhante a Algorithme knn

FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
Recursive Neural Network summary
Recursive Neural Network summaryRecursive Neural Network summary
Recursive Neural Network summaryStephen Larroque
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningBassem Brayek
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdfMouloudi1
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienneJulien Bect
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Soumia Elyakote HERMA
 
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...Julien Bect
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelMahdi Zarg Ayouna
 
Presoutenance
PresoutenancePresoutenance
PresoutenanceJun XIONG
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdfPenielLoyi
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learningFrederic Simard
 
Présentation_IA.pptx
Présentation_IA.pptxPrésentation_IA.pptx
Présentation_IA.pptxmelissa943854
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanMedalith Estrada
 

Semelhante a Algorithme knn (20)

FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
Recursive Neural Network summary
Recursive Neural Network summaryRecursive Neural Network summary
Recursive Neural Network summary
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Algorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learningAlgorithmes machine learning/ neural network / deep learning
Algorithmes machine learning/ neural network / deep learning
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 
optimisation cours.pdf
optimisation cours.pdfoptimisation cours.pdf
optimisation cours.pdf
 
test
testtest
test
 
Rc ia-benmammar
Rc ia-benmammarRc ia-benmammar
Rc ia-benmammar
 
Planification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésiennePlanification et analyse d'expériences numériques: approche bayésienne
Planification et analyse d'expériences numériques: approche bayésienne
 
Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
 
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
 
Presoutenance
PresoutenancePresoutenance
Presoutenance
 
Soutenance 17 Avril 2003
Soutenance 17 Avril 2003Soutenance 17 Avril 2003
Soutenance 17 Avril 2003
 
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdftoaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learning
 
Présentation_IA.pptx
Présentation_IA.pptxPrésentation_IA.pptx
Présentation_IA.pptx
 
Clustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregmanClustering efficace avec les divergences de bregman
Clustering efficace avec les divergences de bregman
 

Algorithme knn

  • 1. (k narres neighbours, ou k plus proches voisins) Réalisé par : Wassim Lahbibi 2012-2013
  • 2. plan 1 Introduction 2 Généralités 3 Domaine d’activité 4 Principe de fonctionnement 5 Mesures de distance 6 Notations et Algorithme 7 Avantage et inconvénient 8 conclusion
  • 3. Introduction  Le data mining emploie des techniques et des algorithme issus de disciplines scientifiques diverses telles que les statistiques, l‘intelligence artificielle ou l‘informatique, pour construire des modèles à partir des données  Parmi les techniques utilisées, il ya la méthode de k plus proche voisin.
  • 4. Généralités • la méthode des k plus proches voisins est une méthode de d’apprentissage supervisé. • dédiée à la classification. • En abrégé k-NN ou KNN, de l'anglais k-nearest neighbor. • L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel. • L’objectif de l’algorithme est de classé les exemples non étiquetés sur la base de leur similarité avec les exemples de la base d’apprentissage .
  • 5. Domaine d’activité  L’algorithme kNN est utilisée dans de nombreux domaines : • La reconnaissance de formes. • La recherche de nouveaux biomarqueurs pour le diagnostic. • Algorithmes de compression. • Analyse d’image satellite • Marketing ciblé
  • 6. Principe de fonctionnement  Le principe de cet algorithme de classification est très simple. On lui fournit: • un ensemble de données d’apprentissage D • une fonction de distance d • et un entier k  Pour tout nouveau point de test x, pour lequel il doit prendre une décision, l’algorithme recherche dans D les k points les plus proches de x au sens de la distance d , et attribue x à la classe qui est la plus fréquente parmi ces k voisins.
  • 7. Exemple •Dans l’exemple suivant, on a 3 classes et le but est de trouver la valeur de la classe de l’exemple inconnu x. •On prend la distance Euclidienne et k=5 voisins •Des 5 plus proches voisins, 4 appartiennent à ω1 et 1 appartient à ω3, donc x est affecté à ω1, la classe majoritaire
  • 8. Comment choisir la valeur de K ?  K=1 : frontières des classes très complexes  très sensible aux fluctuations des données (variance élevée).  risque de sur-ajustement.  résiste mal aux données bruitées.  K=n : frontière rigide  moins sensible au bruit  plus la valeur de k est grande plus la résultat d’affectation est bien réalisée
  • 9. Mesures de distance  Mesures souvent utilisées pour la distance dist(xi, xj) • la distance Euclidienne: qui calcule la racine carrée de la somme des différences carrées entre les coordonnées de deux points :  la distance de Manhattan: qui calcule la somme des valeur absolue des différences entre les coordonnées de deux points : • la distance de Minkowski: qui est une métrique de distance générale.
  • 10. Notations et Algorithme  Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage  Soit x l’exemple dont on souhaite déterminer la classe Algorithme Début pour chaque ( (x′, c) ∈ D) faire Calculer la distance dist(x, x′) fin pour chaque {x′ ∈ kppv(x)} faire compter le nombre d’occurrence de chaque classe fin Attribuer à x la classe la plus fréquente; fin
  • 11. Avantages  Apprentissage rapide  Méthode facile à comprendre  Adapté aux domaines où chaque classe est représentée par plusieurs prototypes et où les frontières sont irrégulières (ex. Reconnaissance de chiffre manuscrits ou d'images satellites)
  • 12. Inconvénients  prédiction lente car il faut revoir tous les exemples à chaque fois.  méthode gourmande en place mémoire  sensible aux attributs non pertinents et corrélés  particulièrement vulnérable au fléau de la dimensionnalité
  • 13. Conclusion  dans cette présentation nous avons vue le principe de k plus proche voisin mais il y a d’autres algorithmes utilisés par le data mining comme :  Arbres de décision  Réseaux de neurones  Classification bayésienne…
  • 14. Merci pour votre attention