SlideShare uma empresa Scribd logo
1 de 18
Apprentissage « machine »
Qu’est-ce que l’apprentissage ?
Allons voir ce que le grand dictionnaire
terminologique de l’office québécois de la
langue française en dit…
Apprentissage machine
Pour nos besoins, nous exclurons de
l’apprentissage machine des tâches telles
que l’acquisition et la recherche
d’information, l’expression des
connaissances (représentation et
organisation) et le raisonnement automatisé
(déduction et inférence logique), au profit de
la tâche de reconnaissance de formes.
Reconnaissance de formes
• La reconnaissance de formes est une caractéristique importante de
l’intelligence humaine, elle nous est familier, facile, naturel, automatique.
• Facilement, nous reconnaissons un visage, comprenons des mots et des
phrases parlés, l’écriture manuscrite, nous identifions nos clés parmi
d’autres, détectons un fruit trop mûr par sa texture ou son odeur ainsi que
plusieurs autres tâches de reconnaissance de formes – action de saisir des
données brutes et de poser une action en fonction de la catégorie ou classe
de la forme.
• Depuis notre existence, notre système cognitif a évolué de manière à
effectuer ces tâches cruciales à notre survie.
• Il est donc naturel de vouloir inventer des machines qui peuvent effectuer le
même genre de tâches : la reconnaissance de la parole et de caractères
optiques, et même certaines tâches du même type mais qui sont difficiles,
voir impossibles pour l’humain : la reconnaissance d’empreintes digitales, de
séquences d’ADN, de profils d’expression génétique, etc.
• L’apprentissage machine est donc une approche applicable à un grand
nombre de problèmes, et en particulier de bioinformatique.
Quand peut-on utiliser l’apprentissage machine ?
• Les algorithmes d’apprentissage s’appliquent lorsqu’il n’y a pas
suffisamment de connaissances pour développer un algorithme qui résout
le problème mais qu’on dispose de plusieurs exemples de la tâche à
accomplir (cf. base de données = exemples).
• Applications :
– Filtrage (pattern matching; reconnaissance d’images, de sons, etc)
• Cas classiques : visages, caractères, voix, etc
• Cas bioinformatiques : séquences, structures moléculaires, m-arrays, spectrométrie de
masses, etc
– Prise de décision
• Cas classiques : finance, marketing
• Cas bioinformatiques : traitements thérapeutiques
– Estimation
• Cas classiques : risque de crédit, probabilité de fraude, primes d’assurances
• Cas bioinformatiques : drug design
Un exemple : l’apprentissage supervisé
• Supervision (entraînement)
– Le système « apprend » à partir d’exemples qu’on lui
présente
– Le système modifie graduellement les paramètres pour
que ses réponses soient de plus en plus « exactes »
• Utilisation
– On interroge le système sur de nouveaux exemples
jamais vus auparavant
En fait, on demande au système de GÉNÉRALISER
Reconnaissance d’images
Exemples d’entraînement : { (image, prénom) }
: { (donnée, étiquette) }
: { ( X, Y ) }
Entraînement avec plusieurs images d’individus
Anita
Éric
Ratiba
Marc
Paul
Utilisation,
Qui est-ce?
( , prénom? )
Solution avec l’algorithme du plus
proche voisin (nearest neighbor)
Choisir parmi les
exemples d’apprentissage
le ‘profil’ (image)
le plus proche du
nouvel exemple.
Qui est-ce ?
C’est Paul !
plus proche voisin
Types de problèmes
• Classification
– Reconnaître l’appartenance d’un exemple donné à
une CLASSE.
• Est-ce un visage?
• Si oui, de qui s’agit-il ? (choisir parmi un ensemble fini et
connu d’exemples)
• Régression
– Prédire à partir d’exemples (cf. prédire la valeur en
bourse de demain étant donné les valeurs du passé).
• Estimation de densité
– A-t-on déjà vu cet exemple ou un exemple similaire ?
– Quelles sont les K catégories principales des
données ?
Types d’apprentissage
• Supervisé
– On donne “la bonne réponse” pendant
l’entraînement
– Efficace car on fournit de l’information
– Utile pour classification, régression,
estimation de probabilité conditionnelle (quelle
est la probabilité qu’un client avec tel profil achète tel produit ?)
• Non supervisé
– Établir quelles sont les catégories principales
des données/exemples
Généraliser est difficile
• On ne veut pas « apprendre par cœur »
– Ce qui impliquerait de trouver la bonne réponse
seulement sur les exemples d’entraînement.
• Facile et rapide pour un ordinateur (revient à chercher)
• Difficile pour les humains (cf. on force les enfants !)
• Apprendre pour « généraliser »
– Plus intéressant !
– FONDAMENTALEMENT plus difficile et peut se
faire de plusieurs façons différentes.
– On doit extraire l’essentiel dans les données.
Exemple: Les données
2 4 6 8 10
0.5
1
1.5
2
2.5
3
a. Underlying Function
La ligne pointillée
représente la meilleure
« réponse » possible
étant donné les
exemples mais elle est
inconnue de
l’apprenant.
Exemples = { (x, y) }
Par cœur (overfitting)
2 4 6 8 10
0.5
1
1.5
2
2.5
3
b. Overfitting
On apprend par
cœur. Aucune
généralisation.
Erreur faible sur
les exemples
d’apprentissage
mais élevée pour
les nouveaux
exemples.
« Underfitting »
2 4 6 8 10
0.5
1
1.5
2
2.5
3
c. Underfitting On choisi un
modèle trop
simple, linéaire.
Erreur élevée sur
les exemples
d’apprentissage
ET sur les
nouveaux
exemples.
Un « bon modèle »
2 4 6 8 10
0.5
1
1.5
2
2.5
3
d. Good Fit
Le modèle est
suffisamment
flexible pour
capturer la forme
courbe mais pas
trop pour éviter
l’apprentissage par
cœur (overfitting).
Apprentissage machine
• Se situe à l’intersection des sciences de
l’informatique, des probabilités et
statistiques et du domaine de l’application.
Informatique
Domaine d’application
Probabilités et
statistiques
Types d’apprentissage machine
• Non supervisé et groupage
– Analyse des composantes principales
– Analyse des composantes indépendantes
– Échelonnement multidimensionnel
– Groupage linéaire (« flat » clustering; méthode k-means)
– Groupage hiérarchique
• Supervisé
– Problèmes de classification et de régression
– Plus proches voisins
– Perceptrons
– Arbres de décision et de régression
– Régression linéaire et logique
– Réseaux de neurones artificiels
– Machines à vecteurs de support
• Modélisation probabiliste
– Vraisemblance maximum
– Modèles discrets
– Chaînes de Markov
– Estimation paramétriques
– Réseaux Bayesiens

Mais conteúdo relacionado

Semelhante a Introduction Apprentissage.ppt

Méthodologie complète pour la recherche d'information
Méthodologie complète pour la recherche d'informationMéthodologie complète pour la recherche d'information
Méthodologie complète pour la recherche d'information
cdicondorcet02
 
Si km rse
Si km   rseSi km   rse
Si km rse
jmbnzc
 

Semelhante a Introduction Apprentissage.ppt (20)

Méthodologie complète pour la recherche d'information
Méthodologie complète pour la recherche d'informationMéthodologie complète pour la recherche d'information
Méthodologie complète pour la recherche d'information
 
Recherche, données, représentations
Recherche, données, représentationsRecherche, données, représentations
Recherche, données, représentations
 
La Marelle Du Savoir SEREC
La Marelle Du Savoir SERECLa Marelle Du Savoir SEREC
La Marelle Du Savoir SEREC
 
Les différentes méthodes pédagogiques diaporama
Les différentes méthodes pédagogiques diaporamaLes différentes méthodes pédagogiques diaporama
Les différentes méthodes pédagogiques diaporama
 
Transmettre mes connaissances - Cap Retraite
Transmettre mes connaissances - Cap RetraiteTransmettre mes connaissances - Cap Retraite
Transmettre mes connaissances - Cap Retraite
 
Devenir Data Scientist ? 7 Questions pour tester ses soft skills essentiels
Devenir Data Scientist ? 7 Questions pour tester ses soft skills essentielsDevenir Data Scientist ? 7 Questions pour tester ses soft skills essentiels
Devenir Data Scientist ? 7 Questions pour tester ses soft skills essentiels
 
Tendances emploi 2017
Tendances emploi 2017Tendances emploi 2017
Tendances emploi 2017
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptx
 
Comment faire des fiches de révision
Comment faire des fiches de révisionComment faire des fiches de révision
Comment faire des fiches de révision
 
Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative Module 9 méthodologie incef pour une session éducative
Module 9 méthodologie incef pour une session éducative
 
Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative Module 8 méthodologie incef pour une session éducative
Module 8 méthodologie incef pour une session éducative
 
12 etapes pour reussir votre questionnaire - Livre blanc dialoog
12 etapes pour reussir votre questionnaire - Livre blanc dialoog12 etapes pour reussir votre questionnaire - Livre blanc dialoog
12 etapes pour reussir votre questionnaire - Livre blanc dialoog
 
Rédaction scientifique_Partie 3
Rédaction scientifique_Partie 3Rédaction scientifique_Partie 3
Rédaction scientifique_Partie 3
 
Problem based learning 2011
Problem based learning 2011Problem based learning 2011
Problem based learning 2011
 
WEB 2.0 Ecole seminaire F MEULEMAN
WEB 2.0 Ecole seminaire F MEULEMANWEB 2.0 Ecole seminaire F MEULEMAN
WEB 2.0 Ecole seminaire F MEULEMAN
 
UX Research : comment bien exploiter vos données collectées ?
UX Research : comment bien exploiter vos données collectées ? UX Research : comment bien exploiter vos données collectées ?
UX Research : comment bien exploiter vos données collectées ?
 
test
testtest
test
 
Si km rse
Si km   rseSi km   rse
Si km rse
 
Cours methodo kr (2)
Cours methodo kr (2)Cours methodo kr (2)
Cours methodo kr (2)
 
Une charge mentale équilibrée : terreau d'innovation du produit. par Véroniqu...
Une charge mentale équilibrée : terreau d'innovation du produit. par Véroniqu...Une charge mentale équilibrée : terreau d'innovation du produit. par Véroniqu...
Une charge mentale équilibrée : terreau d'innovation du produit. par Véroniqu...
 

Introduction Apprentissage.ppt

  • 3. Allons voir ce que le grand dictionnaire terminologique de l’office québécois de la langue française en dit…
  • 4. Apprentissage machine Pour nos besoins, nous exclurons de l’apprentissage machine des tâches telles que l’acquisition et la recherche d’information, l’expression des connaissances (représentation et organisation) et le raisonnement automatisé (déduction et inférence logique), au profit de la tâche de reconnaissance de formes.
  • 5. Reconnaissance de formes • La reconnaissance de formes est une caractéristique importante de l’intelligence humaine, elle nous est familier, facile, naturel, automatique. • Facilement, nous reconnaissons un visage, comprenons des mots et des phrases parlés, l’écriture manuscrite, nous identifions nos clés parmi d’autres, détectons un fruit trop mûr par sa texture ou son odeur ainsi que plusieurs autres tâches de reconnaissance de formes – action de saisir des données brutes et de poser une action en fonction de la catégorie ou classe de la forme. • Depuis notre existence, notre système cognitif a évolué de manière à effectuer ces tâches cruciales à notre survie. • Il est donc naturel de vouloir inventer des machines qui peuvent effectuer le même genre de tâches : la reconnaissance de la parole et de caractères optiques, et même certaines tâches du même type mais qui sont difficiles, voir impossibles pour l’humain : la reconnaissance d’empreintes digitales, de séquences d’ADN, de profils d’expression génétique, etc. • L’apprentissage machine est donc une approche applicable à un grand nombre de problèmes, et en particulier de bioinformatique.
  • 6. Quand peut-on utiliser l’apprentissage machine ? • Les algorithmes d’apprentissage s’appliquent lorsqu’il n’y a pas suffisamment de connaissances pour développer un algorithme qui résout le problème mais qu’on dispose de plusieurs exemples de la tâche à accomplir (cf. base de données = exemples). • Applications : – Filtrage (pattern matching; reconnaissance d’images, de sons, etc) • Cas classiques : visages, caractères, voix, etc • Cas bioinformatiques : séquences, structures moléculaires, m-arrays, spectrométrie de masses, etc – Prise de décision • Cas classiques : finance, marketing • Cas bioinformatiques : traitements thérapeutiques – Estimation • Cas classiques : risque de crédit, probabilité de fraude, primes d’assurances • Cas bioinformatiques : drug design
  • 7. Un exemple : l’apprentissage supervisé • Supervision (entraînement) – Le système « apprend » à partir d’exemples qu’on lui présente – Le système modifie graduellement les paramètres pour que ses réponses soient de plus en plus « exactes » • Utilisation – On interroge le système sur de nouveaux exemples jamais vus auparavant En fait, on demande au système de GÉNÉRALISER
  • 8. Reconnaissance d’images Exemples d’entraînement : { (image, prénom) } : { (donnée, étiquette) } : { ( X, Y ) } Entraînement avec plusieurs images d’individus Anita Éric Ratiba Marc Paul Utilisation, Qui est-ce? ( , prénom? )
  • 9. Solution avec l’algorithme du plus proche voisin (nearest neighbor) Choisir parmi les exemples d’apprentissage le ‘profil’ (image) le plus proche du nouvel exemple. Qui est-ce ? C’est Paul ! plus proche voisin
  • 10. Types de problèmes • Classification – Reconnaître l’appartenance d’un exemple donné à une CLASSE. • Est-ce un visage? • Si oui, de qui s’agit-il ? (choisir parmi un ensemble fini et connu d’exemples) • Régression – Prédire à partir d’exemples (cf. prédire la valeur en bourse de demain étant donné les valeurs du passé). • Estimation de densité – A-t-on déjà vu cet exemple ou un exemple similaire ? – Quelles sont les K catégories principales des données ?
  • 11. Types d’apprentissage • Supervisé – On donne “la bonne réponse” pendant l’entraînement – Efficace car on fournit de l’information – Utile pour classification, régression, estimation de probabilité conditionnelle (quelle est la probabilité qu’un client avec tel profil achète tel produit ?) • Non supervisé – Établir quelles sont les catégories principales des données/exemples
  • 12. Généraliser est difficile • On ne veut pas « apprendre par cœur » – Ce qui impliquerait de trouver la bonne réponse seulement sur les exemples d’entraînement. • Facile et rapide pour un ordinateur (revient à chercher) • Difficile pour les humains (cf. on force les enfants !) • Apprendre pour « généraliser » – Plus intéressant ! – FONDAMENTALEMENT plus difficile et peut se faire de plusieurs façons différentes. – On doit extraire l’essentiel dans les données.
  • 13. Exemple: Les données 2 4 6 8 10 0.5 1 1.5 2 2.5 3 a. Underlying Function La ligne pointillée représente la meilleure « réponse » possible étant donné les exemples mais elle est inconnue de l’apprenant. Exemples = { (x, y) }
  • 14. Par cœur (overfitting) 2 4 6 8 10 0.5 1 1.5 2 2.5 3 b. Overfitting On apprend par cœur. Aucune généralisation. Erreur faible sur les exemples d’apprentissage mais élevée pour les nouveaux exemples.
  • 15. « Underfitting » 2 4 6 8 10 0.5 1 1.5 2 2.5 3 c. Underfitting On choisi un modèle trop simple, linéaire. Erreur élevée sur les exemples d’apprentissage ET sur les nouveaux exemples.
  • 16. Un « bon modèle » 2 4 6 8 10 0.5 1 1.5 2 2.5 3 d. Good Fit Le modèle est suffisamment flexible pour capturer la forme courbe mais pas trop pour éviter l’apprentissage par cœur (overfitting).
  • 17. Apprentissage machine • Se situe à l’intersection des sciences de l’informatique, des probabilités et statistiques et du domaine de l’application. Informatique Domaine d’application Probabilités et statistiques
  • 18. Types d’apprentissage machine • Non supervisé et groupage – Analyse des composantes principales – Analyse des composantes indépendantes – Échelonnement multidimensionnel – Groupage linéaire (« flat » clustering; méthode k-means) – Groupage hiérarchique • Supervisé – Problèmes de classification et de régression – Plus proches voisins – Perceptrons – Arbres de décision et de régression – Régression linéaire et logique – Réseaux de neurones artificiels – Machines à vecteurs de support • Modélisation probabiliste – Vraisemblance maximum – Modèles discrets – Chaînes de Markov – Estimation paramétriques – Réseaux Bayesiens