SlideShare uma empresa Scribd logo
1 de 11
Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par Laurent Hermann || citinet.fr 2014
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages = Page Rank
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un
texte donnent une bonne représentation du
contenu du texte.
• De calculer le cosinus de l'angle formé par les
vecteurs représentant le document et la
requête.
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonction des mots qu’ils contiennent
• Orienter au maximum le vecteur de la page
optimisée dans le même sens que le vecteur
de la requête ciblée.
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimés comme
des vecteurs de termes.
• Estimer l’affinité en mesurant l’angle entre 2
vecteurs (document, requête)
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport à la requête.
• Le cosinus de Salton varie entre 0 et 1.
Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres dans la rivière
On va lemmatiser tout ça (sans prendre en compte les verbes) :
• Texte 1 : loutre, rivière
Texte 2 : loutre, loutre, rivière
On va ensuite représenter chacun de ces textes par
un vecteur dans l’espace des fréquences des mots
rivière, loutre (dans cet ordre).
•Texte 1 : (1/2, 1/2 )
•Texte 2 : (1/3, 2/3)
Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On améliore le texte.
On réitère.
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »

Mais conteúdo relacionado

Mais procurados

Formez-vous au Lean appliqué aux métiers de la Supply Chain
Formez-vous au Lean appliqué aux métiers de la Supply ChainFormez-vous au Lean appliqué aux métiers de la Supply Chain
Formez-vous au Lean appliqué aux métiers de la Supply ChainXL Groupe
 
Jeu du mrp2
Jeu du mrp2Jeu du mrp2
Jeu du mrp2CIPE
 
Logistique Internationale
Logistique InternationaleLogistique Internationale
Logistique InternationaleHanae Guenouni
 
Seminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardSeminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardphilip61
 
Jeu lean management
Jeu lean managementJeu lean management
Jeu lean managementCIPE
 
Les coûts et les tarifs des modes de transport et de rupture de charge
Les coûts et les tarifs des modes de transport et de rupture de chargeLes coûts et les tarifs des modes de transport et de rupture de charge
Les coûts et les tarifs des modes de transport et de rupture de chargeAmal Brioual
 
Accélérer les flux dans la supply chain (DDMRP)
Accélérer les flux dans la supply chain (DDMRP)Accélérer les flux dans la supply chain (DDMRP)
Accélérer les flux dans la supply chain (DDMRP)XL Groupe
 
Présentation.pdf
Présentation.pdfPrésentation.pdf
Présentation.pdfkokoublaise
 
cours master2.ppt
cours master2.pptcours master2.ppt
cours master2.pptISaf3
 
Cours logistique gratuit Introduction à la logistique.pdf
Cours logistique gratuit Introduction à la logistique.pdfCours logistique gratuit Introduction à la logistique.pdf
Cours logistique gratuit Introduction à la logistique.pdfSIHAMBELLAGNECH
 
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiques
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiquesSourcing, l'art de trouver des fournisseurs, ses dimensions stratégiques
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiquesLiping Lamidieu
 
Tumeurs du rein et des voies excrétrices chez l’enfant
Tumeurs du rein et des voies excrétrices chez l’enfantTumeurs du rein et des voies excrétrices chez l’enfant
Tumeurs du rein et des voies excrétrices chez l’enfantimma-dr
 
Gpao 3 La planification de la production MRP2
Gpao 3 La planification de la production MRP2Gpao 3 La planification de la production MRP2
Gpao 3 La planification de la production MRP2ibtissam el hassani
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision ibtissam el hassani
 

Mais procurados (20)

Système MRP
Système MRPSystème MRP
Système MRP
 
Formez-vous au Lean appliqué aux métiers de la Supply Chain
Formez-vous au Lean appliqué aux métiers de la Supply ChainFormez-vous au Lean appliqué aux métiers de la Supply Chain
Formez-vous au Lean appliqué aux métiers de la Supply Chain
 
Jeu du mrp2
Jeu du mrp2Jeu du mrp2
Jeu du mrp2
 
Logistique Internationale
Logistique InternationaleLogistique Internationale
Logistique Internationale
 
Seminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardSeminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzard
 
Jeu lean management
Jeu lean managementJeu lean management
Jeu lean management
 
Modèle de conception
Modèle de conceptionModèle de conception
Modèle de conception
 
Les coûts et les tarifs des modes de transport et de rupture de charge
Les coûts et les tarifs des modes de transport et de rupture de chargeLes coûts et les tarifs des modes de transport et de rupture de charge
Les coûts et les tarifs des modes de transport et de rupture de charge
 
Accélérer les flux dans la supply chain (DDMRP)
Accélérer les flux dans la supply chain (DDMRP)Accélérer les flux dans la supply chain (DDMRP)
Accélérer les flux dans la supply chain (DDMRP)
 
Présentation.pdf
Présentation.pdfPrésentation.pdf
Présentation.pdf
 
cours master2.ppt
cours master2.pptcours master2.ppt
cours master2.ppt
 
Cours logistique gratuit Introduction à la logistique.pdf
Cours logistique gratuit Introduction à la logistique.pdfCours logistique gratuit Introduction à la logistique.pdf
Cours logistique gratuit Introduction à la logistique.pdf
 
Modele a3 toyota
Modele a3 toyotaModele a3 toyota
Modele a3 toyota
 
La Logistique 1
La Logistique 1La Logistique 1
La Logistique 1
 
Supply chain l'oreal
Supply chain l'oreal Supply chain l'oreal
Supply chain l'oreal
 
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiques
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiquesSourcing, l'art de trouver des fournisseurs, ses dimensions stratégiques
Sourcing, l'art de trouver des fournisseurs, ses dimensions stratégiques
 
Tumeurs du rein et des voies excrétrices chez l’enfant
Tumeurs du rein et des voies excrétrices chez l’enfantTumeurs du rein et des voies excrétrices chez l’enfant
Tumeurs du rein et des voies excrétrices chez l’enfant
 
Gpao 3 La planification de la production MRP2
Gpao 3 La planification de la production MRP2Gpao 3 La planification de la production MRP2
Gpao 3 La planification de la production MRP2
 
Log2 cours1
 Log2 cours1 Log2 cours1
Log2 cours1
 
GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision GP Chapitre 2 : Les méthodes de prévision
GP Chapitre 2 : Les méthodes de prévision
 

Mesure de pertinence par le Cosinus de Salton

  • 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  • 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  • 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  • 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  • 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  • 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  • 7. N dimension • En réalité, il y a autant que dimension que de termes.
  • 8. SEO Camp’us 2009/ Philippe YONNET
  • 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  • 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  • 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »