SEO et statistique linguistique.
Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO
tf*idf, cosinus de salton...
5. Lemmatisation et racinisation
« Cosette était laide. Heureuse, elle eût
peut-être été jolie. Nous avons déjà
esquissé cette petite figure sombre.
Cosette était maigre et blême. »
Racinisation (stemming)
7. Identifier les termes importants :
première idée
Nombre d’occurrences du terme dans la page :
Extraction
Extraction
Extraction
Extraction
Poids = 1
Poids = 3
8. Identifier les termes importants :
première idée
Problème : les documents ne contiennent pas le même
nombre de mots
Extraction
Extraction
Extraction
100 mots
Extraction
1000 mots
Poids = 0,01
Poids = 0,003
Poids du terme = fréquence = « densité du mot clé »
Critère de poids retenu :
nombre d’occurrences
divisé par le nombre de mots du document
9. Problème :
les mots n’ont pas la même fréquence d’apparition
dans la langue
Combien de pages contiennent le mot clé internet d’après Google ?
1,5 milliards !
Combien de pages contiennent
le mot clé globicéphale d’après Google ?
34000
10. Vers un meilleur critère de poids
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents dans lequel le terme
est présent
11. Exemple de calcul sans et avec tf*idf
Internet
Internet
Internet
Globicéphale
1000 mots
1000 mots
Densité 3 pour mille
Densité 1 pour mille
12. Exemple de calcul sans et avec tf*idf
Internet
Internet
Internet
1000 mots
Index de Google
50 milliards de pages
(?)
Globicéphale
1000 mots
50*10^9 pages
DF[internet] =
1,5 x 10^9 / 50 x 10^9 = 0,03
DF[globicephale] =
3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
13. Exemple de calcul sans et avec tf*idf
(simplifié)
Internet
Globicéphale
Internet
1000 mots
Internet
1000 mots
TF*iDF[globicephale] =
TF*iDF[internet] =
0,001/6,8 x 10^7= 1470!
0,003 / 0,03 = 0,1
1470 >>>> 0,1
15. Pourquoi il faut abandonner
la densité de mots clés
C’est un critère qui n’est plus
utilisé par les outils de recherche
Pertinent que pour les requêtes à
un seul terme
Induit le « keyword stuffing »
facilement détectable
16. Le principe du Cosinus de Salton
Documents dans un espace à 3 dimensions :
Les documents proches dans l’espace
ont un contenu similaire
17. Les bases théoriques de l’alignement
sémantique
• L’alignement sémantique consiste à
changer le contenu textuel des pages
pour les « orienter » comme la requête
Alignement
sémantique
18. La méthode allemande
• Les SEO allemands appellent tf*idf wdf*idf
mais c’est la même chose
– Wdf= « within document frequency »
• Objectif : trouver le « poids » idéal pour
un mot clé pour être premier sur une
requête donnée
20. Les limites de l’exercice
• Les poids de type « tf*idf » ne sont que
l’un des signaux exploités par Google
– Si la requête n’est pas concurrentielle : ok
– Si la requête est concurrentielle : travail pas
rentable
• Comment améliorer le poids sans
détériorer la qualité du texte ?
• L’approche en sac de mots est très
dépassée : indexation de syntagmes, de
concepts…
21. Plus intéressant pour
« analyser » son texte : LSI / LDA
• Latent Semantic Indexing
• Analyse en composantes principales sur
l’espace vectoriel de Salton
• Met en évidence les corrélations de niveau
2, souvent liées à la proximité sémantique
(mais pas toujours)
• Intérêt pour le SEO : bof !
– Très difficile à manipuler pour les novices
– Peut servir pour analyser des textes en masse en
vue de retraitements
22. Plus intéressant pour
« analyser » son texte : LSI / LDA
A quoi cela peut-il servir ?
• la comparaison de documents dans l'espace des
concepts
– classification et catégorisation de documents
• la recherche de documents similaires entre
différentes langues
• la recherche de relations entre les termes
– résolution de synonymie et de polysémie
• étant donné une requête, traduire les termes de
la requête dans l'espace des concepts, pour
retrouver des documents liés sémantiquement
– recherche d'information, expansion de requête
– Et analyser ses pages dans le contexte Hummingbird !