Petit déjeuner Search Foresight

SEO & LINGUISTIQUE STATISTIQUE

De vieux concepts trop méconnus

Gérard Salton :

- Modèle vectoriel « de Salton », années 70

L’analyse en « sac de mots »

Tokenization, normalisation, et
élimination des mots vides

Lemmatisation et racinisation
« Cosette était laide. Heureuse, elle eût
peut-être été jolie. Nous avons déjà
esquissé cette petite figure sombre.
Cosette était maigre et blême. »

Racinisation (stemming)

TF*IDF

=> ADIEU LA DENSITE DE MOTS CLES !

Identifier les termes importants :
première idée
Nombre d’occurrences du terme dans la page :

Extraction
Extraction

Extraction
Extraction

Poids = 1

Poids = 3

Identifier les termes importants :
première idée
Problème : les documents ne contiennent pas le même
nombre de mots
Extraction
Extraction

Extraction

100 mots

Extraction
1000 mots

Poids = 0,01

Poids = 0,003

Poids du terme = fréquence = « densité du mot clé »
Critère de poids retenu :
nombre d’occurrences
divisé par le nombre de mots du document

Problème :
les mots n’ont pas la même fréquence d’apparition
dans la langue
Combien de pages contiennent le mot clé internet d’après Google ?
1,5 milliards !
Combien de pages contiennent
le mot clé globicéphale d’après Google ?

34000

Vers un meilleur critère de poids
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents dans lequel le terme
est présent

Exemple de calcul sans et avec tf*idf
Internet

Internet
Internet

Globicéphale
1000 mots

1000 mots
Densité 3 pour mille

Densité 1 pour mille

Internet

Internet
Internet
1000 mots

Index de Google
50 milliards de pages
(?)

Globicéphale
1000 mots

50*10^9 pages

DF[internet] =
1,5 x 10^9 / 50 x 10^9 = 0,03

DF[globicephale] =
3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7

(simplifié)
Internet

Globicéphale

Internet

1000 mots

Internet
1000 mots

TF*iDF[globicephale] =

TF*iDF[internet] =

0,001/6,8 x 10^7= 1470!

0,003 / 0,03 = 0,1
1470 >>>> 0,1

Pourquoi il faut abandonner
la densité de mots clés
C’est un critère qui n’est plus
utilisé par les outils de recherche
Pertinent que pour les requêtes à
un seul terme
Induit le « keyword stuffing »
facilement détectable

Le principe du Cosinus de Salton

Documents dans un espace à 3 dimensions :

Les documents proches dans l’espace
ont un contenu similaire

Les bases théoriques de l’alignement
sémantique

• L’alignement sémantique consiste à
changer le contenu textuel des pages
pour les « orienter » comme la requête

Alignement
sémantique

La méthode allemande

• Les SEO allemands appellent tf*idf wdf*idf
mais c’est la même chose
– Wdf= « within document frequency »

• Objectif : trouver le « poids » idéal pour
un mot clé pour être premier sur une
requête donnée

Les limites de l’exercice

• Les poids de type « tf*idf » ne sont que
l’un des signaux exploités par Google
– Si la requête n’est pas concurrentielle : ok
– Si la requête est concurrentielle : travail pas
rentable

• Comment améliorer le poids sans
détériorer la qualité du texte ?
• L’approche en sac de mots est très
dépassée : indexation de syntagmes, de
concepts…

Plus intéressant pour
« analyser » son texte : LSI / LDA

• Latent Semantic Indexing
• Analyse en composantes principales sur
l’espace vectoriel de Salton
• Met en évidence les corrélations de niveau
2, souvent liées à la proximité sémantique
(mais pas toujours)
• Intérêt pour le SEO : bof !
– Très difficile à manipuler pour les novices
– Peut servir pour analyser des textes en masse en
vue de retraitements

Plus intéressant pour
« analyser » son texte : LSI / LDA
A quoi cela peut-il servir ?
• la comparaison de documents dans l'espace des
concepts
– classification et catégorisation de documents

• la recherche de documents similaires entre
différentes langues
• la recherche de relations entre les termes
– résolution de synonymie et de polysémie

• étant donné une requête, traduire les termes de
la requête dans l'espace des concepts, pour
retrouver des documents liés sémantiquement
– recherche d'information, expansion de requête
– Et analyser ses pages dans le contexte Hummingbird !

Petit déjeuner Search Foresight

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Petit déjeuner Search Foresight

Semelhante a Petit déjeuner Search Foresight (8)

Mais de Philippe YONNET

Mais de Philippe YONNET (20)

Petit déjeuner Search Foresight