SlideShare uma empresa Scribd logo
1 de 24
SEO & LINGUISTIQUE STATISTIQUE
De vieux concepts trop méconnus

Gérard Salton :

- Modèle vectoriel « de Salton », années 70
L’analyse en « sac de mots »
Tokenization, normalisation, et
élimination des mots vides
Lemmatisation et racinisation
« Cosette était laide. Heureuse, elle eût
peut-être été jolie. Nous avons déjà
esquissé cette petite figure sombre.
Cosette était maigre et blême. »

Racinisation (stemming)
TF*IDF

=> ADIEU LA DENSITE DE MOTS CLES !
Identifier les termes importants :
première idée
Nombre d’occurrences du terme dans la page :

Extraction
Extraction

Extraction
Extraction

Poids = 1

Poids = 3
Identifier les termes importants :
première idée
Problème : les documents ne contiennent pas le même
nombre de mots
Extraction
Extraction

Extraction

100 mots

Extraction
1000 mots

Poids = 0,01

Poids = 0,003

Poids du terme = fréquence = « densité du mot clé »
Critère de poids retenu :
nombre d’occurrences
divisé par le nombre de mots du document
Problème :
les mots n’ont pas la même fréquence d’apparition
dans la langue
Combien de pages contiennent le mot clé internet d’après Google ?
1,5 milliards !
Combien de pages contiennent
le mot clé globicéphale d’après Google ?

34000
Vers un meilleur critère de poids
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents dans lequel le terme
est présent
Exemple de calcul sans et avec tf*idf
Internet

Internet
Internet

Globicéphale
1000 mots

1000 mots
Densité 3 pour mille

Densité 1 pour mille
Exemple de calcul sans et avec tf*idf
Internet

Internet
Internet
1000 mots

Index de Google
50 milliards de pages
(?)

Globicéphale
1000 mots

50*10^9 pages

DF[internet] =
1,5 x 10^9 / 50 x 10^9 = 0,03

DF[globicephale] =
3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
Exemple de calcul sans et avec tf*idf
(simplifié)
Internet

Globicéphale

Internet

1000 mots

Internet
1000 mots

TF*iDF[globicephale] =

TF*iDF[internet] =

0,001/6,8 x 10^7= 1470!

0,003 / 0,03 = 0,1
1470 >>>> 0,1
La formule en résumé
Pourquoi il faut abandonner
la densité de mots clés
C’est un critère qui n’est plus
utilisé par les outils de recherche
Pertinent que pour les requêtes à
un seul terme
Induit le « keyword stuffing »
facilement détectable
Le principe du Cosinus de Salton

Documents dans un espace à 3 dimensions :

Les documents proches dans l’espace
ont un contenu similaire
Les bases théoriques de l’alignement
sémantique

• L’alignement sémantique consiste à
changer le contenu textuel des pages
pour les « orienter » comme la requête

Alignement
sémantique
La méthode allemande

• Les SEO allemands appellent tf*idf wdf*idf
mais c’est la même chose
– Wdf= « within document frequency »

• Objectif : trouver le « poids » idéal pour
un mot clé pour être premier sur une
requête donnée
Analyse avec tf*idf
Les limites de l’exercice

• Les poids de type « tf*idf » ne sont que
l’un des signaux exploités par Google
– Si la requête n’est pas concurrentielle : ok
– Si la requête est concurrentielle : travail pas
rentable

• Comment améliorer le poids sans
détériorer la qualité du texte ?
• L’approche en sac de mots est très
dépassée : indexation de syntagmes, de
concepts…
Plus intéressant pour
« analyser » son texte : LSI / LDA

• Latent Semantic Indexing
• Analyse en composantes principales sur
l’espace vectoriel de Salton
• Met en évidence les corrélations de niveau
2, souvent liées à la proximité sémantique
(mais pas toujours)
• Intérêt pour le SEO : bof !
– Très difficile à manipuler pour les novices
– Peut servir pour analyser des textes en masse en
vue de retraitements
Plus intéressant pour
« analyser » son texte : LSI / LDA
A quoi cela peut-il servir ?
• la comparaison de documents dans l'espace des
concepts
– classification et catégorisation de documents

• la recherche de documents similaires entre
différentes langues
• la recherche de relations entre les termes
– résolution de synonymie et de polysémie

• étant donné une requête, traduire les termes de
la requête dans l'espace des concepts, pour
retrouver des documents liés sémantiquement
– recherche d'information, expansion de requête
– Et analyser ses pages dans le contexte Hummingbird !
Conclusion
Merci !

Mais conteúdo relacionado

Semelhante a Petit déjeuner Search Foresight

Semelhante a Petit déjeuner Search Foresight (8)

Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
Answer Engine Optimization (AEO) et Recherche Vocale : le futur du SEO ?
 
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
 
Techniques de recherches sur google par Abdoul Wahab Diaby
Techniques de recherches sur google par Abdoul Wahab DiabyTechniques de recherches sur google par Abdoul Wahab Diaby
Techniques de recherches sur google par Abdoul Wahab Diaby
 
Techniques de recherches sur google
Techniques de recherches sur googleTechniques de recherches sur google
Techniques de recherches sur google
 
Seo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite LeenhardtSeo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite Leenhardt
 
ATELIER PRATIQUE Web Redactionnel
ATELIER PRATIQUE Web RedactionnelATELIER PRATIQUE Web Redactionnel
ATELIER PRATIQUE Web Redactionnel
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUG
 

Mais de Philippe YONNET

Mais de Philippe YONNET (20)

WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 
Actualité du SEO
Actualité du SEOActualité du SEO
Actualité du SEO
 
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
Optimisez vos sites pour la recherche sur smartphone, tablettes et objets con...
 

Petit déjeuner Search Foresight

  • 1. SEO & LINGUISTIQUE STATISTIQUE
  • 2. De vieux concepts trop méconnus Gérard Salton : - Modèle vectoriel « de Salton », années 70
  • 3. L’analyse en « sac de mots »
  • 5. Lemmatisation et racinisation « Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre. Cosette était maigre et blême. » Racinisation (stemming)
  • 6. TF*IDF => ADIEU LA DENSITE DE MOTS CLES !
  • 7. Identifier les termes importants : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3
  • 8. Identifier les termes importants : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction Extraction Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document
  • 9. Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 1,5 milliards ! Combien de pages contiennent le mot clé globicéphale d’après Google ? 34000
  • 10. Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent
  • 11. Exemple de calcul sans et avec tf*idf Internet Internet Internet Globicéphale 1000 mots 1000 mots Densité 3 pour mille Densité 1 pour mille
  • 12. Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Index de Google 50 milliards de pages (?) Globicéphale 1000 mots 50*10^9 pages DF[internet] = 1,5 x 10^9 / 50 x 10^9 = 0,03 DF[globicephale] = 3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
  • 13. Exemple de calcul sans et avec tf*idf (simplifié) Internet Globicéphale Internet 1000 mots Internet 1000 mots TF*iDF[globicephale] = TF*iDF[internet] = 0,001/6,8 x 10^7= 1470! 0,003 / 0,03 = 0,1 1470 >>>> 0,1
  • 14. La formule en résumé
  • 15. Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable
  • 16. Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire
  • 17. Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique
  • 18. La méthode allemande • Les SEO allemands appellent tf*idf wdf*idf mais c’est la même chose – Wdf= « within document frequency » • Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée
  • 20. Les limites de l’exercice • Les poids de type « tf*idf » ne sont que l’un des signaux exploités par Google – Si la requête n’est pas concurrentielle : ok – Si la requête est concurrentielle : travail pas rentable • Comment améliorer le poids sans détériorer la qualité du texte ? • L’approche en sac de mots est très dépassée : indexation de syntagmes, de concepts…
  • 21. Plus intéressant pour « analyser » son texte : LSI / LDA • Latent Semantic Indexing • Analyse en composantes principales sur l’espace vectoriel de Salton • Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours) • Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices – Peut servir pour analyser des textes en masse en vue de retraitements
  • 22. Plus intéressant pour « analyser » son texte : LSI / LDA A quoi cela peut-il servir ? • la comparaison de documents dans l'espace des concepts – classification et catégorisation de documents • la recherche de documents similaires entre différentes langues • la recherche de relations entre les termes – résolution de synonymie et de polysémie • étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement – recherche d'information, expansion de requête – Et analyser ses pages dans le contexte Hummingbird !