Présentation faite à l'occasion du SEO Camp Day à Nantes en novembre 2014 par Sébastien Monnier.
Explications sur Google Knowledge Vault et les méthodes d'extraction d'entités et de relation par Google.
Mesurer ses sources de trafic avec Google Analytics
Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée
1. Google Hummingbird
le point de vue d’un linguiste
Sébastien Monnier
Ex- Googler, fondateur de Woptimo
2. Sommaire
1. Approche syntaxique vs Approche sémantique
2. Hummingbird : un nouvel oiseau?
3. Freebase et la notion de concept
4. Extractions des concepts
5. Exemples dans les SERP
6. Conséquences sur le SEO
4. Le web, cette masse informe
Du texte, des tableaux, des images, des ressources ...
Décentralisés.
Comment structurer l’information
pour organiser une recherche?
5. Indexation des mots
“lieu de naissance Jules Verne” = lieu + naissance + Jules + Verne
Bing en 2014
Voila en 2014
6. Et même les résultats peu probables...
Quelle est la probabilité qu’en cherchant “lieu de naissance Jules Verne”, je
recherche des informations sur
La maternité de la clinique Jules Verne...
10. Qu’est-ce qu’Hummingbird
● Annoncé fin septembre 2013 pour le 15e annniversaire
de Google
● Déjà présent depuis un mois
● Impacte 90% des requêtes
● Aussi important pour l’infrastructure de Google que
Google Caffeine
14. Anticiper les évolutions
● Boom du trafic mobile, du trafic connecté et géolocalisé
1 requête = + que des mots
➔ 1 contexte spatial
➔ 1 contexte humain
➔ 1 contexte d’historique de recherche
➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots
dans la requête
16. Moteur: Algorithme général
● Le moteur de recherche de Google est basé sur des algorithmes
mathématiques (probabilités)
● Le comportement de ces algorithmes est conditionné par de multiples
paramètres linguistiques et statistiques
● Ces paramètres sont calculés grâce à une batterie de “classifiers”
17. Qu’est-ce qu’un classifier?
Un classifier est un algorithme de catégorisation
○ Entrée: requêtes, pages web, domaines...
○ Sortie: Nature diverse des informations (texte, score, liste,...)
● Classifier de requête :
○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube,
Facebook...)
● Classifier de pages web :
○ Ex : bourrage de mots-clés, texte caché, “in-depth article”...
● Classifier d’élements sur une page web :
○ Ex : fil d’Ariane, listing d’éléments...
● ... Et de nombreux autres types de classifiers...
18. Moteur: Algorithme général - Schéma
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: groupe nominal
➢ Typologie, Intention
➢ ...
Page Web
➢ PageRank
➢ Typologie, Intention
➢ Potentiel de spam
➢ Auteur de la page
➢ ...
Domaine
Sous-domaine
Auteur
...
MOTEUR
Résultats
Universal
Knowledge
Graph
URL 1
URL 2
URL 3
…
URL X
19. Algorithme HummingBird
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: groupe nominal
➢ Typologie, Intention
➢ Concepts
➢ ...
Page Web
➢ PageRank
➢ Typologie, Intention
➢ Potentiel de spam
➢ Auteur de la page
➢ Concepts
➢ ...
Domaine
Sous Domaine
Auteur
...
MOTEUR
Résultats
Universal
Knowledge
Graph
URL 1
URL 2
URL 3
…
URL X
21. Freebase
Freebase est une base de données de connaissances structurées libre et contributive.
● Créée en 2007
● Rachetée par Google en 2010
Tout le monde peut contribuer
22. Notion de Concept
➢ Objet concret ou abstrait représenté par une séquence de mots
➢ Concepts interconnectés d’après des relations plus ou moins éloignées
23. Sujet, prédicat, objet
Liaison de 2 concepts :
Sujet
Ressource à décrire
Objet
Valeur de la propriété
Prédicat
Type de propriété
24. Sujet, prédicat, objet
Liaison de 2 concepts :
Sujet
Jules Verne
Objet
Nantes
Prédicat
Lieu de naissance
25. Sujet, prédicat, objet
Liaison de 2 concepts :
Sujet
FC Nantes
Objet
Stade de la Beaujoire
Prédicat
Stade
27. Les données sûres
Ressources modérées et surveillées
+
Grande fréquence de reprises de la même information
● Jules Verne</p><p>Né à Nantes le 08/02/1828 ; Mort à Amiens le 24/03/1905
● <td>1828</td><td>Jules Verne est né à Nantes le 8 février 1828 </td>
● 1828 - Naissance (8 février) de Jules Verne à Nantes.
● Jules Verne<br>1828 - 1905 Nationalité : française.<BR>(lieu de naissance : Nantes)
● Jules Verne (Nantes, 1828 - Amiens, 1905)
● <tr><td>Ecrivain</td><td>Naissance</td><tr>
<tr><td>Jules Verne</td><td>Nantes</td><tr>
28. Extraction des entités
Indices linguistiques pour repérer la propriété Lieu Naissance
● SUJET “</p><p>Né à” OBJET
● SUJET est né à OBET
● 1828 - Naissance (DATE) de SUJET à OBJET
● SUJET<br>DATE - 1905 Nationalité : française.<BR>(lieu de naissance : OBJET)
● SUJET (OBJET, DATE - Amiens, 1905)
● <tr><td>Ecrivain</td><td>Naissance</td><tr>
<tr><td>SUJET</td><td>OBJET</td><tr>
29. Compréhension des données floues
Comment avoir des informations sur quelqu’un/quelque chose qui n’est pas
dans une base sémantique?
➔ Extraction des données web en s’inspirant des structures linguistiques
identifiées
Exemple
30. Knowledge Vault
Google a repéré et stocké plus d’un milliard de faits hors bases
sémantiques
32. Concepts et intention de l’utilisateur
[Représentation Graphique] --> Paris [ville]
Interaction directe
[Evénement] Expo photo au Grand Palais
Informationnel
[Marque] Maison de la photographie
Navigationnel
33. Répartition des concepts
Concepts Résultats
Photos/Images
[Représentation graphique]
Exposition
[Evénement]
Studio photo
[Lieu]
Stage photo
[Enseignement]
Location studio
[Commerce]
34. Termes manquants :
● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’
Hummingbird
35. Et les 10% non impactés par
Hummingbird?
Info présente ici : bravo Google, ... mais
ouch...
36. Hummingbird : un complément à l’
existant?
Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’
ancien algorithme de recherche de co-occurrence rentre en jeu.
Quelques indices (?):
➢ Snippet de 4 lignes
➢ Pas le “termes manquants”
40. Du mot-clé à l’intention
Oublions la simple “expression-clé”
Pensons à l’intention de l’utilisateur
41. Analysez les SERP
Au-delà de la position, il faut essayer de comprendre
● L’INTENTION de la requête interprétée par Google.
● La réponse comprise par Google
● La diversité des résultats
● Google ne classe pas 10 pages web en fonction de leur PageRank.
● Google organise la présentation d’informations permettant de répondre, au
mieux, au besoin supposé de l’internaute.
42. Pensez aux mentions
“SuperMutuellePro m’a aidé à comparer des mutuelles”
SUJET
Entité : Marque
OBJET
Entité : Type de société
PREDICAT
Propriété : Comparaison
43. Adieu contenu SEO...
● Oubliez les consignes comme :
Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3
Donnez plutôt :
Je veux du contenu pour une page qui va donner cette information avec 2
arguments, 2 exemples et en citant ses sources.
➔ Soyez concis, clair et factuel
➔ Pensez présentation et lisibilité du texte
➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps
44. Véracité du contenu
Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité,
adresses d’entreprise, ...), pensez à les mettre à jour.
Google peut extraire votre contenu et les comparer avec sa base de
connaissance.
Trop de mauvaises informations = MAUVAIS SIGNAL
45. Marquage sémantique
Utilisation des données structurées / microdonnées devient un standard
➔ permet aux moteurs une meilleure compréhension des concepts de votre
site
➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous
risquez une moins bonne interprétation par Google