2. QUI SUIS-JE ?
Sylvain Peyronnet
Chief @ ix-labs
Chief @ La Machine
Chief scientist @ Qwant
Prof @ Université de Caen (on leave)
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Ghost writer des slides : Guillaume Peyronnet
https://freres.peyronnet.eu/
3. QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
algo de
classement
web
classement
index
analyse de la
pertinence
analyse de
l’importance
classement
classement
contenu des
pages
liens entre
les pages
spider
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
4. QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
algo de
classement
web
classement
index
analyse de la
pertinence
analyse de
l’importance
requête
de l’utilisateur
classement
classement
contenu des
pages
liens entre
les pages
spider
expansion
de requête
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
5. CONSTRUIRE LE CLASSEMENT
Pertinence pour R
Classement global
On construit le classement en choisissant les pages les plus
importantes parmi celles qui sont pertinentes
+-
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
6. algo de
classement
web
classement
index
analyse de la
pertinence
analyse de
l’importance
requête
de l’utilisateur
classement
classement
contenu des
pages
liens entre
les pages
spider
expansion
de requête
QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
La force des réseaux de
sites basés sur le
pagerank thématique
vient de là
7. LE MOTEUR ANALYSE LE CONTENU DES PAGES12"
SMX$Paris$8$et$9$JUIN$2015$
Cherchons$le$bon$vocabulaire$
petit!
être!
perdre!
forêt!
Le! petit! était! perdu!
dans! la! forêt!
Un texte est un
vecteur
?! ?! ?! ?! ?! ?! ?!
petit!
perdre!
être! forêt!
Un texte est un
vecteur
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
8. LE MOTEUR ANALYSE LE CONTENU DES PAGES
$JUIN$2015$
Cherchons$le$bon$vocabulaire$
?! ?! ?! ?! ?! ?! ?!
petit!
perdre!
être! forêt!
Poids d’un terme :TF-IDF 14"
SMX$Paris$8$et$9$JUIN$2015$
Cherchons$le$bon$vocabulaire$
d1
d2
θ
d1
d2
La similarité est définie p
cosinus de l’angle
proximité sémantique : cosinus de
l’angle
Clustering pour être rapide
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
9. LE MOTEUR DETERMINE LA POPULARITÉ
Initialisation :
!
!
Calcul itératif :
!
!
!
Le PageRank
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
10. LE MOTEUR DETERMINE LA POPULARITÉ
Considérons le comportement suivant d’un internaute :
• Tirer une page web au hasard
• Tirer un nombre p entre 0 et 1
• Si p > c, alors choisir une page au hasard
• Si p < c choisir au hasard un lien de la page web et aller à la
page liée par ce lien (si pas de lien, GOTO 1)
La probabilité que cet internaute se trouve en une page donnée
à un moment donné est égale au PR de cette page.
En conséquence, fort PR = forte probabilité d’être visité
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
11. LE PAGERANK THÉMATIQUE
FONCTIONNEMENT DE LA MÉTHODE
ODP
16 thématiques
PR
thématique =
vecteur de
dimension 16
Calcul du PR composante par
composante (sujet par sujet)
T1 T2 ... T15 T16
HORS LIGNE
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Taher Haveliwala - 2003
12. LE PAGERANK THÉMATIQUE
FONCTIONNEMENT DE LA MÉTHODE
requête q
On cherche les
sujets pour q
EN LIGNE
théma x
théma y
théma z
Combinaison
des PR pour
x, y, z
Classement
SERPs
On combine les
thématiques pour
q pour construire
un q-PR
Comme le PR usuel
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
13. POPULARITÉ : À RETENIR
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Un lien à une valeur
proportionnelle à la
popularité de la
source ET à la
proximité
thématique entre les
pages
La popularité dépend
des structures de
liens : il faut faire
« cycler » le surfeur
aléatoire
Il faut rester
« naturel », en
optimisant on dévie
du comportement
statistique et on peut
être pénalisé
14. LES RÉSEAUX, LA RÉPONSE À TOUT ?
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
casino
poker
argent
hôtel
voiture de
luxe
voyage
transport
las vegas
Un réseau c’est plus que la simple continuité thématique !
15. LE BON RÉSEAU ET LE MAUVAIS RÉSEAU
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Quand on monte un réseau de sites, on essaie d'être naturel
!
• C'est toujours dommage de subir une pénalité sur un réseau
complet… surtout quand les sites sont propres
• On essaie d'optimiser le PageRank du réseau, tout en restant
raisonnable : Google devrait le comprendre (et passer à côté)
• On pense à la continuité thématique
16. LE BON RÉSEAU
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Quelle structure de liens adopter pour éviter d’être détecté ?
!
Etre furtif, c’est possible si on est prêt à gagner moins de PR :
!
•Graphe aléatoire de Barabási - Albert
• Graphe Small World (Beta model ou kleinberg)
Avant de penser aux optimisations, on pense à la robustesse vis
à vis de Google !
17. IDÉE : GRAPHE ALÉATOIRE NATUREL
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Un graphe naturel pour représenter le web est
!
1. Orienté : chaque lien a un sens u→v ≠ v→u
2. Petit monde :
•Petit diamètre :
Il y a un chemin court entre presque toutes les paires de pages
•Routage glouton efficace :
On peut trouver un chemin court avec une connaissance
locale du graphe
18. IDÉE : GRAPHE ALÉATOIRE NATUREL
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Un graphe naturel pour représenter le web est
!
1. Orienté : chaque lien a un sens u→v ≠ v→u
!
2. Petit monde :
!
•Clusterisé:
!
Si et alors la proba que est grande
u→v
ou
v→u
v→w
ou
w→u( ( u→w
ou
w→u( ( ( (
19. GRAPHE DE BARABASI - ALBERT
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
• Les noeuds sont ajoutés 1
par 1
• La probabilité Pi qu’un
nouveau noeud soit relié à i
est :
« Plus j’ai de liens, plus j’attire de liens ! »
degré de i
somme des
degrés de tous
les noeuds
20. IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
21. IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
22. IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Les thématiques
doivent être proche Votre plus gros site
est celui a plus fort
PR du réseau
Tous les sites ne
sont pas à vous !
23. #VWD
Sylvain
Peyronnet
-‐
@speyronnet
IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
Les thématiques
doivent être proche
Utiliser Salton +TF.IDF
Utiliser lesTF
thématiques de Majestic
Utiliser un mind mapping (type
cocooning^^) + aide à la rédaction
Faire à la main la proximité
thématique
24. IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Votre plus gros site
est celui a plus fort
PR du réseau
Car c’est celui qui sera le plus
facile à positionner
Tous les sites ne
sont pas à vous !
Trop de travail !
Plus de risques de se faire
détecter par Google
Un réseau = un mix de sites perso et
extérieurs, bien linkés
25. ACCROCHE DU RÉSEAU À L’EXTÉRIEUR
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Il faut obtenir des liens depuis le web vers votre réseau
!
1. Thématiser au maximum
!
2. Privilégier peu de liens d’accroche, mais avec fort Trust
!
3. Plus un site du réseau à un fort PR interne au réseau plus il
doit y avoir de liens vers lui
26. BONUS DU « PENSER RÉSEAU »
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
Avec le réseau vous maitrisez tout !
!
Les problèmes de conversion
disparaissent en partie car vous pouvez
avoir une stratégie de conversion sur le
réseau, et donc spécialiser les sites tout
en gardant un entonnoir de conversion
efficace.
!
Un site d’info sur un produit, un site
sur la réglementation, un site sur les
utilisateurs, etc. Puis un site de vente au
centre du réseau !
27. CONCLUSION
#VWD
Sylvain
Peyronnet
-‐
@speyronnet
A vous de jouer !