2. Frédéric Dubut Fabrice Canel
Lieu de naissance (Birth location): Marseille - France Aix en Provence - France
Basé à (Location): Washington state – USA Washington state – USA
Société (Company): Microsoft Microsoft
Équipe (team):
Titre (Title) Senior Program Manager Principal Program Manager
Années à (Years at) Microsoft: 10 22
Responsabilités (Responsabilities): Spam/Malware
Web Ranking
URLs Discovery & Selection
Crawling
Document Processing
INTRODUCTIONS
Bouches-du-Rhône – France Bouches-du-Rhône – France
3. SOMMAIRE
1. Pourquoi le robot d'indexation (Crawler) est essentiel
2. Les challenges pour les moteurs de recherche
3. Actions recommandées par Bing
4. Quel est l'objectif des moteurs de recherche?
1
2
3
What is the goal of the Search Engines?
• Discover, crawl and index everything
• Create “the” Knowledge Graph
• Super fast access to information
Tout découvrir, tout crawler et tout indexer
Créer “la” base du savoir
Accès super rapide à l'information
5. Non, pas tout à fait:
No. Not quite:
Provide searchers with timely, relevant results that they can trust that
provides insights about the search queries.
L'objectif de Bing est de fournir aux personnes qui
recherchent des résultats opportuns et pertinents, en
lesquels ces personnes peuvent avoir confiance et qui
fournissent des informations utiles durant leurs recherches.
6. Crawler est nécessaire
1
2
3
Aidez bingbot à
indexer votre site
Permet de collecter les ressources
(pages Web, images, vidéos, etc.)
Permet de découvrir des liens
Permet de rafraichir le contenu
des pages
7. Bing est plus grand que vous le pensez
117 MILLIONS
d'internautes
uniques chaque
mois1
2
MILLIARDS
2
36%
d'augmentation
du nombre de clics
dans la zone France3
1 et 2 : qSearch, Explicit Core Search (rapport personnalisé) effectué par comScore, avril 2018. Le Bing Network comprend Bing, Yahoo Search (recherches fournies par Bing) et le
réseau de Search AOL
3 : Données internes Microsoft
Bing is Bigger than You think
8. Partie 2: Crawl et Indexation
Les challenges pour les moteurs de recherche
9. LE CRAWLER DES MOTEURS DE RECHERCHE
Selon Google
How Google says I look like
Selon les SEOs
How SEOs see me
À quoi je ressemble vraiment
How I really look like
10. Construire un robot est facile…
Building a crawler is easy…
Service Unavailable
HTTP Error 503. The service is unavailable.
11. … Le rendre poli est plus difficile !
…making it polite is harder!
Crawl
Manager
12. Crawl budget is howmuch the crawler thinks it can crawl without
hurting your site performance.
Le budget de crawl est le nombre de contenus
que le robot pense qu'il peut crawler sans nuire
aux performances de votre site
13. Pour être crawlée, une URL doit
rentrer dans tous les budgets
individual (site, IP, etc).
Déterminer le budget de
crawl est un problème à
multiples dimensions
Each bottleneck has its own crawl budget
To be crawled, a URL must fit in all the applicable budgets.
Server
contoso.com
www.contoso.com
blog.contoso.com
www.fabrikam.com
www.proseware.com
Assigned IPs
20.190.133.0/28
40.78.208.32/30
14. Determining crawl budget is an iterative process
Code Réponse HTTP
2xx 3xx 4xx 5xx
Demande vs. Budget
Demande Budget
Augmenter le budget
Diminuer le budget
+ Erreurs de connexion
+ Durée de download
+ Taille du contenu
+ Autres signaux
Crawl Queue
Déterminer le budget crawl est un processus itératif
15. When crawl budget meets crawl demand
Petit site web Grand site web
Excellent SEO
SEO perfectible
FACILE
DIFFICILE
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Quand le budget du crawl répond à la demande
16. Règle de base: votre budget de crawl
devrait permettre au robot de crawler
votre site entier en +/- deux semaines.
Rule of thumb: your crawl budget should allow the crawler to
recrawl your entire site in about two weeks.
YMMV: publishing schedule, update frequency,
exceptional events (e.g. site migration), etc…
17. Freeing up server resources to increase crawl budget
Réduire la consommation de ressources Éliminer le gaspillagePerformance Sécurité
Libérer des ressources serveur pour augmenter votre budget
18. How about crawl demand?
Dupliquer le contenu
Pas de sitemap
Trop de rendu
dynamique (JS)
Pas de redirections
Trop de ressources
secondaires (JS, CSS…)
Longues chaînes
de redirection
Pas de “lastmod”
dans le sitemap
URLs mobiles “m.”
Pas de canonical tags
URLs inutiles
ou indésirables
Paramètres inutiles
dans les URLs
Bingbot apprend
et s'améliore
Facteurs influant sur la demande et le budget
19. Crawl: Les métriques clés pour Bing
1
2
Crawl : key metrics for Bing
• Maximize Crawl Effectiveness : Every page in index is a fresh copy of its web version
• Maximize Crawl Efficiency: Crawl only updated (fresh on-page content or useful
outbound links) or new URLs
Maximiser « Crawl effectiveness »
Chaque page de l'index est une nouvelle copie de sa version Web
Maximiser « Crawl efficiency »
Crawler uniquement les pages mise à jour (contenu frais sur la page ou
liens sortants utiles) ou de nouvelles URLs utiles
21. 302200
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… N/A Score=1000
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
If you use HTTP 302 instead…
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
Si vous utilisez HTTP 302 à la place...
22. URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… N/A Score=1000
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
If both pages return HTTP 200…
Si les deux pages retournent HTTP 200...
23. URL Status Content Target Signals
http://www.contoso.com/ Indexed N/A N/A Score=100
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
If the old page is blocked in robots.txt…
Si l'ancienne page est bloquée par robots.txt...
26. Rendre plus prévisible avec le rendu dynamique
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Making it more predictable with dynamic rendering
+ JavaScript
? ?
28. Discovery: Permettre de découvrir les URLs
1
2
3
Système de gestion de contenu web compatible SEO
XML sitemaps rafraîchis au moins une fois par jour
Flux RSS pour les nouvelles URLs ou le nouveau contenu
1. CMS SEO compatible
2. XML sitemaps refresh once a day
3. RSS feeds for latest content
29. Selection/Ranking: Avoir les URLs choisies
1
2
3
Ecrivez du contenu pertinent et unique
Ayez une audience
Evitez trop de liens et des copies
Write relevant and unique
content
Have customers
30. Crawl: Accéder au contenu
1
2
3
Permettez-nous d’accéder (robots.txt)
Guidez-nous vers le nouveau contenu
Evitez trop de JavaScript pour les gros sites web
Crawl - Content access
• Allow us to access (allow in robots.txt)
• Guide us to the new content: RSS, lastmod
• Avoid too many JavaScript calls on large
31. Processing: Dites-nous tout de votre contenu
1
2
3
Facilitez la taches des navigateurs et les moteurs
HTML de base est préférable
Dites-nous plus via schema (HTML 5 tags, Json-LD…)
Tell us everything!
• Make it simple for browser and search engines
• Basic HTML is preferable
• Tell us more via schema (HTML 5 tags, Json-LD ...)
32. La recette magique:
1
2
Bing Webmaster Tools
https://www.bing.com/webmaster/
Bing Webmaster API
https://www.bing.com/webmaster/api/
Exemple: Indexer une URL est aussi simple que cela
POST
/webmaster/api.svc/pox/SubmitUrl?apikey=A10ECC1EAFAE381C113365A075EBCEB6
HTTP/1.1 Content-Type: application/xml; charset=utf-8
Host: ssl.bing.com
Content-Length: 127
<SubmitUrl
xmlns="http://schemas.datacontract.org/2004/07/Microsoft.Bing
.Webmaster.Api">
<siteUrl>http://example.com</siteUrl>
<url>http://example.com/url1.html</url>
</SubmitUrl>