SlideShare uma empresa Scribd logo
1 de 33
The audience
Crawl et Indexation
les challenges pour
les moteurs de
recherche
Frédéric Dubut Fabrice Canel
Lieu de naissance (Birth location): Marseille - France Aix en Provence - France
Basé à (Location): Washington state – USA Washington state – USA
Société (Company): Microsoft Microsoft
Équipe (team):
Titre (Title) Senior Program Manager Principal Program Manager
Années à (Years at) Microsoft: 10 22
Responsabilités (Responsabilities): Spam/Malware
Web Ranking
URLs Discovery & Selection
Crawling
Document Processing
INTRODUCTIONS
Bouches-du-Rhône – France Bouches-du-Rhône – France
SOMMAIRE
1. Pourquoi le robot d'indexation (Crawler) est essentiel
2. Les challenges pour les moteurs de recherche
3. Actions recommandées par Bing
Quel est l'objectif des moteurs de recherche?
1
2
3
What is the goal of the Search Engines?
• Discover, crawl and index everything
• Create “the” Knowledge Graph
• Super fast access to information
Tout découvrir, tout crawler et tout indexer
Créer “la” base du savoir
Accès super rapide à l'information
Non, pas tout à fait:
No. Not quite:
Provide searchers with timely, relevant results that they can trust that
provides insights about the search queries.
L'objectif de Bing est de fournir aux personnes qui
recherchent des résultats opportuns et pertinents, en
lesquels ces personnes peuvent avoir confiance et qui
fournissent des informations utiles durant leurs recherches.
Crawler est nécessaire
1
2
3
Aidez bingbot à
indexer votre site
Permet de collecter les ressources
(pages Web, images, vidéos, etc.)
Permet de découvrir des liens
Permet de rafraichir le contenu
des pages
Bing est plus grand que vous le pensez
117 MILLIONS
d'internautes
uniques chaque
mois1
2
MILLIARDS
2
36%
d'augmentation
du nombre de clics
dans la zone France3
​1 et 2 : qSearch, Explicit Core Search (rapport personnalisé) effectué par comScore, avril 2018. Le Bing Network comprend Bing, Yahoo Search (recherches fournies par Bing) et le
réseau de Search AOL
3 : Données internes Microsoft
Bing is Bigger than You think
Partie 2: Crawl et Indexation
Les challenges pour les moteurs de recherche
LE CRAWLER DES MOTEURS DE RECHERCHE
Selon Google
How Google says I look like
Selon les SEOs
How SEOs see me
À quoi je ressemble vraiment
How I really look like
Construire un robot est facile…
Building a crawler is easy…
Service Unavailable
HTTP Error 503. The service is unavailable.
… Le rendre poli est plus difficile !
…making it polite is harder!
Crawl
Manager
Crawl budget is howmuch the crawler thinks it can crawl without
hurting your site performance.
Le budget de crawl est le nombre de contenus
que le robot pense qu'il peut crawler sans nuire
aux performances de votre site
Pour être crawlée, une URL doit
rentrer dans tous les budgets
individual (site, IP, etc).
Déterminer le budget de
crawl est un problème à
multiples dimensions
Each bottleneck has its own crawl budget
To be crawled, a URL must fit in all the applicable budgets.
Server
contoso.com
www.contoso.com
blog.contoso.com
www.fabrikam.com
www.proseware.com
Assigned IPs
20.190.133.0/28
40.78.208.32/30
Determining crawl budget is an iterative process
Code Réponse HTTP
2xx 3xx 4xx 5xx
Demande vs. Budget
Demande Budget
Augmenter le budget
Diminuer le budget
+ Erreurs de connexion
+ Durée de download
+ Taille du contenu
+ Autres signaux
Crawl Queue
Déterminer le budget crawl est un processus itératif
When crawl budget meets crawl demand
Petit site web Grand site web
Excellent SEO
SEO perfectible
FACILE
DIFFICILE
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Demande vs. Budget
Demande Budget
Quand le budget du crawl répond à la demande
Règle de base: votre budget de crawl
devrait permettre au robot de crawler
votre site entier en +/- deux semaines.
Rule of thumb: your crawl budget should allow the crawler to
recrawl your entire site in about two weeks.
YMMV: publishing schedule, update frequency,
exceptional events (e.g. site migration), etc…
Freeing up server resources to increase crawl budget
Réduire la consommation de ressources Éliminer le gaspillagePerformance Sécurité
Libérer des ressources serveur pour augmenter votre budget
How about crawl demand?
Dupliquer le contenu
Pas de sitemap
Trop de rendu
dynamique (JS)
Pas de redirections
Trop de ressources
secondaires (JS, CSS…)
Longues chaînes
de redirection
Pas de “lastmod”
dans le sitemap
URLs mobiles “m.”
Pas de canonical tags
URLs inutiles
ou indésirables
Paramètres inutiles
dans les URLs
Bingbot apprend
et s'améliore
Facteurs influant sur la demande et le budget
Crawl: Les métriques clés pour Bing
1
2
Crawl : key metrics for Bing
• Maximize Crawl Effectiveness : Every page in index is a fresh copy of its web version
• Maximize Crawl Efficiency: Crawl only updated (fresh on-page content or useful
outbound links) or new URLs
Maximiser « Crawl effectiveness »
Chaque page de l'index est une nouvelle copie de sa version Web
Maximiser « Crawl efficiency »
Crawler uniquement les pages mise à jour (contenu frais sur la page ou
liens sortants utiles) ou de nouvelles URLs utiles
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… N/A Score=1000
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
https://www.contoso.com/ Discovered N/A N/A N/A
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
https://www.contoso.com/ Indexed <html>… N/A N/A
URL Status Content Target Signals
http://www.contoso.com/ Redirect N/A https://www.contoso.com/ Score=1000
https://www.contoso.com/ Indexed <html>… N/A N/A
URL Status Content Target Signals
http://www.contoso.com/ Redirect N/A https://www.contoso.com/ N/A
https://www.contoso.com/ Indexed <html>… N/A Score=1000
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
301
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
200
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
HTTP 301 redirect step by step
Redirection HTTP 301 étape par étape
302200
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… N/A Score=1000
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
http://www.contoso.com/about.php
…
If you use HTTP 302 instead…
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
Si vous utilisez HTTP 302 à la place...
URL Status Content Target Signals
http://www.contoso.com/ Indexed <html>… N/A Score=1000
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
If both pages return HTTP 200…
Si les deux pages retournent HTTP 200...
URL Status Content Target Signals
http://www.contoso.com/ Indexed N/A N/A Score=100
https://www.contoso.com/ Indexed <html>… N/A Score=100
Crawl Queue
http://www.contoso.com/
http://blog.contoso.com/
https://www.contoso.com/
http://www.contoso.com/about.php
If the old page is blocked in robots.txt…
Si l'ancienne page est bloquée par robots.txt...
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Going beyond static content
Aller au-delà du contenu statique
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
If the resources are blocked in robots.txt…
Si les ressources sont bloquées par robots.txt...
Rendre plus prévisible avec le rendu dynamique
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Crawl Queue
https://www.contoso.com/
https://www.contoso.com/code.js
https://www.contoso.com/style.css
Making it more predictable with dynamic rendering
+ JavaScript
? ?
Partie 3: Actions recommandées par Bing
Discovery: Permettre de découvrir les URLs
1
2
3
Système de gestion de contenu web compatible SEO
XML sitemaps rafraîchis au moins une fois par jour
Flux RSS pour les nouvelles URLs ou le nouveau contenu
1. CMS SEO compatible
2. XML sitemaps refresh once a day
3. RSS feeds for latest content
Selection/Ranking: Avoir les URLs choisies
1
2
3
Ecrivez du contenu pertinent et unique
Ayez une audience
Evitez trop de liens et des copies
Write relevant and unique
content
Have customers
Crawl: Accéder au contenu
1
2
3
Permettez-nous d’accéder (robots.txt)
Guidez-nous vers le nouveau contenu
Evitez trop de JavaScript pour les gros sites web
Crawl - Content access
• Allow us to access (allow in robots.txt)
• Guide us to the new content: RSS, lastmod
• Avoid too many JavaScript calls on large
Processing: Dites-nous tout de votre contenu
1
2
3
Facilitez la taches des navigateurs et les moteurs
HTML de base est préférable
Dites-nous plus via schema (HTML 5 tags, Json-LD…)
Tell us everything!
• Make it simple for browser and search engines
• Basic HTML is preferable
• Tell us more via schema (HTML 5 tags, Json-LD ...)
La recette magique:
1
2
Bing Webmaster Tools
https://www.bing.com/webmaster/
Bing Webmaster API
https://www.bing.com/webmaster/api/
Exemple: Indexer une URL est aussi simple que cela
POST
/webmaster/api.svc/pox/SubmitUrl?apikey=A10ECC1EAFAE381C113365A075EBCEB6
HTTP/1.1 Content-Type: application/xml; charset=utf-8
Host: ssl.bing.com
Content-Length: 127
<SubmitUrl
xmlns="http://schemas.datacontract.org/2004/07/Microsoft.Bing
.Webmaster.Api">
<siteUrl>http://example.com</siteUrl>
<url>http://example.com/url1.html</url>
</SubmitUrl>
Contacts
@facan
@copernix
fabricecanel
fredericdubut

Mais conteúdo relacionado

Mais procurados

Comment réussir une migration de site web en seo ?
Comment réussir une migration de site web en seo ?Comment réussir une migration de site web en seo ?
Comment réussir une migration de site web en seo ?Patrick Valibus
 
Magento et SEO : le combo parfait pour développer son e-commerce
Magento et SEO : le combo parfait pour développer son e-commerceMagento et SEO : le combo parfait pour développer son e-commerce
Magento et SEO : le combo parfait pour développer son e-commercePatrick Valibus
 
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...SEARCH Y - Philippe Yonnet Evénements
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleAymeric Bouillat
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat
 
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !David Dragesco
 
Les défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEOLes défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEODaniel Roch - SeoMix
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Olivier Andrieu
 
Optimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManagerOptimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManageriProspect France
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEODimitri Brunel
 
SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?Camille Thomas
 

Mais procurados (12)

Comment réussir une migration de site web en seo ?
Comment réussir une migration de site web en seo ?Comment réussir une migration de site web en seo ?
Comment réussir une migration de site web en seo ?
 
Magento et SEO : le combo parfait pour développer son e-commerce
Magento et SEO : le combo parfait pour développer son e-commerceMagento et SEO : le combo parfait pour développer son e-commerce
Magento et SEO : le combo parfait pour développer son e-commerce
 
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...
SEARCH Y - Véronique Duong - Astuces pour se référencer dans Baidu, Qihoo 360...
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
 
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
 
Les défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEOLes défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEO
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
Optimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManagerOptimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag Manager
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEO
 
SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?SEO: Faut il migrer vos sites en https ?
SEO: Faut il migrer vos sites en https ?
 

Semelhante a SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les challenges pour les moteurs de recherche

La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010
La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010
La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010SEO CAMP
 
La boite à outils du référenceur - SEO Campus 2010
La boite à outils du référenceur - SEO Campus 2010La boite à outils du référenceur - SEO Campus 2010
La boite à outils du référenceur - SEO Campus 2010relevant_traffic_france
 
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Peak Ace
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à GoogleKeyweo
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancéesMajed Ayari
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...SEO Camp Association
 
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Julien Ferras
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanAymeric Bouillat
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisationRémi Bachelet
 
Réussir sa refonte de site sans perdre son référencement naturel
Réussir sa refonte de site sans perdre son référencement naturelRéussir sa refonte de site sans perdre son référencement naturel
Réussir sa refonte de site sans perdre son référencement naturelCamille Thomas
 
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...Eric Culnaert
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausannePierre Ammeloot
 
Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Open-linking
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Search Foresight
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEOForestier Mégane
 
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...Peak Ace
 
Seo camp day lorraine 2018 - Nancy gregory ambroise
Seo camp day lorraine 2018  - Nancy gregory ambroiseSeo camp day lorraine 2018  - Nancy gregory ambroise
Seo camp day lorraine 2018 - Nancy gregory ambroiseGrégory Ambroise
 
Hesso valais - referencement naturel
Hesso valais - referencement naturelHesso valais - referencement naturel
Hesso valais - referencement naturelPhilippe Barman
 
SEO Wordpress : tailler son site comme une fusée
SEO Wordpress : tailler son site comme une fuséeSEO Wordpress : tailler son site comme une fusée
SEO Wordpress : tailler son site comme une fuséeMarketing.airforce
 

Semelhante a SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les challenges pour les moteurs de recherche (20)

La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010
La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010
La boite à outils du référenceur - Sébastien Billard - SEO Campus 2010
 
La boite à outils du référenceur - SEO Campus 2010
La boite à outils du référenceur - SEO Campus 2010La boite à outils du référenceur - SEO Campus 2010
La boite à outils du référenceur - SEO Campus 2010
 
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à Google
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancées
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...
 
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisan
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisation
 
Réussir sa refonte de site sans perdre son référencement naturel
Réussir sa refonte de site sans perdre son référencement naturelRéussir sa refonte de site sans perdre son référencement naturel
Réussir sa refonte de site sans perdre son référencement naturel
 
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...
CCC-CONNECTION - etablir une strategie ecommerce efficace: abandon de panier,...
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom Lausanne
 
Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015Conférence SEO aux Académies du Tourisme Numérique 2015
Conférence SEO aux Académies du Tourisme Numérique 2015
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEO
 
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...
Search : la todo list 2017 pour ne rien oublier dans votre roadmap - Petit dé...
 
Seo camp day lorraine 2018 - Nancy gregory ambroise
Seo camp day lorraine 2018  - Nancy gregory ambroiseSeo camp day lorraine 2018  - Nancy gregory ambroise
Seo camp day lorraine 2018 - Nancy gregory ambroise
 
Hesso valais - referencement naturel
Hesso valais - referencement naturelHesso valais - referencement naturel
Hesso valais - referencement naturel
 
SEO Wordpress : tailler son site comme une fusée
SEO Wordpress : tailler son site comme une fuséeSEO Wordpress : tailler son site comme une fusée
SEO Wordpress : tailler son site comme une fusée
 

Mais de SEARCH Y - Philippe Yonnet Evénements

SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...
SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...
SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...SEARCH Y - Philippe Yonnet Evénements
 
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...SEARCH Y - Philippe Yonnet Evénements
 
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEA
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEASEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEA
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEASEARCH Y - Philippe Yonnet Evénements
 
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du Netlinking
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du NetlinkingSEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du Netlinking
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du NetlinkingSEARCH Y - Philippe Yonnet Evénements
 
SEARCH Y : Benjamin Bussière - Javascript and seo misconceptions, misunders...
SEARCH Y :  Benjamin Bussière - Javascript and seo  misconceptions, misunders...SEARCH Y :  Benjamin Bussière - Javascript and seo  misconceptions, misunders...
SEARCH Y : Benjamin Bussière - Javascript and seo misconceptions, misunders...SEARCH Y - Philippe Yonnet Evénements
 
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Philippe Yonnet Evénements
 

Mais de SEARCH Y - Philippe Yonnet Evénements (14)

SEARCH Y - Will Critchlow - Full Funnel Testing
SEARCH Y - Will Critchlow - Full Funnel TestingSEARCH Y - Will Critchlow - Full Funnel Testing
SEARCH Y - Will Critchlow - Full Funnel Testing
 
SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...
SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...
SEARCH Y - Kelvin Newman - Three practical (and inventive) ways of pinching k...
 
SEARCH Y - Olivier Duffez - Chassez vos pages zombies
SEARCH Y - Olivier Duffez - Chassez vos pages zombiesSEARCH Y - Olivier Duffez - Chassez vos pages zombies
SEARCH Y - Olivier Duffez - Chassez vos pages zombies
 
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...
SEARCH Y - Me Stéphane SIOEN-GALLINA - Le Search, l'impact du RGPD et l'e-Pri...
 
SEARCH Y - Julien Coquet - Cauchemars Analytics
SEARCH Y - Julien Coquet - Cauchemars AnalyticsSEARCH Y - Julien Coquet - Cauchemars Analytics
SEARCH Y - Julien Coquet - Cauchemars Analytics
 
SEARCH Y - Zohra Belmahdi - Comment bien rédiger un brief editorial
SEARCH Y - Zohra Belmahdi - Comment bien rédiger un brief editorialSEARCH Y - Zohra Belmahdi - Comment bien rédiger un brief editorial
SEARCH Y - Zohra Belmahdi - Comment bien rédiger un brief editorial
 
SEARCH Y - Thomas Bart - Comment automatiser une campagne Google Ads
SEARCH Y - Thomas Bart - Comment automatiser une campagne Google AdsSEARCH Y - Thomas Bart - Comment automatiser une campagne Google Ads
SEARCH Y - Thomas Bart - Comment automatiser une campagne Google Ads
 
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEA
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEASEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEA
SEARCH Y - Guillaume Eouzan - Comment optimiser votre SEO grâce au SEA
 
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du Netlinking
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du NetlinkingSEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du Netlinking
SEARCH Y - Mikael Priol : Le contexte sémantique, l'avenir du Netlinking
 
SEARCH Y - Bastian Grimm - Migrations Best Practices
SEARCH Y - Bastian Grimm -  Migrations Best PracticesSEARCH Y - Bastian Grimm -  Migrations Best Practices
SEARCH Y - Bastian Grimm - Migrations Best Practices
 
SEARCH Y : Benjamin Bussière - Javascript and seo misconceptions, misunders...
SEARCH Y :  Benjamin Bussière - Javascript and seo  misconceptions, misunders...SEARCH Y :  Benjamin Bussière - Javascript and seo  misconceptions, misunders...
SEARCH Y : Benjamin Bussière - Javascript and seo misconceptions, misunders...
 
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
SEARCH Y - Olivier Andrieu - Answer Engine Optimization et Recherche Vocale l...
 
Search Y - Aleyda Solis - PWA & SEO
Search Y - Aleyda Solis - PWA & SEOSearch Y - Aleyda Solis - PWA & SEO
Search Y - Aleyda Solis - PWA & SEO
 
SEARCH Y - Anders Hjorth - Stratégies SEA Gagnantes en 2019
SEARCH Y - Anders Hjorth - Stratégies SEA Gagnantes en 2019SEARCH Y - Anders Hjorth - Stratégies SEA Gagnantes en 2019
SEARCH Y - Anders Hjorth - Stratégies SEA Gagnantes en 2019
 

SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les challenges pour les moteurs de recherche

  • 1. The audience Crawl et Indexation les challenges pour les moteurs de recherche
  • 2. Frédéric Dubut Fabrice Canel Lieu de naissance (Birth location): Marseille - France Aix en Provence - France Basé à (Location): Washington state – USA Washington state – USA Société (Company): Microsoft Microsoft Équipe (team): Titre (Title) Senior Program Manager Principal Program Manager Années à (Years at) Microsoft: 10 22 Responsabilités (Responsabilities): Spam/Malware Web Ranking URLs Discovery & Selection Crawling Document Processing INTRODUCTIONS Bouches-du-Rhône – France Bouches-du-Rhône – France
  • 3. SOMMAIRE 1. Pourquoi le robot d'indexation (Crawler) est essentiel 2. Les challenges pour les moteurs de recherche 3. Actions recommandées par Bing
  • 4. Quel est l'objectif des moteurs de recherche? 1 2 3 What is the goal of the Search Engines? • Discover, crawl and index everything • Create “the” Knowledge Graph • Super fast access to information Tout découvrir, tout crawler et tout indexer Créer “la” base du savoir Accès super rapide à l'information
  • 5. Non, pas tout à fait: No. Not quite: Provide searchers with timely, relevant results that they can trust that provides insights about the search queries. L'objectif de Bing est de fournir aux personnes qui recherchent des résultats opportuns et pertinents, en lesquels ces personnes peuvent avoir confiance et qui fournissent des informations utiles durant leurs recherches.
  • 6. Crawler est nécessaire 1 2 3 Aidez bingbot à indexer votre site Permet de collecter les ressources (pages Web, images, vidéos, etc.) Permet de découvrir des liens Permet de rafraichir le contenu des pages
  • 7. Bing est plus grand que vous le pensez 117 MILLIONS d'internautes uniques chaque mois1 2 MILLIARDS 2 36% d'augmentation du nombre de clics dans la zone France3 ​1 et 2 : qSearch, Explicit Core Search (rapport personnalisé) effectué par comScore, avril 2018. Le Bing Network comprend Bing, Yahoo Search (recherches fournies par Bing) et le réseau de Search AOL 3 : Données internes Microsoft Bing is Bigger than You think
  • 8. Partie 2: Crawl et Indexation Les challenges pour les moteurs de recherche
  • 9. LE CRAWLER DES MOTEURS DE RECHERCHE Selon Google How Google says I look like Selon les SEOs How SEOs see me À quoi je ressemble vraiment How I really look like
  • 10. Construire un robot est facile… Building a crawler is easy… Service Unavailable HTTP Error 503. The service is unavailable.
  • 11. … Le rendre poli est plus difficile ! …making it polite is harder! Crawl Manager
  • 12. Crawl budget is howmuch the crawler thinks it can crawl without hurting your site performance. Le budget de crawl est le nombre de contenus que le robot pense qu'il peut crawler sans nuire aux performances de votre site
  • 13. Pour être crawlée, une URL doit rentrer dans tous les budgets individual (site, IP, etc). Déterminer le budget de crawl est un problème à multiples dimensions Each bottleneck has its own crawl budget To be crawled, a URL must fit in all the applicable budgets. Server contoso.com www.contoso.com blog.contoso.com www.fabrikam.com www.proseware.com Assigned IPs 20.190.133.0/28 40.78.208.32/30
  • 14. Determining crawl budget is an iterative process Code Réponse HTTP 2xx 3xx 4xx 5xx Demande vs. Budget Demande Budget Augmenter le budget Diminuer le budget + Erreurs de connexion + Durée de download + Taille du contenu + Autres signaux Crawl Queue Déterminer le budget crawl est un processus itératif
  • 15. When crawl budget meets crawl demand Petit site web Grand site web Excellent SEO SEO perfectible FACILE DIFFICILE Demande vs. Budget Demande Budget Demande vs. Budget Demande Budget Demande vs. Budget Demande Budget Demande vs. Budget Demande Budget Quand le budget du crawl répond à la demande
  • 16. Règle de base: votre budget de crawl devrait permettre au robot de crawler votre site entier en +/- deux semaines. Rule of thumb: your crawl budget should allow the crawler to recrawl your entire site in about two weeks. YMMV: publishing schedule, update frequency, exceptional events (e.g. site migration), etc…
  • 17. Freeing up server resources to increase crawl budget Réduire la consommation de ressources Éliminer le gaspillagePerformance Sécurité Libérer des ressources serveur pour augmenter votre budget
  • 18. How about crawl demand? Dupliquer le contenu Pas de sitemap Trop de rendu dynamique (JS) Pas de redirections Trop de ressources secondaires (JS, CSS…) Longues chaînes de redirection Pas de “lastmod” dans le sitemap URLs mobiles “m.” Pas de canonical tags URLs inutiles ou indésirables Paramètres inutiles dans les URLs Bingbot apprend et s'améliore Facteurs influant sur la demande et le budget
  • 19. Crawl: Les métriques clés pour Bing 1 2 Crawl : key metrics for Bing • Maximize Crawl Effectiveness : Every page in index is a fresh copy of its web version • Maximize Crawl Efficiency: Crawl only updated (fresh on-page content or useful outbound links) or new URLs Maximiser « Crawl effectiveness » Chaque page de l'index est une nouvelle copie de sa version Web Maximiser « Crawl efficiency » Crawler uniquement les pages mise à jour (contenu frais sur la page ou liens sortants utiles) ou de nouvelles URLs utiles
  • 20. URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… N/A Score=1000 URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000 https://www.contoso.com/ Discovered N/A N/A N/A URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000 https://www.contoso.com/ Indexed <html>… N/A N/A URL Status Content Target Signals http://www.contoso.com/ Redirect N/A https://www.contoso.com/ Score=1000 https://www.contoso.com/ Indexed <html>… N/A N/A URL Status Content Target Signals http://www.contoso.com/ Redirect N/A https://www.contoso.com/ N/A https://www.contoso.com/ Indexed <html>… N/A Score=1000 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ http://www.contoso.com/about.php … Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ http://www.contoso.com/about.php … 301 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php 200 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php HTTP 301 redirect step by step Redirection HTTP 301 étape par étape
  • 21. 302200 URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… N/A Score=1000 URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ http://www.contoso.com/about.php … Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ http://www.contoso.com/about.php … If you use HTTP 302 instead… URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… https://www.contoso.com/ Score=1000 https://www.contoso.com/ Indexed <html>… N/A Score=100 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php Si vous utilisez HTTP 302 à la place...
  • 22. URL Status Content Target Signals http://www.contoso.com/ Indexed <html>… N/A Score=1000 https://www.contoso.com/ Indexed <html>… N/A Score=100 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php If both pages return HTTP 200… Si les deux pages retournent HTTP 200...
  • 23. URL Status Content Target Signals http://www.contoso.com/ Indexed N/A N/A Score=100 https://www.contoso.com/ Indexed <html>… N/A Score=100 Crawl Queue http://www.contoso.com/ http://blog.contoso.com/ https://www.contoso.com/ http://www.contoso.com/about.php If the old page is blocked in robots.txt… Si l'ancienne page est bloquée par robots.txt...
  • 25. Crawl Queue https://www.contoso.com/ https://www.contoso.com/code.js https://www.contoso.com/style.css If the resources are blocked in robots.txt… Si les ressources sont bloquées par robots.txt...
  • 26. Rendre plus prévisible avec le rendu dynamique Crawl Queue https://www.contoso.com/ https://www.contoso.com/code.js https://www.contoso.com/style.css Crawl Queue https://www.contoso.com/ https://www.contoso.com/code.js https://www.contoso.com/style.css Making it more predictable with dynamic rendering + JavaScript ? ?
  • 27. Partie 3: Actions recommandées par Bing
  • 28. Discovery: Permettre de découvrir les URLs 1 2 3 Système de gestion de contenu web compatible SEO XML sitemaps rafraîchis au moins une fois par jour Flux RSS pour les nouvelles URLs ou le nouveau contenu 1. CMS SEO compatible 2. XML sitemaps refresh once a day 3. RSS feeds for latest content
  • 29. Selection/Ranking: Avoir les URLs choisies 1 2 3 Ecrivez du contenu pertinent et unique Ayez une audience Evitez trop de liens et des copies Write relevant and unique content Have customers
  • 30. Crawl: Accéder au contenu 1 2 3 Permettez-nous d’accéder (robots.txt) Guidez-nous vers le nouveau contenu Evitez trop de JavaScript pour les gros sites web Crawl - Content access • Allow us to access (allow in robots.txt) • Guide us to the new content: RSS, lastmod • Avoid too many JavaScript calls on large
  • 31. Processing: Dites-nous tout de votre contenu 1 2 3 Facilitez la taches des navigateurs et les moteurs HTML de base est préférable Dites-nous plus via schema (HTML 5 tags, Json-LD…) Tell us everything! • Make it simple for browser and search engines • Basic HTML is preferable • Tell us more via schema (HTML 5 tags, Json-LD ...)
  • 32. La recette magique: 1 2 Bing Webmaster Tools https://www.bing.com/webmaster/ Bing Webmaster API https://www.bing.com/webmaster/api/ Exemple: Indexer une URL est aussi simple que cela POST /webmaster/api.svc/pox/SubmitUrl?apikey=A10ECC1EAFAE381C113365A075EBCEB6 HTTP/1.1 Content-Type: application/xml; charset=utf-8 Host: ssl.bing.com Content-Length: 127 <SubmitUrl xmlns="http://schemas.datacontract.org/2004/07/Microsoft.Bing .Webmaster.Api"> <siteUrl>http://example.com</siteUrl> <url>http://example.com/url1.html</url> </SubmitUrl>