SlideShare uma empresa Scribd logo
1 de 49
Screaming Frog
L’outil ne fait pas
l’artisan
Cycle technique
#seocampParis 2020 2
Aymeric Bouillat
Consultant SEO technique dans l’agence SEO (groupe )
• Des affinités avec le SEO technique
• Spécialiste des migrations de site
• Et un blog plus trop à jour…. https://www.yapasdequoi.com
Pour me suivre sur Twitter :
@aymerictwit
#seocampParis 2020 3
A quoi ça sert?
Analyse des balises
SEO
Extraction de données
précises dans les pages
Découverte des
problématiques de duplication
Examen des directives
pour les robots
Analyse des redirections
Crawl avec un
rendu JS, comme
Google
Détection des liens
cassés
Visualisation de l’architecture
d’un site et de son maillage
Connexions à des API (Search
Console, GA, Ahrefs, etc)
Génération de sitemaps
XML
#seocampParis 2020 4
3 choses à savoir
#seocampParis 2020
Quel mode de crawl?
5
#seocampParis 2020 6
Préférez le mode Base de données
• Un crawl, c’est gourmand ! (Configuration > Storage mode)
• Memory = 3Go min.  crawls de moins de 100.000 URL : plus rapide, moins souple
• Database storage = avoir un disque SSD : plus souple, permet le crawl de gros sites
#seocampParis 2020 7
Database storage : mode « projet »
• Gérer ses crawls par client (File > Crawls )
Penser à faire le ménage
de temps en temps
#seocampParis 2020
Préparer son crawl
avant de se lancer
8
#seocampParis 2020 9
Ne pas oublier !
• Utiliser la commande « site: »
• Faire un « précrawl » avant le crawl complet
• Prévenir le client ou l’hébergeur (éviter la blacklist)
• Sauvegarder sa configuration
#seocampParis 2020 10
Database storage : mode « projet »
• Définir ce que l’on souhaite crawler, et stocker
•  Store permet de conserver toutes les relations (liens entrants et sortants)
• Objectif : Limiter le poids des fichiers dans la base de données
#seocampParis 2020 11
Comportement du crawler
Si il ne fallait en retenir que 6 :
• Configuration « User-agent » : dynamic serving /site mobile dédié
• Craw Linked Xml Sitemaps(onglet « Crawl »)
• Extraction JSON-LD +microdata (onglet « Extraction »)
• Store HTML/rendered HTML (onglet « Extraction »)
• Effectuer un rendu JS (onglet « Rendering »)
• Respect « canonical » & « noindex » en fonction des besoins…(Onglet
« Advanced »)
Aucun crawl ne se ressemble…
#seocampParis 2020 12
Modifier des URL à la volée
Case study
 HTTP vers HTTPS
 Suppression du #, ex:
/faq#question1
/faq#question2
(avec le rendu JS, les URL avec # sont
explorées, on va regrouper les signaux)
#seocampParis 2020 13
Site en développement
Menu Configuration > Authentification
2 méthodes :
Authentification serveur standard
ou
Formulaire de login
• Adapter le robots.txt si nécessaire
• Informer client/hébergeur de l’IP et de l’UA utilisé
Penser à
l’exclusion des
URL « touchy »
#seocampParis 2020
• « Let’s crawl by night » !
• Crawl régulier (utile pour faire des comparaisons)
• Possibilité de générer des exports auto (csv, xlsx,..)
• Génération automatisée de sitemaps
14
Et le crawl programmable?
#seocampParis 2020 15
Crawl sans interface !
• Pas d’interface graphique =
Idéal pour un serveur
Préparer un fichier de configuration et générer
ses exports automatiquement !
--config "C:UsersAymeric.BouillatCrawlsconfig-mobile.seospidercon
#seocampParis 2020
Il manquerait pas quelque chose?
16
#seocampParis 2020 17
A la pêche aux données : scrappons!
Extraire des données des pages Web, pour qualifier, analyser et optimiser!
Fil d’Ariane
Nombre
d’avis
Stock
Descriptif
Code de
tracking GA
Le type de page (ex:
listing, produit, édito, etc.)
Nombre de
commentaires
#seocampParis 2020 18
Exemples d’utilisations SEO
Récupérer des éléments précis sur une page Web:
Fil d’Ariane (ex: qualifier/organiser ses URL)
Détecter des typologies de pages
Sur un site e-commerce
l’état en stock d’un produit (disponibilité / liens vers des produits épuisés)
le nombre d’avis sur un produit (pages produits avec peu d’avis)
le nombre de commentaires
Sur un site de contenu
le nom de l’auteur d’un article
la date de publication d’un article
Et en général:
le nombre de blocs catégories
le contenu principal (contenu d’un paragraphe précis)
les données Opengraph/TwitterCards
les URL des vidéos Youtube
etc.
Cf. « Annexe scraping » en fin de
présentation
#seocampParis 2020
Analyse & interprétation
19
#seocampParis 2020 20
Attention aux erreurs d’interprétation
Profondeur des URL
Près d’un tiers de vos URL sont accessibles en 4
clics depuis la page d’accueil.
C’est très grave d’un point de vue maillage.
La majeure partie des URL en profondeur 4 sont
des URL d’ images (liens vers des images), ça va…
#seocampParis 2020 21
Problématiques d’URL
Focus sur les paramètres d’URL (ex: tri, filtre, pagination etc.)
 Pertinence des URL (si indexables)
 C’est pas parce qu’il y a écrit « canonical » que c’est bien ! (ex: pagination vers la 1ere page…)
#seocampParis 2020 22
Codes réponse : par typologie de page/URL
Beaucoup de redirections?
- similarité entre les redirections (pages de
destination)
- source des redirections (lien ? Canonical ?
hreflang ? AMP ? )
- erreur de lien? La page de destination
existe peut être !
#seocampParis 2020 23
Redirections 301
Un poisson peut en cacher un autre
Une redirection aussi peut en
cacher une autre...
#seocampParis 2020 24
Regrouper les redirections par type
#seocampParis 2020 25
Pas d’erreurs 404 ?
Ça n’est pas forcément bon signe…!
#seocampParis 2020 26
Attention aux softs 404
 Tester des URL inexistantes et regarder le code réponse. Ex: /url-qui-n-existe-pas
Statut HTTP de l’URL en 200 ?
(et non 404)
#seocampParis 2020 27
Retrouver le chemin
Ex: Retrouver l’origine d’un lien cassé  Clic-droit puis « Crawl Path Report »
#seocampParis 2020 28
Et les balises <title>…</title>?
Beaucoup de duplicate au premier abord? mais il peut être « logique » (ex: pagination)
#seocampParis 2020 29
Faire des exclusions pour y voir + clair
Pour voir toutes les URL qui ne contiennent pas « page=… »
^((?!page=).)*$  Afficher les URL ne contenant pas « page= » via une regexp.
#seocampParis 2020 30
Contenu dupliqué
Un nouvel onglet dans Screaming Frog !
Comparer les différences
entre 2 pages très
similaires
#seocampParis 2020 31
Trop de similarité à cause d’un mega-menu ?
Ne pas tenir compte de certains éléments HTML, c’est possible 
#seocampParis 2020
Visualisation
32
#seocampParis 2020 33
Maillage
Maillage interne : bien ou pas? Ça dépend de ce qu’on regarde
Attention : ne représente pas l’intégralité
des liens, mais juste le chemin le + court
pour accéder à chaque URL
#seocampParis 2020 34
Visualisation
Mettre en avant des défauts de maillage, ou identifier des pages en fonctions de certains KPI
• Voir si des URL fortement maillées ne sont pas indexables
(Canonical, redirection, noindex)  perte de PageRank
interne
• Voir où se situent dans le maillage les URL qui
génèrent le plus de trafic
• Link score : page rank interne de
screaming Frog
#seocampParis 2020 35
Perte de jus
Dilution de la popularité vers des pages en noindex (en rouge) :
#seocampParis 2020 36
Mieux comprendre le maillage d’une page
Ancres de liens : renforcer les variations sémantiques
#seocampParis 2020 37
Principales occurrences d’un contenu
Avoir préalablement coché la case
« Store HTML » de l’onglet « Extraction »
lors de la config du crawl
#seocampParis 2020
Allons plus loin!
38
#seocampParis 2020 39
+ de données avec une analyse de crawl
Menu « Crawl analysis »  « Start »
Voir les URL non maillées détectées
par ailleurs (hreflang, canonical,
sitemap, AMP, API, etc.)
#seocampParis 2020 40
URL non maillées
URL introuvables lors du crawl mais existantes par ailleurs
URL n’ayant jamais reçu de liens
URL ne recevant plus de liens
 Renforcer le maillage
#seocampParis 2020 41
Orphan URL via les API
Permet de mettre en avant les URL présentes dans le sitemap, mais aussi la Search Console,
Google Analytics, et qui n’ont pas été trouvées lors du crawl. (cf. les onglets correspondants)
#seocampParis 2020 42
Question Mug
Quel est le dernier onglet qui a vu le jour en Juillet 2020 dans
Screaming Frog ?
#seocampParis 2020 43
Réponse Mug
L’onglet « Content » !
On peut même faire de la détection de fautes de grammaire et d’orthographe :
#seocampParis 2020
Merci!
Des questions?
44
Pour me suivre sur Twitter : @aymerictwit
MERCI AUX SPONSORS
#seocampParis 2020 45
#seocampParis 2020
Annexe Scraping
46
#seocampParis 2020 47
Paramétrage de l’extraction
Rechercher un élément via:
- Texte
- Expression régulière
Rechercher via
- Xpath (<3)
- Un sélecteur CSS
#seocampParis 2020 48
Type d’éléments à extraire
<div class="bloc-content-title">
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
</div>
<div class="bloc-content-title">
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
</div>
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
Voir plus News
//div[@class=“bloc-content-title“]
#seocampParis 2020 49
Exemples Xpath vs HTML
//div[@id="wayfinding-breadcrumbs_feature_div"]/li[not(@class)]
//ul[@class="a-unordered-list a-vertical a-spacing-mini"]/li/span
//span[@id="acrCustomerReviewText"]
(//span[@class="a-icon-alt"])[1]  la première balise de ce type
//div[@id="availability"]/span
Descriptif
Nbe
commentaires
Nbe avis
Stock
Fil d’Ariane
https://devhints.io/xpathAntisèche :

Mais conteúdo relacionado

Mais procurados

SEOkomm 2021: Interne Verlinkung
SEOkomm 2021: Interne VerlinkungSEOkomm 2021: Interne Verlinkung
SEOkomm 2021: Interne VerlinkungJohan Hülsen
 
Atelier le référencement 2016
Atelier le référencement 2016Atelier le référencement 2016
Atelier le référencement 2016Kate De Gourdon
 
Seo strategy guide 2019
Seo strategy guide 2019Seo strategy guide 2019
Seo strategy guide 2019Sanjay Patwal
 
Website Analysis Seo Report
Website Analysis Seo ReportWebsite Analysis Seo Report
Website Analysis Seo ReportSEO Google Guru
 
Log File Analysis: The most powerful tool in your SEO toolkit
Log File Analysis: The most powerful tool in your SEO toolkitLog File Analysis: The most powerful tool in your SEO toolkit
Log File Analysis: The most powerful tool in your SEO toolkitTom Bennet
 
The step by step guide to SEO Website Audit
The step by step guide to SEO Website Audit The step by step guide to SEO Website Audit
The step by step guide to SEO Website Audit amandacerry
 
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEO
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEONavigation à facettes son impact sur la pagination, les bonnes pratiques SEO
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEOPerformics France
 
Keyword Research and Topic Modeling in a Semantic Web
Keyword Research and Topic Modeling in a Semantic WebKeyword Research and Topic Modeling in a Semantic Web
Keyword Research and Topic Modeling in a Semantic WebBill Slawski
 
Basics of Search Engine Optimisation
Basics of Search Engine OptimisationBasics of Search Engine Optimisation
Basics of Search Engine OptimisationWordCamp Sydney
 
Seo : trucs et astuces d'un bon référencement
Seo : trucs et astuces d'un bon référencementSeo : trucs et astuces d'un bon référencement
Seo : trucs et astuces d'un bon référencementJulien Dereumaux
 
Website Pre SEO Analysis Report- Online Marketing: Search Engine Optimization
Website Pre SEO Analysis Report- Online Marketing: Search Engine OptimizationWebsite Pre SEO Analysis Report- Online Marketing: Search Engine Optimization
Website Pre SEO Analysis Report- Online Marketing: Search Engine OptimizationVikesh Sanwalodia
 
How to Automatically Subcategorise Your Website Automatically With Python
How to Automatically Subcategorise Your Website Automatically With PythonHow to Automatically Subcategorise Your Website Automatically With Python
How to Automatically Subcategorise Your Website Automatically With Pythonsearchsolved
 
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024Lily Ray
 

Mais procurados (20)

Seo Analysis Report
Seo Analysis ReportSeo Analysis Report
Seo Analysis Report
 
Seo
SeoSeo
Seo
 
SEOkomm 2021: Interne Verlinkung
SEOkomm 2021: Interne VerlinkungSEOkomm 2021: Interne Verlinkung
SEOkomm 2021: Interne Verlinkung
 
Atelier le référencement 2016
Atelier le référencement 2016Atelier le référencement 2016
Atelier le référencement 2016
 
Seo strategy guide 2019
Seo strategy guide 2019Seo strategy guide 2019
Seo strategy guide 2019
 
Website Analysis Seo Report
Website Analysis Seo ReportWebsite Analysis Seo Report
Website Analysis Seo Report
 
Log File Analysis: The most powerful tool in your SEO toolkit
Log File Analysis: The most powerful tool in your SEO toolkitLog File Analysis: The most powerful tool in your SEO toolkit
Log File Analysis: The most powerful tool in your SEO toolkit
 
On Page SEO
On Page SEOOn Page SEO
On Page SEO
 
The step by step guide to SEO Website Audit
The step by step guide to SEO Website Audit The step by step guide to SEO Website Audit
The step by step guide to SEO Website Audit
 
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEO
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEONavigation à facettes son impact sur la pagination, les bonnes pratiques SEO
Navigation à facettes son impact sur la pagination, les bonnes pratiques SEO
 
Slide sulla SEO.pdf
Slide sulla SEO.pdfSlide sulla SEO.pdf
Slide sulla SEO.pdf
 
Keyword Research and Topic Modeling in a Semantic Web
Keyword Research and Topic Modeling in a Semantic WebKeyword Research and Topic Modeling in a Semantic Web
Keyword Research and Topic Modeling in a Semantic Web
 
Basics of Search Engine Optimisation
Basics of Search Engine OptimisationBasics of Search Engine Optimisation
Basics of Search Engine Optimisation
 
SEO On Page Activities 2014
SEO On Page Activities 2014SEO On Page Activities 2014
SEO On Page Activities 2014
 
Seo : trucs et astuces d'un bon référencement
Seo : trucs et astuces d'un bon référencementSeo : trucs et astuces d'un bon référencement
Seo : trucs et astuces d'un bon référencement
 
Technical seo
Technical seoTechnical seo
Technical seo
 
Website Pre SEO Analysis Report- Online Marketing: Search Engine Optimization
Website Pre SEO Analysis Report- Online Marketing: Search Engine OptimizationWebsite Pre SEO Analysis Report- Online Marketing: Search Engine Optimization
Website Pre SEO Analysis Report- Online Marketing: Search Engine Optimization
 
How to Automatically Subcategorise Your Website Automatically With Python
How to Automatically Subcategorise Your Website Automatically With PythonHow to Automatically Subcategorise Your Website Automatically With Python
How to Automatically Subcategorise Your Website Automatically With Python
 
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024
Fear and Loathing Google in Las Vegas - Lily Ray SEO Presentation 2024
 
OFF PAGE SEO
OFF PAGE SEOOFF PAGE SEO
OFF PAGE SEO
 

Semelhante a Screaming frog - l'outil ne fait pas l'artisan

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Drupal SEO - Optimiser son site
Drupal SEO - Optimiser son siteDrupal SEO - Optimiser son site
Drupal SEO - Optimiser son siteStéphane ARRAMI
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisationRémi Bachelet
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Peak Ace
 
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...Philippe YONNET
 
Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?Madeline Pinthon
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausannePierre Ammeloot
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEODigimood - Agence SEO / SEA
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLa Cuisine du Web
 
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !David Dragesco
 
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016iProspect France
 
Livre blanc de sensibilisation au SEO
Livre blanc de sensibilisation au SEOLivre blanc de sensibilisation au SEO
Livre blanc de sensibilisation au SEOKseo Conseil
 
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI MontpellierLes bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI MontpellierNicolas Mercatili
 
Moteurs de recherche et optimisation de classement
Moteurs de recherche et optimisation de classementMoteurs de recherche et optimisation de classement
Moteurs de recherche et optimisation de classementGuillaume Kulakowski
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEOForestier Mégane
 
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...Peak Ace
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEODimitri Brunel
 
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020SEO CAMP
 

Semelhante a Screaming frog - l'outil ne fait pas l'artisan (20)

Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Drupal SEO - Optimiser son site
Drupal SEO - Optimiser son siteDrupal SEO - Optimiser son site
Drupal SEO - Optimiser son site
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisation
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
 
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
 
Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom Lausanne
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEO
 
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
 
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
 
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
 
Livre blanc de sensibilisation au SEO
Livre blanc de sensibilisation au SEOLivre blanc de sensibilisation au SEO
Livre blanc de sensibilisation au SEO
 
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI MontpellierLes bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
 
Moteurs de recherche et optimisation de classement
Moteurs de recherche et optimisation de classementMoteurs de recherche et optimisation de classement
Moteurs de recherche et optimisation de classement
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEO
 
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
 
Evolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEO
 
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
 

Mais de Aymeric Bouillat

Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?Aymeric Bouillat
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleAymeric Bouillat
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secretsAymeric Bouillat
 
Migration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre traficMigration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre traficAymeric Bouillat
 
Seo mobile - bonnes pratiques
Seo mobile -  bonnes pratiquesSeo mobile -  bonnes pratiques
Seo mobile - bonnes pratiquesAymeric Bouillat
 
Site mobile et SEO - les erreurs à ne pas commettre
Site mobile et SEO - les erreurs à ne pas commettreSite mobile et SEO - les erreurs à ne pas commettre
Site mobile et SEO - les erreurs à ne pas commettreAymeric Bouillat
 

Mais de Aymeric Bouillat (7)

Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?
 
Mystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secrets
 
Migration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre traficMigration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre trafic
 
Netlinking en 2015
Netlinking en 2015Netlinking en 2015
Netlinking en 2015
 
Seo mobile - bonnes pratiques
Seo mobile -  bonnes pratiquesSeo mobile -  bonnes pratiques
Seo mobile - bonnes pratiques
 
Site mobile et SEO - les erreurs à ne pas commettre
Site mobile et SEO - les erreurs à ne pas commettreSite mobile et SEO - les erreurs à ne pas commettre
Site mobile et SEO - les erreurs à ne pas commettre
 

Screaming frog - l'outil ne fait pas l'artisan

  • 1. Screaming Frog L’outil ne fait pas l’artisan Cycle technique
  • 2. #seocampParis 2020 2 Aymeric Bouillat Consultant SEO technique dans l’agence SEO (groupe ) • Des affinités avec le SEO technique • Spécialiste des migrations de site • Et un blog plus trop à jour…. https://www.yapasdequoi.com Pour me suivre sur Twitter : @aymerictwit
  • 3. #seocampParis 2020 3 A quoi ça sert? Analyse des balises SEO Extraction de données précises dans les pages Découverte des problématiques de duplication Examen des directives pour les robots Analyse des redirections Crawl avec un rendu JS, comme Google Détection des liens cassés Visualisation de l’architecture d’un site et de son maillage Connexions à des API (Search Console, GA, Ahrefs, etc) Génération de sitemaps XML
  • 4. #seocampParis 2020 4 3 choses à savoir
  • 6. #seocampParis 2020 6 Préférez le mode Base de données • Un crawl, c’est gourmand ! (Configuration > Storage mode) • Memory = 3Go min.  crawls de moins de 100.000 URL : plus rapide, moins souple • Database storage = avoir un disque SSD : plus souple, permet le crawl de gros sites
  • 7. #seocampParis 2020 7 Database storage : mode « projet » • Gérer ses crawls par client (File > Crawls ) Penser à faire le ménage de temps en temps
  • 8. #seocampParis 2020 Préparer son crawl avant de se lancer 8
  • 9. #seocampParis 2020 9 Ne pas oublier ! • Utiliser la commande « site: » • Faire un « précrawl » avant le crawl complet • Prévenir le client ou l’hébergeur (éviter la blacklist) • Sauvegarder sa configuration
  • 10. #seocampParis 2020 10 Database storage : mode « projet » • Définir ce que l’on souhaite crawler, et stocker •  Store permet de conserver toutes les relations (liens entrants et sortants) • Objectif : Limiter le poids des fichiers dans la base de données
  • 11. #seocampParis 2020 11 Comportement du crawler Si il ne fallait en retenir que 6 : • Configuration « User-agent » : dynamic serving /site mobile dédié • Craw Linked Xml Sitemaps(onglet « Crawl ») • Extraction JSON-LD +microdata (onglet « Extraction ») • Store HTML/rendered HTML (onglet « Extraction ») • Effectuer un rendu JS (onglet « Rendering ») • Respect « canonical » & « noindex » en fonction des besoins…(Onglet « Advanced ») Aucun crawl ne se ressemble…
  • 12. #seocampParis 2020 12 Modifier des URL à la volée Case study  HTTP vers HTTPS  Suppression du #, ex: /faq#question1 /faq#question2 (avec le rendu JS, les URL avec # sont explorées, on va regrouper les signaux)
  • 13. #seocampParis 2020 13 Site en développement Menu Configuration > Authentification 2 méthodes : Authentification serveur standard ou Formulaire de login • Adapter le robots.txt si nécessaire • Informer client/hébergeur de l’IP et de l’UA utilisé Penser à l’exclusion des URL « touchy »
  • 14. #seocampParis 2020 • « Let’s crawl by night » ! • Crawl régulier (utile pour faire des comparaisons) • Possibilité de générer des exports auto (csv, xlsx,..) • Génération automatisée de sitemaps 14 Et le crawl programmable?
  • 15. #seocampParis 2020 15 Crawl sans interface ! • Pas d’interface graphique = Idéal pour un serveur Préparer un fichier de configuration et générer ses exports automatiquement ! --config "C:UsersAymeric.BouillatCrawlsconfig-mobile.seospidercon
  • 16. #seocampParis 2020 Il manquerait pas quelque chose? 16
  • 17. #seocampParis 2020 17 A la pêche aux données : scrappons! Extraire des données des pages Web, pour qualifier, analyser et optimiser! Fil d’Ariane Nombre d’avis Stock Descriptif Code de tracking GA Le type de page (ex: listing, produit, édito, etc.) Nombre de commentaires
  • 18. #seocampParis 2020 18 Exemples d’utilisations SEO Récupérer des éléments précis sur une page Web: Fil d’Ariane (ex: qualifier/organiser ses URL) Détecter des typologies de pages Sur un site e-commerce l’état en stock d’un produit (disponibilité / liens vers des produits épuisés) le nombre d’avis sur un produit (pages produits avec peu d’avis) le nombre de commentaires Sur un site de contenu le nom de l’auteur d’un article la date de publication d’un article Et en général: le nombre de blocs catégories le contenu principal (contenu d’un paragraphe précis) les données Opengraph/TwitterCards les URL des vidéos Youtube etc. Cf. « Annexe scraping » en fin de présentation
  • 19. #seocampParis 2020 Analyse & interprétation 19
  • 20. #seocampParis 2020 20 Attention aux erreurs d’interprétation Profondeur des URL Près d’un tiers de vos URL sont accessibles en 4 clics depuis la page d’accueil. C’est très grave d’un point de vue maillage. La majeure partie des URL en profondeur 4 sont des URL d’ images (liens vers des images), ça va…
  • 21. #seocampParis 2020 21 Problématiques d’URL Focus sur les paramètres d’URL (ex: tri, filtre, pagination etc.)  Pertinence des URL (si indexables)  C’est pas parce qu’il y a écrit « canonical » que c’est bien ! (ex: pagination vers la 1ere page…)
  • 22. #seocampParis 2020 22 Codes réponse : par typologie de page/URL Beaucoup de redirections? - similarité entre les redirections (pages de destination) - source des redirections (lien ? Canonical ? hreflang ? AMP ? ) - erreur de lien? La page de destination existe peut être !
  • 23. #seocampParis 2020 23 Redirections 301 Un poisson peut en cacher un autre Une redirection aussi peut en cacher une autre...
  • 24. #seocampParis 2020 24 Regrouper les redirections par type
  • 25. #seocampParis 2020 25 Pas d’erreurs 404 ? Ça n’est pas forcément bon signe…!
  • 26. #seocampParis 2020 26 Attention aux softs 404  Tester des URL inexistantes et regarder le code réponse. Ex: /url-qui-n-existe-pas Statut HTTP de l’URL en 200 ? (et non 404)
  • 27. #seocampParis 2020 27 Retrouver le chemin Ex: Retrouver l’origine d’un lien cassé  Clic-droit puis « Crawl Path Report »
  • 28. #seocampParis 2020 28 Et les balises <title>…</title>? Beaucoup de duplicate au premier abord? mais il peut être « logique » (ex: pagination)
  • 29. #seocampParis 2020 29 Faire des exclusions pour y voir + clair Pour voir toutes les URL qui ne contiennent pas « page=… » ^((?!page=).)*$  Afficher les URL ne contenant pas « page= » via une regexp.
  • 30. #seocampParis 2020 30 Contenu dupliqué Un nouvel onglet dans Screaming Frog ! Comparer les différences entre 2 pages très similaires
  • 31. #seocampParis 2020 31 Trop de similarité à cause d’un mega-menu ? Ne pas tenir compte de certains éléments HTML, c’est possible 
  • 33. #seocampParis 2020 33 Maillage Maillage interne : bien ou pas? Ça dépend de ce qu’on regarde Attention : ne représente pas l’intégralité des liens, mais juste le chemin le + court pour accéder à chaque URL
  • 34. #seocampParis 2020 34 Visualisation Mettre en avant des défauts de maillage, ou identifier des pages en fonctions de certains KPI • Voir si des URL fortement maillées ne sont pas indexables (Canonical, redirection, noindex)  perte de PageRank interne • Voir où se situent dans le maillage les URL qui génèrent le plus de trafic • Link score : page rank interne de screaming Frog
  • 35. #seocampParis 2020 35 Perte de jus Dilution de la popularité vers des pages en noindex (en rouge) :
  • 36. #seocampParis 2020 36 Mieux comprendre le maillage d’une page Ancres de liens : renforcer les variations sémantiques
  • 37. #seocampParis 2020 37 Principales occurrences d’un contenu Avoir préalablement coché la case « Store HTML » de l’onglet « Extraction » lors de la config du crawl
  • 39. #seocampParis 2020 39 + de données avec une analyse de crawl Menu « Crawl analysis »  « Start » Voir les URL non maillées détectées par ailleurs (hreflang, canonical, sitemap, AMP, API, etc.)
  • 40. #seocampParis 2020 40 URL non maillées URL introuvables lors du crawl mais existantes par ailleurs URL n’ayant jamais reçu de liens URL ne recevant plus de liens  Renforcer le maillage
  • 41. #seocampParis 2020 41 Orphan URL via les API Permet de mettre en avant les URL présentes dans le sitemap, mais aussi la Search Console, Google Analytics, et qui n’ont pas été trouvées lors du crawl. (cf. les onglets correspondants)
  • 42. #seocampParis 2020 42 Question Mug Quel est le dernier onglet qui a vu le jour en Juillet 2020 dans Screaming Frog ?
  • 43. #seocampParis 2020 43 Réponse Mug L’onglet « Content » ! On peut même faire de la détection de fautes de grammaire et d’orthographe :
  • 44. #seocampParis 2020 Merci! Des questions? 44 Pour me suivre sur Twitter : @aymerictwit
  • 47. #seocampParis 2020 47 Paramétrage de l’extraction Rechercher un élément via: - Texte - Expression régulière Rechercher via - Xpath (<3) - Un sélecteur CSS
  • 48. #seocampParis 2020 48 Type d’éléments à extraire <div class="bloc-content-title"> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> </div> <div class="bloc-content-title"> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> </div> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> Voir plus News //div[@class=“bloc-content-title“]
  • 49. #seocampParis 2020 49 Exemples Xpath vs HTML //div[@id="wayfinding-breadcrumbs_feature_div"]/li[not(@class)] //ul[@class="a-unordered-list a-vertical a-spacing-mini"]/li/span //span[@id="acrCustomerReviewText"] (//span[@class="a-icon-alt"])[1]  la première balise de ce type //div[@id="availability"]/span Descriptif Nbe commentaires Nbe avis Stock Fil d’Ariane https://devhints.io/xpathAntisèche :

Notas do Editor

  1. List, serp, crawl