Conférence du 20 février 2016 au SEO Campus de Nantes.
En quoi consiste l'analyse de logs pour le SEO ?
A qui cela s'adresse-t-il ?
Comment s'y prendre ?
Quelles analyses effectuer, et comment réagir ?
Plus d'infos : http://blog.1-clic.info/referencement/analyse-de-logs-seocampus-nantes/
2. Julien Deneuville
• 27 ans
• Monte des sites depuis 2004
• SEO pro depuis 2011
• Twitter : @diije
• Blog : http://blog.1-clic.info/
• Musique
• Vélo
Qui suis-je ?
Hello, World!
3. L’analyse de logs : les grandes lignes
Est-ce fait pour moi ?
A quels KPI m’intéresser ?
Outils et perspectives
3
Analyse de logs
Sommaire
6. Client :
• Envoie une requête au serveur
• Attend la réponse
• Affiche la réponse
6
Serveur :
• Reçoit des requêtes
• Effectue les traitements
• Renvoie les résultats
Client - Serveur
Quelques notions de réseau
• Navigateur web
• Client mail
• Spotify
• …
• Robot de moteur de recherche
• Serveur web (Apache, Nginx, IIS, …)
• Serveur mail
• Application spécifique
7. Client :
• Envoie une requête au serveur
• Attend la réponse
• Affiche la réponse
• Navigateur web
• Client mail
• Spotify
• …
• Robot de moteur de recherche
7
Serveur :
• Reçoit des requêtes
• Effectue les traitements
• Renvoie les résultats
• Serveur web (Apache, Nginx, IIS, …)
• Serveur mail
• Application spécifique
Client - Serveur
Quelques notions de réseau
8. Les logs serveur
Les serveurs web enregistrent toutes les demandes qu’ils reçoivent dans des
fichiers texte : ce sont les logs serveur.
Ils permettent notamment :
• D’obtenir des statistiques de fréquentation d’un site
• De débuguer un composant problématique
• De détecter les attaques de hackers
• … 8
Qu’est-ce que c’est quoi donc ?
9. Rappels :
• Googlebot ne déclenche pas les tags des
outils de webanalytics
• Les données de Google Search Console
sont-elles fiables ?
Avec les logs serveur on peut :
• Voir les pages que Googlebot visite
• Compléter Google Analytics et détecter
les visites en provenance de Google
• Trouver de nombreuses pistes
d’amélioration
9
Et en SEO ?
Pourquoi vouloir analyser les logs ?
10. Pour qui ?
Pour les sites à gros volume
• Quelques centaines de milliers de pages
Audit : une mine d’informations pour les optimisations
• Crawl utile/inutile
• Pages actives/inactives
• Trous de crawl
• …
Monitoring : un outil d’alerte indispensable
10
Et mon site dans tout ça ?
Pour tous les autres aussi :
il n’y a pas que les « gros » qui ont des problèmes !
12. Accéder à vos logs
• Exemple pour un mutualisé OVH :
http://logs.ovh.net/mon-domaine.tld
• Récupérer les logs d’accès
Un terminal
• Intégré à Linux et Mac OS
• Installez Cygwin sous Windows
12
Starter Kit
De quoi ai-je besoin ?
13. La ligne de commande
Compter les hits de Googlebot
• ~$ grep "Googlebot" access.log | wc –l
Compter les hits de Googlebot par URL
• ~$ grep "Googlebot" access.log | cut –d " " –f7 | sort | uniq –c
Envoyer les résultats dans un fichier
• ~$ grep "Googlebot" access.log | sort | uniq –c > resultats.txt
13
Quelques exemples simples
Vous pouvez déjà faire 100% des analyses de logs dont vous
avez besoin !
14. Allez plus loin
Un article de l’excellent Paul Courtois :
http://blog.pole-conseils.com/maitrisez-lanalyse-de-logs-les-5-commandes-
indispensables-pour-devenir-autonome/
La rolls de l’analyse de logs en console : awk chez Jean-Benoît Moingt
http://www.watussi.fr/lanalyse-des-logs-serveur-une-mine-dinformation-pour-
le-seo
14
Liens utiles
16. Le crawl : le compagnon
indispensable de l’analyse de logs
Des outils :
• Logiciels : Xenu, Screaming Frog
• En SaaS : Botify, Oncrawl …
• Pour les geeks : Scrapy, Mnogosearch,
Nutch ...
16
Step 1 : crawler
Tâtez le terrain
17. Step 1 : crawler
Quels indicateurs ?
• Nombre de pages
• Codes réponse
• Profondeur de l’arborescence
• Titres dupliqués
• Maillage interne
• Temps de chargement
• …
En savoir plus sur le sujet ?
• Mode d’emploi de Xenu chez Daniel Roch : http://www.seomix.fr/xenu/
17
Tâtez le terrain
18. Crawlers
Crawlez souvent
• En recette, en prod
• Après chaque mise en production
• Périodiquement pour vous assurer que tout va bien
Ne crawlez pas toujours tout votre site
• Ca peut être long
• Rarement possible d’analyser de nombreux rapports
• Selon le site, les 4 ou 5 premiers niveaux sont suffisants
Conservez vos données
• Pour avoir un historique
• Pour comparer les crawls entre eux 18
Tips & tricks
19. Step 2 : analyse de logs
19
Vers l’infini et au-delà !
20. Googlebot hait les erreurs.
Erreurs 5xx
• 500 : souvent le signe d’un problème de
code à corrigez-le
• 503 : votre serveur tient-il la charge ?
Erreurs 4xx
• Liens internes erronés (trouvez-les dans
le crawl)
• Liens externes erronés (trouvez-les avec
Majestic/Ahrefs)
• Dans les deux cas : correction +
redirection 301 20
Codes réponse
Envoyez le bon signal
21. Combien de temps maintenir une
redirection 301 ?
Attention : les 301 peuvent gonfler
artificiellement le volume de crawl !
21
Le cas des 301
Permanent jusqu’à quand ?
A maintenir de manière permanente …
22. Comparez les indicateurs :
• Nombre d’URLs dans les logs
• Dans le crawl
• Dans Google Search Console
• Dans Analytics
• Sur « site:monsite.com »
Trop de pages dans les logs ?
• Des paramètres qui entraînent la duplication de contenu
?
• ...
Pas assez ?
• Vos liens internes sont-ils seo-friendly ?
• … 22
Volume de pages
Google crawle-t-il un nombre raisonnable de pages ?
23. Comparez les pages les plus crawlées
et celles qui vous importent le plus :
• Googlebot visite-t-il assez souvent vos
pages stratégiques ?
• Perd-t-il son temps sur des pages inutiles
?
Que faire en cas de problème ?
• Revoir le maillage interne pour booster
les bonnes pages
• Savoir supprimer des pages inutiles
23
Pages actives
S’intéresser aux bonnes pages
24. Post-audit, mettez en place une
analyse de vos logs en continu :
• Recette facilité lors des mises en
production
• Alerting en cas de problème technique
• Suivi du délai d’indexation des
nouvelles pages
• Changements de comportement de
Googlebot
• …
24
Step 3 : monitoring
Gardez le contrôle
26. Avantages :
• Gratuit
• Simple à mettre en place
• A héberger soi-même
Inconvénients
• A héberger soi-même
• Simpliste
• Pas mis à jour
Watussi
Un bon début
Idéal pour quelques dizaines de pages !
http://box.watussi.fr/
27. Avantages :
• Sûrement l’interface la plus aboutie
• Associé à un crawler
• Service client à l’écoute
• En SaaS
Inconvénients
• Cher
• Parfois peu intuitif
Botify
Artillerie lourde
Si vous avez le budget, foncez !
https://www.botify.com/
28. Avantages :
• En beta gratuite
• Des fonctionnalités innovantes
• En SaaS
Inconvénients
• Peu de documentation
• Support reposant sur une seule personne
Spiderlog
Le petit nouveau
L’outsider que vous devriez tester !
https://spiderlog.serphacker.com/
29. Avantages :
• Parfait pour le monitoring
• Analyse crawl vs logs (bientôt)
• Service client à l’écoute
• En SaaS
Inconvénients
• Pas aussi complet qu’un Botify
http://kelo.gs/
Kelogs
#ROI
Le meilleur rapport Qualité/Prix du marché !
30. Avantages
• Sur-mesure
• Vous gardez vos données
• Une possibilité d’analyse inégalable
Inconvénients
• Coût de développement
• Coût de maintenance
• Nécessite une bonne connaissance du
sujet
30
Homemade
On n’est jamais aussi bien servi que par soi-même
Forcément le plus adapté à vos besoins !
32. 1. Crawlez votre site
2. Récupérez les logs
3. Faites une première analyse
4. Mettez en place un outil de
monitoring
32
Au boulot !
Homework
33. Ajoutez des infos dans vos logs
• Apache : voir ici
• Temps de chargement
• Host
Croisez vos données
• Analytics
• Ventes
• Inventaire
• …
33
Allez plus loin
Devenez un roi de la Data
34. www.1-clic.info
Merci de votre attention !
Bon appétit J
Mail
julien@1-clic.info
Blog
http://blog.1-clic.info/
Twitter
@diije