Search Masters Brasil 2015 - SIGA O ROBÔ: Utilizando Logs na performance do seu SEO

SEARCH
MASTERSSIGA O ROBÔ: Utilizando Logs na
performance do seu SEO
Victor Magalhães/SEO
Novembro/2015 | @vrmagalhaes

AGENDA
• OBJETIVOSDOROBÔ
• RASTREAMENTOEINDEXAÇÃO
• GOOGLESEARCHCONSOLE
• LOGS
• FOQUENOQUEOGOOGLEBOTCONSOME
• TEMPODECARREGAMENTO&INDEXAÇÃO

QualonossoobjetivoenquantoSEOs?

Oquefazemosquandochegamoslá?
Deixamosumrastro…

O MESMO OCORRE 
NA NAVEGAÇÃO PELA WEB
Bots & 
Usuários
Site Logs

O que são os Logs de Acesso?
Registro de um evento em um  
sistema computacional…
Cada registro representa 
um “HIT”.

H I T S
O D R I
W I A T 
O C E
T K S 
S

https://moz.com/blog/server-log-essentials-for-seo
Image credit: Media College
H I T S

1)RASTREAR
2)INDEXAR
3)POSICIONAR https://www.youtube.com/watch?v=BNHR6IQJGZs

https://www.google.com/insidesearch/howsearchworks/thestory/

RASTREAMENTO ≠ POPULARIDADE
RASTREAMENTO ≠ VISITAS

MISSÃO
DOGOOGLE
A missão do Google é organizar as informações do
mundo e torná-las mundialmente acessíveis e úteis.
https://www.google.com/intl/pt-BR/about/company/

MISSÃO
DOGOOGLE
• BRANDING
• POSICIONAMENTODAMARCA
• BRANDEQUITY

EPARAAJUDAROSWEBMASTERS,
DISPONIBILIZOUOSEARCHCONSOLE
• BRANDING
• BRANDEQUITY

• BRANDING
• BRANDEQUITY
out/14 nov/14 dez/14 jan/15 fev/15 mar/15 abr/15 mai/15 jun/15 jul/15 ago/15 set/15 out/15
Requisições GWT Registro LOG
MASELE
NÃOÉASSIM,100%CONFIÁVEL!

MASELE
NÃOÉASSIM,100%CONFIÁVEL!
• BRANDING
• BRANDEQUITY
Requisições GWT Registro LOG
-45,9%

ENCONTRANDO OS
ARQUIVOS DE LOG
No Apache: Pasta /var/log/apache2
Referências:
• Acessando Arquivos de log no Apache (linux)
• Acessando Arquivos de log no NGINX (linux)
• Acessando Arquivos de log no IIS (Windows)

COMO SEGMENTAR 
AS INFORMAÇÕES
1) Crie um arquivo 
touch mylog
2) Combine os arquivos de Log
cat * > mylog
3) Filtre os dados do Googlebot
grep “Googlebot" mylog > googlebot_interactions.txt

O ARQUIVO
IP - - [Data] “GET/POST URL VERSÃO-DO-HTTP” STATUS TAMANHO “-“ “NAVEGADOR BOT”

O ARQUIVO
200.203.124.9
[18/Oct/2015:06:49:39 -0200]

O ARQUIVO
"GET /blog/nome-do-post HTTP/1.1"
"POST /wp-admin/admin-ajax.php HTTP/1.1" 200 533 “http://SITE/blog/nome-do-post“  
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

O ARQUIVO
200, 301, 302, 404, 500, 503
http://en.wikipedia.org/wiki/List_of_HTTP_status_codes
http://moz.com/learn/seo/http-status-codes
Tamanho do arq. em bytes

O ARQUIVO
Mozilla/5.0
DoCoMo/2.0 N905i(c100;TB;W24H16)
(compatible; Googlebot/2.1; +http://www.google.com/bot.html)
(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

PREMISSAS
1. Crawl Budget: É o tempo ou requisições de páginas que o
Google aloca para rastrear o seu site;
2. Silos: "Estrutura de Linkagem interna”;
3. Indexação: Não vamos analisar se um determinado bloco
de conteúdo é indexado;
4. Calorias Vazias: Se o robô estiver rastreando conteúdo
duplicado, ele estará consumindo "calorias vazias”!
Referência: @ajkohn | Crawl Optimization | http://goo.gl/qdoBlE

PREMISSAS - SILOS
http://webmarketingtoday.com/articles/112514-Do-it-yourself-SEO-Organizing-a-Website-with-Silos/

• Site em Wordpress;
• Migrou de Domínio e Servidor em Outubro/14;
• Apenas 30% do antigo conteúdo foi importado para o novo site.
CENÁRIO

OQUEPODEMOSANALISAR?
•Quais urls foram rastreadas pelo Googlebot ou outros bots;
•Páginas com erros 40x & 50x;
•Páginas com Redirecionamento 302 rastreadas pelo bot;
•Descobrir o número de páginas rastreadas por dia;

OQUEPODEMOSANALISAR?
•Descobrir como está o fluxo de rastreamento do GoogleBot 
Mobile;
•Quais as páginas rastreadas com maior frequência;
•Quais páginas não devem ser rastreadas;
•Conteúdo duplicado;
•Impacto na utilização da metatag rel=“canonical".

SPLUNK
host="LOGS" googlebot | chart count by uri

PÁGINAS RASTREADAS  
POR MÊS
200 301 302 304 404 408 500

POR MÊS
3462
301 302 304 404 408 500

POR MÊS
404
301 302 304 408 500

POR MÊS X VISITAS
Registro LOG Visitas

PÁGINAS MAIS RASTREADAS  
POR MÊS
home página 1 página 2 página 3 página 4 página 5 página 6

PÁGINAS MAIS RASTREADAS  
POR MÊS
jun/15 jul/15 ago/15 set/15 out/15

CORRELAÇÃO & 
MÉTRICAS DE POPULARIDADE
194
2 3 7 4 4 3
/ página 1 página 2 página 3 página 4 página 5 página 6
links

CORRELAÇÃO & 
33
12 13 13 13 15
1214 12 10 10 10 11 10
16
9
5
23
9
23
8
3 4
1 1 1 2 23
12
0
3
0
58
1
Page Authority Url Rating G+ Twitter Facebook

CORRELAÇÃO & 
2
7
0
3
0
25
10 0 0 0
25
01
5
0 0 0
8
1
Facebook Likes Facebook Comments Facebook shares

URLS MAIS 
RASTREADAS NO MÊS

URLS MAIS 
RASTREADAS NO MÊS
jun/15 jul/15 ago/15 set/15 out/15

URLS MAIS 
RASTREADAS NO MÊS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Home página 1 página 3 página 5

URLS MAIS 
RASTREADAS NO MÊS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Home página 1 página 3 página 5
Post Página 3 Compartilhado
Post Página 5 Comentado Post Página 1 Curtido

RASTREAMENTO 
POR BOT
1 13
13168 11457
10
121247
3
acapbot Googlebot Googlebot-Image/1.0 Googlebot-Mobile/2.1 Googlebot-News Googlebot/2.1 Googlebot/2.x
GET

RASTREAMENTO 
POR BOT
13168, 9%
11457, 8%
121247, 83%
!GET!!
Googlebot-Image/1.0
Googlebot-Mobile/2.1
Googlebot-News
Googlebot/2.1

RASTREAMENTO 
POR BOT
13168, 9%
11457, 8%
121247, 83%
!GET!!
Googlebot-Image/1.0
Googlebot-Mobile/2.1
Googlebot-News
Googlebot/2.1
host="LOGS" googlebot URL | timechart count by day

PÁGINA COM 
REL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Página 1 Página canonical

PÁGINA COM 
REL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Implementação rel="canonical"

PÁGINA COM 
REL="CANONICAL"
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
host="LOGS" googlebot URL | timechart count by day

PÁGINAS QUE  
NÃO DEVEM SER RASTREADAS

PÁGINAS QUE  
NÃO DEVEM SER RASTREADAS
host="LOGS" googlebot | chart count by uri

PÁGINAS COM  
CONTEÚDO DUPLICADO

PÁGINAS COM  
CONTEÚDO DUPLICADO
host="LOGS" ? | chart count by uri

PÁGINAS COM  
CONTEÚDO DUPLICADO
1%
83%
16%
sem barra
principal
Parâmetros

TIPOS DE PÁGINAS 
MAIS RASTREADAS
46%
39%
5%
4%
3%
1%
1% 1%
wp-admin
posts
imagens
categorias
tags
js
home
outros

Precisamosnospreocuparcomo
O GOOGLE ESTÁ CONSUMINDO
O NOSSO SITE

TEMPO DE CARREGAMENTO 
IMPORTA MUITO

REFERÊNCIAS
http://www.blindfiveyearold.com/crawl-optimization
https://www.portent.com/blog/seo/get-geeky-grep-seo-tool.htm
https://www.portent.com/blog/analytics/attribution-part-two.htm
http://www.rimmkaufman.com/blog/seo-diagnostics-tool/15072008/
https://www.distilled.net/blog/seo/the-beginners-guide-to-using-the-command-line-for-seo/
http://searchengineland.com/7-ways-use-splunk-technical-seo-209987

SejaMegalomaníaco!
NÃOACREDITE SOMENTE NO
GOOGLE.

Search Masters Brasil 2015 - SIGA O ROBÔ: Utilizando Logs na performance do seu SEO

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (14)

Semelhante a Search Masters Brasil 2015 - SIGA O ROBÔ: Utilizando Logs na performance do seu SEO

Semelhante a Search Masters Brasil 2015 - SIGA O ROBÔ: Utilizando Logs na performance do seu SEO (20)

Search Masters Brasil 2015 - SIGA O ROBÔ: Utilizando Logs na performance do seu SEO