Este documento discute como analisar logs de acesso para otimizar o desempenho do SEO de um site. Ele explica como filtrar logs para ver as interações do Googlebot, analisar páginas com erros e redirecionamentos, e descobrir quais páginas são rastreadas com mais frequência. Também discute como correlacionar métricas de popularidade com páginas mais rastreadas e identificar conteúdo duplicado.
25. MISSÃO
DOGOOGLE
A missão do Google é organizar as informações do
mundo e torná-las mundialmente acessíveis e úteis.
https://www.google.com/intl/pt-BR/about/company/
31. ENCONTRANDO OS
ARQUIVOS DE LOG
No Apache: Pasta /var/log/apache2
Referências:
• Acessando Arquivos de log no Apache (linux)
• Acessando Arquivos de log no NGINX (linux)
• Acessando Arquivos de log no IIS (Windows)
32. COMO SEGMENTAR
AS INFORMAÇÕES
1) Crie um arquivo
touch mylog
2) Combine os arquivos de Log
cat * > mylog
3) Filtre os dados do Googlebot
grep “Googlebot" mylog > googlebot_interactions.txt
41. PREMISSAS
1. Crawl Budget: É o tempo ou requisições de páginas que o
Google aloca para rastrear o seu site;
2. Silos: "Estrutura de Linkagem interna”;
3. Indexação: Não vamos analisar se um determinado bloco
de conteúdo é indexado;
4. Calorias Vazias: Se o robô estiver rastreando conteúdo
duplicado, ele estará consumindo "calorias vazias”!
Referência: @ajkohn | Crawl Optimization | http://goo.gl/qdoBlE
45. • Site em Wordpress;
• Migrou de Domínio e Servidor em Outubro/14;
• Apenas 30% do antigo conteúdo foi importado para o novo site.
CENÁRIO
46. OQUEPODEMOSANALISAR?
•Quais urls foram rastreadas pelo Googlebot ou outros bots;
•Páginas com erros 40x & 50x;
•Páginas com Redirecionamento 302 rastreadas pelo bot;
•Descobrir o número de páginas rastreadas por dia;
47. OQUEPODEMOSANALISAR?
•Descobrir como está o fluxo de rastreamento do GoogleBot
Mobile;
•Quais as páginas rastreadas com maior frequência;
•Quais páginas não devem ser rastreadas;
•Conteúdo duplicado;
•Impacto na utilização da metatag rel=“canonical".