Аналитика логов сервера – самый надежный источник данных о том, как поиск относится к нашим сайтам. Без посредников, обобщений, субъективных мнений и предположений. Только цифры: точные и беспощадные.
1. Что собой представляют логи сервера и где их искать?
2. Инструменты для работы с логами, если Excel и Notepad++ не справляются с гигабайтами данных. Платные и бесплатные, для технарей и гуманитариев.
3. Проверяем сами: как Googlebot относится к атрибуту nofollow, страницам в robots.txt, неактивным ссылкам, Javascript и т.д.
4. Рассмотрим на реальных примерах:
4.1. Что такое краулинговый бюджет и куда он уходит?
4.2. Совпадают ли ваши приоритетные зоны сайта с предпочтениями робота Google?
4.3. Бесполезный краулинг: неочевидный реальный масштаб проблемы.
4.4. Что такое активные страницы и «страницы-сироты»?
4.5. Используем логи сервера для:
- проверки результатов своих действий по оптимизации;
- расстановки приоритетов в работе;
- поиска новых точек роста.
4.6. А что если наложить данные логов сервера на другие показатели?
4.7. Как быть в курсе глобальных тенденций в поведении Googlebot?
6. Прежде чем начать
6
Все примеры на следующих
слайдах реальны.
Все возможные совпадения,
совершенно случайны.
“ “
7. Вспомним, как работает поиск
Поисковый робот ищет новые
страницы и пересканирует
старые.
РанжированиеИндексацияКраулинг
Разбирает найденные
документы,
классифицирует и
помещает их в базу
данных.
Расчитывает релевантность
и авторитетность и
определяет видимость в
поиске.
8. Что собой представляют логи?
site.com 66.249.64.117 - - [27/Jul/2015:12:45:21 +0300] "GET /your-page.html / HTTP/1.0" 200
77032 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Абсолютно любое обращение к сайту фиксируется на сервере в специальных файлах –
логах сервера – в виде таких строк:
IP-адрес Дата и время
Посещенная
страница
Код ответа
сервера
Размер страницы в
байтах
User-agent
Домен
14. Googlebot и robots.txt
1. Googlebot следует инструкциям в файле
robots.txt.
2. Googlebot блокирует доступ, но не
управляет индексацией.
3. Иногда Googlebot может показывать в
результатах поиска страницы, закрытые в
robots.txt, притом, что он никогда их не
посещал, ни индексировал.
«Googlebot не будет напрямую индексировать
содержимое, указанное в файле robots.txt,
однако сможет найти эти страницы по ссылкам
с других сайтов.
Таким образом, URL, а также другие
общедоступные сведения, например текст
ссылок на сайт, могут появиться в результатах
поискаGoogle.
Чтобы полностью исключить появление URL в
результатах поискаGoogle, используйте другие
способы: парольную защиту файлов на сервере
или метатеги с директивами по
индексированию».
https://support.google.com/webmasters/answer/6
062608?hl=ru&rd=1
15. Googlebot и robots.txt
Задача: удалить из индекса много ненужных страниц.
Частая ошибка: robots.txt + meta name=“robots” “noindex”.
Правильный вариант: robots.txt + meta name=“robots” “noindex”.
4. Ошибки в названии файла, в инструкциях, в хронологии.
16. Googlebot и адреса с решеткой (#)
84.233.174.130 [10/Jul/2016:19:18:32] GET /wp-content/tests/hashtest.html
66.249.93.113 [10/Jul/2016:19:19:01] GET /favicon.ico
66.249.64.194 [10/Jul/2016:19:19:15] GET /wp-content/tests/hashtest.html
66.249.64.184 [10/Jul/2016:19:19:58] GET /wp-content/tests/hashtest.html
66.249.64.184 [10/Jul/2016:19:20:06] GET /hash.html
66.249.64.184 [10/Jul/2016:19:20:14] GET /hash/
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
17. Google против всего интернета
17
60 000 000 000 000
СТРАНИЦ В СЕТИ, КОТОРЫЕ НУЖНО НАХОДИТЬ И ПОДДЕРЖИВАТЬ В АКТУАЛЬНОМСОСТОЯНИИ
77 160 494
СТРАНИЦ В СЕКУНДУ НУЖНО СКАНИРОВАТЬGOOGLE,
ЧТОБЫОБХОДИТЬ ВСЕ СТРАНИЦЫХОТЯ БЫ 1 РАЗ В 3 МЕСЯЦА.
18. Краулинговый бюджет
Краулинговый бюджет – процессорное
время, выделяемое поисковой
системой для сканирования
определенного сайта за единицу
времени.
Основной фактор влияния: Pagerank.
19. Где и в каком количестве расходуется бюджет?
На примере: портал по недвижимости.
Полезный и бесполезный краулинг
23. Сколько страниц у вас на сайте?
Пример: крупный онлайн-ритейлер (~10 млн переходов из поиска в месяц).
Сканирование сайта обнаружило 5,3 миллиона страниц.
25. Страницы-сироты (orphan pages)
Откуда они берутся?
• Страницы, на которые ведут внешние ссылки, но нет внутренних.
• Страницы с исправленными ошибками, но в базеGooglebot.
• Более неактуальные страницы с кодом 200OK.
• Оставшиеся после переезда страницы.
• Ошибки в rel=«canonical» и sitemap.xml.
26. Активные страницы (active pages)
Активные страницы – страницы,
которые принесли хотя бы 1 визит из
органического поиска за заданный
период (30-60 дней).
27. Краулинг и визиты
-600000 -400000 -200000 0 200000 400000 600000 800000
pagetype/search
pagetype/produits/*
pagetype/vente/*
pagetype/edito/*
pagetype/menu/*
pagetype/autre/*
pagetype/oldpages/*
pagetype/technique/*
pagetype/unknown
pagetype/univers/*
Unique Crawled URLs Organic Visits
На примере: интернет-магазин по продаже игр (1 млн переходов из органического поиска).
Страницы результатов внутреннего поиска были просканированы роботом Google 423 000 раз, принеся
только 26 000 SEO-визитов.
30. Как вложенность влияет на краулинг?
На примере: портал по недвижимости (400 000 переходов из органического поиска).
31. Как количество слов влияет на краулинг?
10%
19%
56%
72%
81%
89%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
> 150 words 150 - 300
words
300 - 500
words
500 - 800
words
800 - 1200
words
> 1200 words
Pages in the structure not crawled Pages in the structure crawled
32. Отслеживаем эффект от своих действий
Фиксируем рост и падения.
Сработали ли мои изменения?
Успешно ли прошел переезд?
Повлияла ли перелинковка?
и т.д.
35. Почему нужно доработать скорость загрузки?
79%
67% 65% 62%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Fast (> 500 ms) Medium (500 ms - 1 s) Slow (1 s - 2 s) Very slow (> 2 s)
Pages in the structure not crawled Pages in the structure crawled
38. 2 подхода в работе с логами сервера
Аудит Мониторинг
1. Логи за 30-60 дней (размер и
тематика).
2. Кросс-аналитика:
Краулинг + Логи + Google
Analytics.
3. Диагностика полезных и
бесполезных страниц, зон
сайта, о которых Google знает и
нет.
Сбор логов в режиме реального
времени.
Обязателен при редизайне /
переезде сайта.
Оповещения:
• Ошибки
• Объем краулинга
• Атаки
• Новые страницы
39. Инструменты для работы с логами
Google
Search Console
Десктопные
программы
Apache log viewer
Screaming Frog
Splunk
Power BI
SaaS
Решения
Botify
Oncrawl
Logs.io
Qbox
Logentries
Ручная
обработка
Командная строка
Notepad++
Excel
Open Source
пакеты
ELK
Logalize
Graylog
40. Google Search Console
+ -
Простой и быстрый доступ
Объем краулинга по дням
Общий тренд
Нет сегментации
Неизвестно качество краулинга
Задержка данных 2 дня
41. Excel / Notepad++ / Консоль
cat file1.log file2.log > output_file.log
сat file1.log | grep 'googlebot' >> file-googlebots.log
Объединить несколько файлов в один
Оставитьтолько визитыGooglebot’а
Полезные команды для работы с логами
Max: 1 млн строк. Max: 500 мб. Max: Нет
Excel Notepad++ Terminal, Cygwin
46. Подведем итог
1. Логи сервера – самый надежный и точный источник информации о поведении поисковых
роботов.
2. Появилось много инструментов для удобной работы с ними. Можно легко подобрать под свои
задачи и бюджет.
3. Изучение логов позволяет проверить многие гипотезы, мифы, особенности работы поиска.
4. Полезный источник информации для поиска точек роста, применения усилий, проверки своей
работы.
5. Неограниченные возможности по внутрисайтовой кросс-аналитике, например, можно
сопоставить страницы, посещаемые роботом Google со страницами, приносящими доход.
6. Для тех, кто хочет идти дальше:
1. Оценка ссылочных кампаний на основе роста краулингового бюджета и частоты
краулинга.
2. Определение наложения антиспам фильтров типа « Google Panda ».