На 19 октомври Симеон Емануилов изнесе лекция за оптимизация на Crawling бюджет по време на Indit Black Hat Conference 2017.
Той разказа за фактори, от които се влияе Crawling бюджета, и тяхната оптимизация, обясни какво е PageRank и как той трябва да бъде калкулиран.
Оптимизация на Crawling бюджет (Indit Black Hat Conference 2017)
1. Kolibri
How to improve the quality of audits
Simeon
Emanuilov
Оптимизация на Crawling бюджет
BlackHat Conf 2017
2. Оптимизация на Crawling бюджет
За какво ще говорим?
1. Какво е crawling бюджет и от какво се влияе
2. Къде е актуална оптимизацията
3. Какво е PageRank и вътрешен PageRank
4. Калкулация на вътрешен PageRank
5. Пример за добре и зле структуриран сайт
6. Негативно влияние върху бюджета
a. дублирано съдържание
b. вътрешни пренасочвания
c. вътрешни грешки
d. други фактори
e. Last-Modified
7. Естествени начини на оптимизация на Crawling бюджета
3. Оптимизация на Crawling бюджет
За какво ще говорим?
8. Полуестествени начини на оптимизация на Crawling бюджета
9. Black начини за контрол над бюджета
10. Инструменти, които може да ползваме при анализите
11. Netpeak SEO Tool
12. Примери от практиката
13. Въпроси
14. Заключение
4. Crawling бюджет - обща информация
● най-общо: колко страници се обхождат за единица време
(ден, седмица, месец);
● crawling бюджета е пропорционален на PageRank на сайта.
5. Crawling бюджет - обща информация
● трафика на сайта влияе на crawling бюджета. Колкото повече
трафик, толкова повече бюджет;
● crawling бюджета влияе пряко върху скоростта за
индексиране;
● скоростта на сървъра оказва влияние;
● ако сканираните имат високо качество, обхождат се по-често;
● честото обновяване на съдържанието има значение.
6. Къде е актуална оптимизацията
Оптимизация на crawling бюджета е актуална при
големи сайтове с няколко стотин страници.
За малки сайтове с няколко на брой страници, тази
оптимизация може да е излишна.
Важно: терминът “crawling бюджет” е формиран от
SEO специалистите, не е създаден от Google.
7. ● Page Rank - един от алгоритмите на Google;
● Вътрешен Page Rank - тежест на вътрешните страници.
Какво е Page Rank и вътрешен Page Rank
8. Пресмятане на вътрешния Page Rank
Съществуват различни начини за калкулация:
● Netpeak Spider;
● Друг Web Crawler + програмен език R|Python;
● Ръчно :)
9. Пресмятане на вътрешния Page Rank
Формула:
PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) +...)
N - брой активни страници, които участват в калкулацията
d - дъмпинг коефициент (стандартната стойност е 0,85)
L - брой изходящи връзки от конкретната страница
Крайният резултат: относителната тежест на всяка страница
Защо това е необходимо?
За да обособим най-важните вътрешни страници към които
се придава голяма тежест.
10. Пример за добре структуриран сайт
N = 9
d = 0.85
L - индивидуално
за всяка страница
11. Пример за лошо структуриран сайт
N = 9
d = 0.85
L - индивидуално
12. Негативно влияние върху бюджета
1. Дублирано съдържание.
a. липса на настройка на основни редиректи;
b. некоректно описано странициране;
c. сортиране и задаване на лимит;
d. основно огледало на сайта, версии с www;
e. липса на пренасочване към https/http;
f. неправилно описани мобилни версии.
13. Негативно влияние върху бюджета - 2
2. Вътрешни грешки 404.
a. откриване с crawler;
b. Google Analytics код на страница 404:
<script>
(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');
ga('create', 'UA-XXXXXX-X', 'auto');
ga('send', 'pageview', '/404.html?page='+document.location.pathname +
document.location.search + '&from=' + document.referrer);
</script>
c. API на Analytics за изпращане на грешки
14. Негативно влияние върху бюджета - 3
3. Вътрешни 301 редиректи.
a. отново откриване с crawler;
b. често се случва при преминаване към HTTPS да
останат връзки с HTTP;
c. хардкоднати връзки;
d. еднотипни връзки към грешни адреси.
15. Негативно влияние върху бюджета - 4
4. Грешна настройка на Last-Modified.
Онлайн инструмент за проверка: тук
Всяка търсачка сканира сайтове по различен начин и
има различен принцип за определяне на бюджета, тази
информация е актуална за Google.
16. Оптимизация на Crawling бюджет -
естествени начини за оптимизация
Контролираме вътрешния Page Rank с помощта на
● "Свързани продукти";
● "Допълващи продукти";
● "Свързани статии";
● хлебни трохички;
● друг вид вътрешно налинкване и разпределяне на
вътрешната тежест;
● HTML картата на сайта също влияe.
17. Оптимизация на Crawling бюджет -
полуестествени начини за контрол
Затваряне за индексация
1. Robots.txt харчи най-малко бюджет, но все пак ботът
зарежда самата страница.
2. Meta tag noindex - тук ботът зарежда head частта и чак
тогава напуска страница.
* Ако имаме мета таг nofollow Google бот отново минава през
връзките, за да провери все пак какво има на тях.
18. Оптимизация на Crawling бюджет -
полуестествени начини за контрол
Затваряне за индексация
3. Xrobots - тук бота само проверява HTTP Header-a на
страниците, но е опасно и доста често се допускат грешки.
19. Оптимизация на Crawling бюджет -
полуестествени начини за контрол - 2
Затваряне за индексация
Нужно е много да се внимава при затварянето за индексация
на определени страници.
В някои случаи е необходимо да затворим с мета таг
noindex + robots.txt
20. Оптимизация на Crawling бюджет -
полуестествени начини за контрол - 3
Затваряне за индексация + канонична препратка
В специфични ситуации е възможно да се прехвърли
тежест от мета таг “noindex” към каноничната препратка,
ако има зададена такава.
Това трябва да се има предвид, ако дадена страница не се
индексира и има поставен мета таг “noindex” на
еквивалент с канонична препратка към самата страница.
21. Оптимизация на Crawling бюджет -
black начини за контрол
Clever Hide
В действителност това представлява обикновен span елемент,
който при клик извършва JavaScript пренасочване към зададен
елемент.
Крайната цел:
Връзката е налична за потрeбителите, но невидима за ботовете
на търсачките.
<span class="clever-link" data-link="http://netpeak.bg/">netpeak.bg</span>
$(document).ready(function() {
$('.clever-link').click(function(){window.open($(this).data('link'), "_self");return
false;});
});
22. Оптимизация на Crawling бюджет -
black начини за контрол - 2
Clever Hide
За да изглежда span елемента, добре е да се добави следния CSS
стил:
.clever-link {
text-decoration: underline;
cursor: pointer;
/* друго стилизиране на връзки, съответстващо на дизайна на сайта */
}
23. Google не чете JavaScript?
Макар зареждаш се, чрез браузер, достъпни са начини за
рендиране на JavaScript съдържание.
24. Инструменти, които може да използваме
Selenium е Python портативна структура, която ни позволява да
правим автоматизирани тестове и да боравим със сайта, все
едно имаме уеб браузер. В тази връзка, няма нищо сигурно при
скриването на линкове и те може да бъдат видяни от Google :)
Например, може да създадем парсер, който да извади всички
телефонни номера от сайт за обяви, който ги зарежда с AJAX.
25. Оптимизация на Crawling бюджет -
black начини за контрол - 3
SEO Hide
● с помощта на онлайн декодера Base64 да се кодира сорс-
кода на елемента, който искаме да скрием;
● полученият код да се постави във файла content.js, и да
свързва всеки нов кодиран елемент към новия му атрибут
hashstring;
● да се включат библиотеките jquery.js, base64.js и content.js
между таговете <head> и </head> на страницата;
<span hashstring="23642e39b937198b4151e23d8d5a548b"
hashtype="content"> </span>
● във файла Robots.txt папката /js/ да се затвори за
сканиране;
26. Оптимизация на Crawling бюджет -
black начини за контрол - 4
SEO Hide
● не трябва да затваряме през robots.txt целия JavaScript на
сайта;
● връзките са активни и функционални за потребителите.
Линк за изтегляне на библиотеките на SEO Hide: тук
27. Инструменти, които може да използваме
Netpeak SEO Tool
Добавка за Chrome, която може да показва различни OnPage
аспекти.
● проверка за брой изходящи връзки;
● проверка дали текущата страница е затворена за
индексация, чрез:
○ мета таг “noindex”;
○ X-Robots таг;
● директно отваряне на robots.txt файла;
● и много други...
Директен линк за сваляне: тукПрезентация на инструмента: тук
29. Инструменти, които може да използваме - 3
Netpeak SEO Tool
Това, което можете да очаквате:
● проверка дали страницата има AMP поддръжка;
● проверка дали се ползва HTTP/2.0;
● сигнализиране за нови типове SEO грешки.
30. Инструменти, които може да използваме - 3
● Google Search Console;
● http://pr-cy.ru/simulator/ показва програмния код,
който ботът вижда на страницата, както и всички
изходящи връзки. Може да е полезен при пресмятане
на вътрешния Page Rank.
31. Пример от практиката - 1
Казусът: онлайн магазин, който се класира с 2 целеви страници
на 4 страница по [ключова дума]. Целевите страници са главна и
съответната категория.
След пресмятане на вътрешния Page Rank и външната линк маса
се установява, че е удачно една от страниците да се премахне
за обхождане от бота.
Какво направихме:
1. Сменихме адреса на категорията и пренасочихме стария
адрес към главна страница.
32. Пример от практиката - 2
4. Всички други линкове към категорията скрихме със SEO Hide:
2. Премахнахме адреса от HTML и XML картите на сайта.
3. Коригирахме хлебните трохички, за да няма връзка към
съответната категория:
33. Пример от практиката - 3
5. Категорийната страница затворихме с X-Robots “noindex” и с
мета таг “noindex”.
6. Резултатът:
Категорийната страница “изпадна” от индекса, а главната се
класира на 5-6 позиция.
Оставихме категорията, за да може да се ползва от
потребителите.
34. Заключение и практически препоръки
1. Често проверяване за наличие на вътрешни грешки,
пренасочвания, дублажи.
2. Калкулация на вътрешния PageRank и определяне на
страници, на които даваме тежест.
3. Оптимизация на crawling бюджет.