SlideShare a Scribd company logo
1 of 36
Download to read offline
Kolibri
How to improve the quality of audits
Simeon
Emanuilov
Оптимизация на Crawling бюджет
BlackHat Conf 2017
Оптимизация на Crawling бюджет
За какво ще говорим?
1. Какво е crawling бюджет и от какво се влияе
2. Къде е актуална оптимизацията
3. Какво е PageRank и вътрешен PageRank
4. Калкулация на вътрешен PageRank
5. Пример за добре и зле структуриран сайт
6. Негативно влияние върху бюджета
a. дублирано съдържание
b. вътрешни пренасочвания
c. вътрешни грешки
d. други фактори
e. Last-Modified
7. Естествени начини на оптимизация на Crawling бюджета
Оптимизация на Crawling бюджет
За какво ще говорим?
8. Полуестествени начини на оптимизация на Crawling бюджета
9. Black начини за контрол над бюджета
10. Инструменти, които може да ползваме при анализите
11. Netpeak SEO Tool
12. Примери от практиката
13. Въпроси
14. Заключение
Crawling бюджет - обща информация
● най-общо: колко страници се обхождат за единица време
(ден, седмица, месец);
● crawling бюджета е пропорционален на PageRank на сайта.
Crawling бюджет - обща информация
● трафика на сайта влияе на crawling бюджета. Колкото повече
трафик, толкова повече бюджет;
● crawling бюджета влияе пряко върху скоростта за
индексиране;
● скоростта на сървъра оказва влияние;
● ако сканираните имат високо качество, обхождат се по-често;
● честото обновяване на съдържанието има значение.
Къде е актуална оптимизацията
Оптимизация на crawling бюджета е актуална при
големи сайтове с няколко стотин страници.
За малки сайтове с няколко на брой страници, тази
оптимизация може да е излишна.
Важно: терминът “crawling бюджет” е формиран от
SEO специалистите, не е създаден от Google.
● Page Rank - един от алгоритмите на Google;
● Вътрешен Page Rank - тежест на вътрешните страници.
Какво е Page Rank и вътрешен Page Rank
Пресмятане на вътрешния Page Rank
Съществуват различни начини за калкулация:
● Netpeak Spider;
● Друг Web Crawler + програмен език R|Python;
● Ръчно :)
Пресмятане на вътрешния Page Rank
Формула:
PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) +...)
N - брой активни страници, които участват в калкулацията
d - дъмпинг коефициент (стандартната стойност е 0,85)
L - брой изходящи връзки от конкретната страница
Крайният резултат: относителната тежест на всяка страница
Защо това е необходимо?
За да обособим най-важните вътрешни страници към които
се придава голяма тежест.
Пример за добре структуриран сайт
N = 9
d = 0.85
L - индивидуално
за всяка страница
Пример за лошо структуриран сайт
N = 9
d = 0.85
L - индивидуално
Негативно влияние върху бюджета
1. Дублирано съдържание.
a. липса на настройка на основни редиректи;
b. некоректно описано странициране;
c. сортиране и задаване на лимит;
d. основно огледало на сайта, версии с www;
e. липса на пренасочване към https/http;
f. неправилно описани мобилни версии.
Негативно влияние върху бюджета - 2
2. Вътрешни грешки 404.
a. откриване с crawler;
b. Google Analytics код на страница 404:
<script>
(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');
ga('create', 'UA-XXXXXX-X', 'auto');
ga('send', 'pageview', '/404.html?page='+document.location.pathname +
document.location.search + '&from=' + document.referrer);
</script>
c. API на Analytics за изпращане на грешки
Негативно влияние върху бюджета - 3
3. Вътрешни 301 редиректи.
a. отново откриване с crawler;
b. често се случва при преминаване към HTTPS да
останат връзки с HTTP;
c. хардкоднати връзки;
d. еднотипни връзки към грешни адреси.
Негативно влияние върху бюджета - 4
4. Грешна настройка на Last-Modified.
Онлайн инструмент за проверка: тук
Всяка търсачка сканира сайтове по различен начин и
има различен принцип за определяне на бюджета, тази
информация е актуална за Google.
Оптимизация на Crawling бюджет -
естествени начини за оптимизация
Контролираме вътрешния Page Rank с помощта на
● "Свързани продукти";
● "Допълващи продукти";
● "Свързани статии";
● хлебни трохички;
● друг вид вътрешно налинкване и разпределяне на
вътрешната тежест;
● HTML картата на сайта също влияe.
Оптимизация на Crawling бюджет -
полуестествени начини за контрол
Затваряне за индексация
1. Robots.txt харчи най-малко бюджет, но все пак ботът
зарежда самата страница.
2. Meta tag noindex - тук ботът зарежда head частта и чак
тогава напуска страница.
* Ако имаме мета таг nofollow Google бот отново минава през
връзките, за да провери все пак какво има на тях.
Оптимизация на Crawling бюджет -
полуестествени начини за контрол
Затваряне за индексация
3. Xrobots - тук бота само проверява HTTP Header-a на
страниците, но е опасно и доста често се допускат грешки.
Оптимизация на Crawling бюджет -
полуестествени начини за контрол - 2
Затваряне за индексация
Нужно е много да се внимава при затварянето за индексация
на определени страници.
В някои случаи е необходимо да затворим с мета таг
noindex + robots.txt
Оптимизация на Crawling бюджет -
полуестествени начини за контрол - 3
Затваряне за индексация + канонична препратка
В специфични ситуации е възможно да се прехвърли
тежест от мета таг “noindex” към каноничната препратка,
ако има зададена такава.
Това трябва да се има предвид, ако дадена страница не се
индексира и има поставен мета таг “noindex” на
еквивалент с канонична препратка към самата страница.
Оптимизация на Crawling бюджет -
black начини за контрол
Clever Hide
В действителност това представлява обикновен span елемент,
който при клик извършва JavaScript пренасочване към зададен
елемент.
Крайната цел:
Връзката е налична за потрeбителите, но невидима за ботовете
на търсачките.
<span class="clever-link" data-link="http://netpeak.bg/">netpeak.bg</span>
$(document).ready(function() {
$('.clever-link').click(function(){window.open($(this).data('link'), "_self");return
false;});
});
Оптимизация на Crawling бюджет -
black начини за контрол - 2
Clever Hide
За да изглежда span елемента, добре е да се добави следния CSS
стил:
.clever-link {
text-decoration: underline;
cursor: pointer;
/* друго стилизиране на връзки, съответстващо на дизайна на сайта */
}
Google не чете JavaScript?
Макар зареждаш се, чрез браузер, достъпни са начини за
рендиране на JavaScript съдържание.
Инструменти, които може да използваме
Selenium е Python портативна структура, която ни позволява да
правим автоматизирани тестове и да боравим със сайта, все
едно имаме уеб браузер. В тази връзка, няма нищо сигурно при
скриването на линкове и те може да бъдат видяни от Google :)
Например, може да създадем парсер, който да извади всички
телефонни номера от сайт за обяви, който ги зарежда с AJAX.
Оптимизация на Crawling бюджет -
black начини за контрол - 3
SEO Hide
● с помощта на онлайн декодера Base64 да се кодира сорс-
кода на елемента, който искаме да скрием;
● полученият код да се постави във файла content.js, и да
свързва всеки нов кодиран елемент към новия му атрибут
hashstring;
● да се включат библиотеките jquery.js, base64.js и content.js
между таговете <head> и </head> на страницата;
<span hashstring="23642e39b937198b4151e23d8d5a548b"
hashtype="content">&nbsp</span>
● във файла Robots.txt папката /js/ да се затвори за
сканиране;
Оптимизация на Crawling бюджет -
black начини за контрол - 4
SEO Hide
● не трябва да затваряме през robots.txt целия JavaScript на
сайта;
● връзките са активни и функционални за потребителите.
Линк за изтегляне на библиотеките на SEO Hide: тук
Инструменти, които може да използваме
Netpeak SEO Tool
Добавка за Chrome, която може да показва различни OnPage
аспекти.
● проверка за брой изходящи връзки;
● проверка дали текущата страница е затворена за
индексация, чрез:
○ мета таг “noindex”;
○ X-Robots таг;
● директно отваряне на robots.txt файла;
● и много други...
Директен линк за сваляне: тукПрезентация на инструмента: тук
Инструменти, които може да използваме - 2
Netpeak SEO Tool
Инструменти, които може да използваме - 3
Netpeak SEO Tool
Това, което можете да очаквате:
● проверка дали страницата има AMP поддръжка;
● проверка дали се ползва HTTP/2.0;
● сигнализиране за нови типове SEO грешки.
Инструменти, които може да използваме - 3
● Google Search Console;
● http://pr-cy.ru/simulator/ показва програмния код,
който ботът вижда на страницата, както и всички
изходящи връзки. Може да е полезен при пресмятане
на вътрешния Page Rank.
Пример от практиката - 1
Казусът: онлайн магазин, който се класира с 2 целеви страници
на 4 страница по [ключова дума]. Целевите страници са главна и
съответната категория.
След пресмятане на вътрешния Page Rank и външната линк маса
се установява, че е удачно една от страниците да се премахне
за обхождане от бота.
Какво направихме:
1. Сменихме адреса на категорията и пренасочихме стария
адрес към главна страница.
Пример от практиката - 2
4. Всички други линкове към категорията скрихме със SEO Hide:
2. Премахнахме адреса от HTML и XML картите на сайта.
3. Коригирахме хлебните трохички, за да няма връзка към
съответната категория:
Пример от практиката - 3
5. Категорийната страница затворихме с X-Robots “noindex” и с
мета таг “noindex”.
6. Резултатът:
Категорийната страница “изпадна” от индекса, а главната се
класира на 5-6 позиция.
Оставихме категорията, за да може да се ползва от
потребителите.
Заключение и практически препоръки
1. Често проверяване за наличие на вътрешни грешки,
пренасочвания, дублажи.
2. Калкулация на вътрешния PageRank и определяне на
страници, на които даваме тежест.
3. Оптимизация на crawling бюджет.
Въпроси?
Оптимизация на Crawling бюджет (Indit Black Hat Conference 2017)

More Related Content

What's hot

Lily Grozeva - SEO for English Speaking Markets
Lily Grozeva - SEO for English Speaking MarketsLily Grozeva - SEO for English Speaking Markets
Lily Grozeva - SEO for English Speaking Markets
Lily Grozeva
 
SEO курс, лекция 11 - От заявка до рендиране
SEO курс, лекция 11 - От заявка до рендиранеSEO курс, лекция 11 - От заявка до рендиране
SEO курс, лекция 11 - От заявка до рендиране
Lily Grozeva
 

What's hot (19)

SEO курс 2014, лекция 2 - Onpage оптимизация
SEO курс 2014, лекция 2 - Onpage оптимизацияSEO курс 2014, лекция 2 - Onpage оптимизация
SEO курс 2014, лекция 2 - Onpage оптимизация
 
SEO курс 2014, лекция 4: Техническа оптимизация, част 2
SEO курс 2014, лекция 4: Техническа оптимизация, част 2SEO курс 2014, лекция 4: Техническа оптимизация, част 2
SEO курс 2014, лекция 4: Техническа оптимизация, част 2
 
SEO курс 2014, лекция 3: Техническа оптимизация, част 1
SEO курс 2014, лекция 3: Техническа оптимизация, част 1SEO курс 2014, лекция 3: Техническа оптимизация, част 1
SEO курс 2014, лекция 3: Техническа оптимизация, част 1
 
SEO курс 2014, лекция 1 - Основи на търсенето
SEO курс 2014, лекция 1 - Основи на търсенетоSEO курс 2014, лекция 1 - Основи на търсенето
SEO курс 2014, лекция 1 - Основи на търсенето
 
SEO Работилница #1: семантика и Prodvigator.bg за анализ на ключови думи и ко...
SEO Работилница #1: семантика и Prodvigator.bg за анализ на ключови думи и ко...SEO Работилница #1: семантика и Prodvigator.bg за анализ на ключови думи и ко...
SEO Работилница #1: семантика и Prodvigator.bg за анализ на ключови думи и ко...
 
Lily Grozeva - SEO for English Speaking Markets
Lily Grozeva - SEO for English Speaking MarketsLily Grozeva - SEO for English Speaking Markets
Lily Grozeva - SEO for English Speaking Markets
 
IAB Digital marketing masterclass 7th of June 2020/ Stasi
IAB Digital marketing masterclass 7th of June 2020/ StasiIAB Digital marketing masterclass 7th of June 2020/ Stasi
IAB Digital marketing masterclass 7th of June 2020/ Stasi
 
SEO копирайтинг
SEO копирайтингSEO копирайтинг
SEO копирайтинг
 
SEO курс 2014, лекция 6 - Информационна архитектура
SEO курс 2014, лекция 6 - Информационна архитектураSEO курс 2014, лекция 6 - Информационна архитектура
SEO курс 2014, лекция 6 - Информационна архитектура
 
SEO курс, лекция 11 - От заявка до рендиране
SEO курс, лекция 11 - От заявка до рендиранеSEO курс, лекция 11 - От заявка до рендиране
SEO курс, лекция 11 - От заявка до рендиране
 
Microdata
MicrodataMicrodata
Microdata
 
SEO курс, лекция 13 - SEO инструментариум
SEO курс, лекция 13 - SEO инструментариумSEO курс, лекция 13 - SEO инструментариум
SEO курс, лекция 13 - SEO инструментариум
 
Техническа оптимизация и не само
Техническа оптимизация и не самоТехническа оптимизация и не само
Техническа оптимизация и не само
 
Новите SEO Правила 2012: Google+ Local
Новите SEO Правила 2012: Google+ LocalНовите SEO Правила 2012: Google+ Local
Новите SEO Правила 2012: Google+ Local
 
SEO курс, лекция 5 - Анализ на ключови думи
SEO курс, лекция 5 - Анализ на ключови думиSEO курс, лекция 5 - Анализ на ключови думи
SEO курс, лекция 5 - Анализ на ключови думи
 
Nikolai galinov-onpage-analysis
Nikolai galinov-onpage-analysisNikolai galinov-onpage-analysis
Nikolai galinov-onpage-analysis
 
Yazzle seo-konference
Yazzle seo-konferenceYazzle seo-konference
Yazzle seo-konference
 
Задълбочена разработка на семантиката на проекта
Задълбочена разработка на семантиката на проектаЗадълбочена разработка на семантиката на проекта
Задълбочена разработка на семантиката на проекта
 
SEO за англоезични сайтове
SEO за англоезични сайтовеSEO за англоезични сайтове
SEO за англоезични сайтове
 

Similar to Оптимизация на Crawling бюджет (Indit Black Hat Conference 2017)

SEO Class Sofia University 2012
SEO Class Sofia University 2012SEO Class Sofia University 2012
SEO Class Sofia University 2012
Lily Grozeva
 

Similar to Оптимизация на Crawling бюджет (Indit Black Hat Conference 2017) (20)

Nikolai galinov-onpage-analysis
Nikolai galinov-onpage-analysisNikolai galinov-onpage-analysis
Nikolai galinov-onpage-analysis
 
OnPage SEO
OnPage SEOOnPage SEO
OnPage SEO
 
Мартин Желязков (Netpeak).pptx
Мартин Желязков (Netpeak).pptxМартин Желязков (Netpeak).pptx
Мартин Желязков (Netpeak).pptx
 
Тенденции в SEO през 2014
Тенденции в SEO през 2014Тенденции в SEO през 2014
Тенденции в SEO през 2014
 
Тенденции в SEO през 2014
Тенденции в SEO през 2014Тенденции в SEO през 2014
Тенденции в SEO през 2014
 
Трафиково SEO — преход от позиции към трафик
Трафиково SEO — преход от позиции към трафик Трафиково SEO — преход от позиции към трафик
Трафиково SEO — преход от позиции към трафик
 
Николай Кръстев (NT WEBSITES).pdf
Николай Кръстев (NT WEBSITES).pdfНиколай Кръстев (NT WEBSITES).pdf
Николай Кръстев (NT WEBSITES).pdf
 
Трафиково SEO — преход от позиции към трафик
Трафиково SEO — преход от позиции към трафикТрафиково SEO — преход от позиции към трафик
Трафиково SEO — преход от позиции към трафик
 
Как да не изгубим SEO след миграция или нов дизайн
Как да не изгубим SEO след миграция или нов дизайнКак да не изгубим SEO след миграция или нов дизайн
Как да не изгубим SEO след миграция или нов дизайн
 
On page seo презентация от Digital4Plovdiv
On page seo презентация от Digital4PlovdivOn page seo презентация от Digital4Plovdiv
On page seo презентация от Digital4Plovdiv
 
Html search engine optimization
Html search engine optimizationHtml search engine optimization
Html search engine optimization
 
Technical SEO / Varna Free University
Technical SEO / Varna Free UniversityTechnical SEO / Varna Free University
Technical SEO / Varna Free University
 
Михаил Григоров (Ringostat) & Рени Делякова (Luximmo)
Михаил Григоров (Ringostat) & Рени Делякова (Luximmo)Михаил Григоров (Ringostat) & Рени Делякова (Luximmo)
Михаил Григоров (Ringostat) & Рени Делякова (Luximmo)
 
Мартин Желязков (Netpeak) & Алексей Балев (Netpeak)
Мартин Желязков (Netpeak) & Алексей Балев (Netpeak)Мартин Желязков (Netpeak) & Алексей Балев (Netpeak)
Мартин Желязков (Netpeak) & Алексей Балев (Netpeak)
 
Yazzle - SEO Conference 2011 Bulgaria
Yazzle - SEO Conference 2011 BulgariaYazzle - SEO Conference 2011 Bulgaria
Yazzle - SEO Conference 2011 Bulgaria
 
Seo for Joomla
Seo for JoomlaSeo for Joomla
Seo for Joomla
 
SEO Class Sofia University 2012
SEO Class Sofia University 2012SEO Class Sofia University 2012
SEO Class Sofia University 2012
 
Калоян Димитров (Enhancv)
Калоян Димитров (Enhancv)Калоян Димитров (Enhancv)
Калоян Димитров (Enhancv)
 
Инструменти Noindex и Nofollow
Инструменти Noindex и NofollowИнструменти Noindex и Nofollow
Инструменти Noindex и Nofollow
 
Кейс: ръст на посещенията с 158% за година в тематика "Леки автомобили"
Кейс: ръст на посещенията с 158% за година в тематика "Леки автомобили"Кейс: ръст на посещенията с 158% за година в тематика "Леки автомобили"
Кейс: ръст на посещенията с 158% за година в тематика "Леки автомобили"
 

More from Netpeak

More from Netpeak (20)

Кросс-продажи в B2B — нефть вашей воронки. Как увеличить оборот на 40% за сче...
Кросс-продажи в B2B — нефть вашей воронки. Как увеличить оборот на 40% за сче...Кросс-продажи в B2B — нефть вашей воронки. Как увеличить оборот на 40% за сче...
Кросс-продажи в B2B — нефть вашей воронки. Как увеличить оборот на 40% за сче...
 
Контент, который продаёт, повышает узнаваемость и трафик
Контент, который продаёт, повышает узнаваемость и трафикКонтент, который продаёт, повышает узнаваемость и трафик
Контент, который продаёт, повышает узнаваемость и трафик
 
Что такое контекстная реклама в Google и как с ней работать?
Что такое контекстная реклама в Google и как с ней работать? Что такое контекстная реклама в Google и как с ней работать?
Что такое контекстная реклама в Google и как с ней работать?
 
Топ 5 важных составляющих круто оптимизированного интернет-магазина
Топ 5 важных составляющих круто оптимизированного интернет-магазинаТоп 5 важных составляющих круто оптимизированного интернет-магазина
Топ 5 важных составляющих круто оптимизированного интернет-магазина
 
SEO: коригуй, оптимізуй і просувай
SEO: коригуй, оптимізуй і просувайSEO: коригуй, оптимізуй і просувай
SEO: коригуй, оптимізуй і просувай
 
Email-marketing: экскурс в самый окупаемый инструмент маркетинга
Email-marketing: экскурс в самый окупаемый инструмент маркетингаEmail-marketing: экскурс в самый окупаемый инструмент маркетинга
Email-marketing: экскурс в самый окупаемый инструмент маркетинга
 
18 каналов привлечения клиентов
18 каналов привлечения клиентов18 каналов привлечения клиентов
18 каналов привлечения клиентов
 
Как через R коннектор получить данные из Вконтакте в Power BI
Как через R коннектор получить данные из Вконтакте в Power BIКак через R коннектор получить данные из Вконтакте в Power BI
Как через R коннектор получить данные из Вконтакте в Power BI
 
SEO сегодня. Куда дует ветер, что смотреть и на что ориентироваться
SEO сегодня. Куда дует ветер, что смотреть и на что ориентироватьсяSEO сегодня. Куда дует ветер, что смотреть и на что ориентироваться
SEO сегодня. Куда дует ветер, что смотреть и на что ориентироваться
 
Как сделать рекламу эффективнее с помощью аналитики
Как сделать рекламу эффективнее с помощью аналитикиКак сделать рекламу эффективнее с помощью аналитики
Как сделать рекламу эффективнее с помощью аналитики
 
Локальные кампании в Google Ads. Привлекаем пользователей в офлайн с помощью ...
Локальные кампании в Google Ads. Привлекаем пользователей в офлайн с помощью ...Локальные кампании в Google Ads. Привлекаем пользователей в офлайн с помощью ...
Локальные кампании в Google Ads. Привлекаем пользователей в офлайн с помощью ...
 
Как масштабировать проект в мире автоматизации и многоканальности? Кейс Беккер
Как масштабировать проект в мире автоматизации и многоканальности? Кейс БеккерКак масштабировать проект в мире автоматизации и многоканальности? Кейс Беккер
Как масштабировать проект в мире автоматизации и многоканальности? Кейс Беккер
 
Как бесплатное мероприятие может принести деньги digital-агентству?
Как бесплатное мероприятие может принести деньги digital-агентству? Как бесплатное мероприятие может принести деньги digital-агентству?
Как бесплатное мероприятие может принести деньги digital-агентству?
 
Лидогенерация: как работать с воронкой продаж в Google Ads?
Лидогенерация: как работать с воронкой продаж в Google Ads?Лидогенерация: как работать с воронкой продаж в Google Ads?
Лидогенерация: как работать с воронкой продаж в Google Ads?
 
Soft skills и организация их развития
Soft skills и организация их развитияSoft skills и организация их развития
Soft skills и организация их развития
 
Как продвигать мобильное приложение в Google Ads? Основы мобильного маркетинга
Как продвигать мобильное приложение в Google Ads? Основы мобильного маркетингаКак продвигать мобильное приложение в Google Ads? Основы мобильного маркетинга
Как продвигать мобильное приложение в Google Ads? Основы мобильного маркетинга
 
SEO на этапе разработки сайта. Оптимизируем сайт еще до появления
SEO на этапе разработки сайта. Оптимизируем сайт еще до появленияSEO на этапе разработки сайта. Оптимизируем сайт еще до появления
SEO на этапе разработки сайта. Оптимизируем сайт еще до появления
 
Как вести рекламные кампании в Google Ads в период кризиса? Кейсы Netpeak
Как вести рекламные кампании в Google Ads в период кризиса? Кейсы NetpeakКак вести рекламные кампании в Google Ads в период кризиса? Кейсы Netpeak
Как вести рекламные кампании в Google Ads в период кризиса? Кейсы Netpeak
 
“Подслушивать” звонки менеджера — паранойя или путь к совершенству
“Подслушивать” звонки менеджера — паранойя или путь к совершенству“Подслушивать” звонки менеджера — паранойя или путь к совершенству
“Подслушивать” звонки менеджера — паранойя или путь к совершенству
 
Как работать с API Google Analytics на языке R
Как работать с API Google Analytics на языке RКак работать с API Google Analytics на языке R
Как работать с API Google Analytics на языке R
 

Оптимизация на Crawling бюджет (Indit Black Hat Conference 2017)

  • 1. Kolibri How to improve the quality of audits Simeon Emanuilov Оптимизация на Crawling бюджет BlackHat Conf 2017
  • 2. Оптимизация на Crawling бюджет За какво ще говорим? 1. Какво е crawling бюджет и от какво се влияе 2. Къде е актуална оптимизацията 3. Какво е PageRank и вътрешен PageRank 4. Калкулация на вътрешен PageRank 5. Пример за добре и зле структуриран сайт 6. Негативно влияние върху бюджета a. дублирано съдържание b. вътрешни пренасочвания c. вътрешни грешки d. други фактори e. Last-Modified 7. Естествени начини на оптимизация на Crawling бюджета
  • 3. Оптимизация на Crawling бюджет За какво ще говорим? 8. Полуестествени начини на оптимизация на Crawling бюджета 9. Black начини за контрол над бюджета 10. Инструменти, които може да ползваме при анализите 11. Netpeak SEO Tool 12. Примери от практиката 13. Въпроси 14. Заключение
  • 4. Crawling бюджет - обща информация ● най-общо: колко страници се обхождат за единица време (ден, седмица, месец); ● crawling бюджета е пропорционален на PageRank на сайта.
  • 5. Crawling бюджет - обща информация ● трафика на сайта влияе на crawling бюджета. Колкото повече трафик, толкова повече бюджет; ● crawling бюджета влияе пряко върху скоростта за индексиране; ● скоростта на сървъра оказва влияние; ● ако сканираните имат високо качество, обхождат се по-често; ● честото обновяване на съдържанието има значение.
  • 6. Къде е актуална оптимизацията Оптимизация на crawling бюджета е актуална при големи сайтове с няколко стотин страници. За малки сайтове с няколко на брой страници, тази оптимизация може да е излишна. Важно: терминът “crawling бюджет” е формиран от SEO специалистите, не е създаден от Google.
  • 7. ● Page Rank - един от алгоритмите на Google; ● Вътрешен Page Rank - тежест на вътрешните страници. Какво е Page Rank и вътрешен Page Rank
  • 8. Пресмятане на вътрешния Page Rank Съществуват различни начини за калкулация: ● Netpeak Spider; ● Друг Web Crawler + програмен език R|Python; ● Ръчно :)
  • 9. Пресмятане на вътрешния Page Rank Формула: PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) +...) N - брой активни страници, които участват в калкулацията d - дъмпинг коефициент (стандартната стойност е 0,85) L - брой изходящи връзки от конкретната страница Крайният резултат: относителната тежест на всяка страница Защо това е необходимо? За да обособим най-важните вътрешни страници към които се придава голяма тежест.
  • 10. Пример за добре структуриран сайт N = 9 d = 0.85 L - индивидуално за всяка страница
  • 11. Пример за лошо структуриран сайт N = 9 d = 0.85 L - индивидуално
  • 12. Негативно влияние върху бюджета 1. Дублирано съдържание. a. липса на настройка на основни редиректи; b. некоректно описано странициране; c. сортиране и задаване на лимит; d. основно огледало на сайта, версии с www; e. липса на пренасочване към https/http; f. неправилно описани мобилни версии.
  • 13. Негативно влияние върху бюджета - 2 2. Вътрешни грешки 404. a. откриване с crawler; b. Google Analytics код на страница 404: <script> (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){ (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o), m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) })(window,document,'script','//www.google-analytics.com/analytics.js','ga'); ga('create', 'UA-XXXXXX-X', 'auto'); ga('send', 'pageview', '/404.html?page='+document.location.pathname + document.location.search + '&from=' + document.referrer); </script> c. API на Analytics за изпращане на грешки
  • 14. Негативно влияние върху бюджета - 3 3. Вътрешни 301 редиректи. a. отново откриване с crawler; b. често се случва при преминаване към HTTPS да останат връзки с HTTP; c. хардкоднати връзки; d. еднотипни връзки към грешни адреси.
  • 15. Негативно влияние върху бюджета - 4 4. Грешна настройка на Last-Modified. Онлайн инструмент за проверка: тук Всяка търсачка сканира сайтове по различен начин и има различен принцип за определяне на бюджета, тази информация е актуална за Google.
  • 16. Оптимизация на Crawling бюджет - естествени начини за оптимизация Контролираме вътрешния Page Rank с помощта на ● "Свързани продукти"; ● "Допълващи продукти"; ● "Свързани статии"; ● хлебни трохички; ● друг вид вътрешно налинкване и разпределяне на вътрешната тежест; ● HTML картата на сайта също влияe.
  • 17. Оптимизация на Crawling бюджет - полуестествени начини за контрол Затваряне за индексация 1. Robots.txt харчи най-малко бюджет, но все пак ботът зарежда самата страница. 2. Meta tag noindex - тук ботът зарежда head частта и чак тогава напуска страница. * Ако имаме мета таг nofollow Google бот отново минава през връзките, за да провери все пак какво има на тях.
  • 18. Оптимизация на Crawling бюджет - полуестествени начини за контрол Затваряне за индексация 3. Xrobots - тук бота само проверява HTTP Header-a на страниците, но е опасно и доста често се допускат грешки.
  • 19. Оптимизация на Crawling бюджет - полуестествени начини за контрол - 2 Затваряне за индексация Нужно е много да се внимава при затварянето за индексация на определени страници. В някои случаи е необходимо да затворим с мета таг noindex + robots.txt
  • 20. Оптимизация на Crawling бюджет - полуестествени начини за контрол - 3 Затваряне за индексация + канонична препратка В специфични ситуации е възможно да се прехвърли тежест от мета таг “noindex” към каноничната препратка, ако има зададена такава. Това трябва да се има предвид, ако дадена страница не се индексира и има поставен мета таг “noindex” на еквивалент с канонична препратка към самата страница.
  • 21. Оптимизация на Crawling бюджет - black начини за контрол Clever Hide В действителност това представлява обикновен span елемент, който при клик извършва JavaScript пренасочване към зададен елемент. Крайната цел: Връзката е налична за потрeбителите, но невидима за ботовете на търсачките. <span class="clever-link" data-link="http://netpeak.bg/">netpeak.bg</span> $(document).ready(function() { $('.clever-link').click(function(){window.open($(this).data('link'), "_self");return false;}); });
  • 22. Оптимизация на Crawling бюджет - black начини за контрол - 2 Clever Hide За да изглежда span елемента, добре е да се добави следния CSS стил: .clever-link { text-decoration: underline; cursor: pointer; /* друго стилизиране на връзки, съответстващо на дизайна на сайта */ }
  • 23. Google не чете JavaScript? Макар зареждаш се, чрез браузер, достъпни са начини за рендиране на JavaScript съдържание.
  • 24. Инструменти, които може да използваме Selenium е Python портативна структура, която ни позволява да правим автоматизирани тестове и да боравим със сайта, все едно имаме уеб браузер. В тази връзка, няма нищо сигурно при скриването на линкове и те може да бъдат видяни от Google :) Например, може да създадем парсер, който да извади всички телефонни номера от сайт за обяви, който ги зарежда с AJAX.
  • 25. Оптимизация на Crawling бюджет - black начини за контрол - 3 SEO Hide ● с помощта на онлайн декодера Base64 да се кодира сорс- кода на елемента, който искаме да скрием; ● полученият код да се постави във файла content.js, и да свързва всеки нов кодиран елемент към новия му атрибут hashstring; ● да се включат библиотеките jquery.js, base64.js и content.js между таговете <head> и </head> на страницата; <span hashstring="23642e39b937198b4151e23d8d5a548b" hashtype="content">&nbsp</span> ● във файла Robots.txt папката /js/ да се затвори за сканиране;
  • 26. Оптимизация на Crawling бюджет - black начини за контрол - 4 SEO Hide ● не трябва да затваряме през robots.txt целия JavaScript на сайта; ● връзките са активни и функционални за потребителите. Линк за изтегляне на библиотеките на SEO Hide: тук
  • 27. Инструменти, които може да използваме Netpeak SEO Tool Добавка за Chrome, която може да показва различни OnPage аспекти. ● проверка за брой изходящи връзки; ● проверка дали текущата страница е затворена за индексация, чрез: ○ мета таг “noindex”; ○ X-Robots таг; ● директно отваряне на robots.txt файла; ● и много други... Директен линк за сваляне: тукПрезентация на инструмента: тук
  • 28. Инструменти, които може да използваме - 2 Netpeak SEO Tool
  • 29. Инструменти, които може да използваме - 3 Netpeak SEO Tool Това, което можете да очаквате: ● проверка дали страницата има AMP поддръжка; ● проверка дали се ползва HTTP/2.0; ● сигнализиране за нови типове SEO грешки.
  • 30. Инструменти, които може да използваме - 3 ● Google Search Console; ● http://pr-cy.ru/simulator/ показва програмния код, който ботът вижда на страницата, както и всички изходящи връзки. Може да е полезен при пресмятане на вътрешния Page Rank.
  • 31. Пример от практиката - 1 Казусът: онлайн магазин, който се класира с 2 целеви страници на 4 страница по [ключова дума]. Целевите страници са главна и съответната категория. След пресмятане на вътрешния Page Rank и външната линк маса се установява, че е удачно една от страниците да се премахне за обхождане от бота. Какво направихме: 1. Сменихме адреса на категорията и пренасочихме стария адрес към главна страница.
  • 32. Пример от практиката - 2 4. Всички други линкове към категорията скрихме със SEO Hide: 2. Премахнахме адреса от HTML и XML картите на сайта. 3. Коригирахме хлебните трохички, за да няма връзка към съответната категория:
  • 33. Пример от практиката - 3 5. Категорийната страница затворихме с X-Robots “noindex” и с мета таг “noindex”. 6. Резултатът: Категорийната страница “изпадна” от индекса, а главната се класира на 5-6 позиция. Оставихме категорията, за да може да се ползва от потребителите.
  • 34. Заключение и практически препоръки 1. Често проверяване за наличие на вътрешни грешки, пренасочвания, дублажи. 2. Калкулация на вътрешния PageRank и определяне на страници, на които даваме тежест. 3. Оптимизация на crawling бюджет.