Как оптимизировать краулинговый бюджет
Гостьова
28.09.2018
3213
Генерируя новый контент на сайте, вы наверняка планируете, что ваши труды будут замечены поисковиками, и причём как можно скорее! Ввиду особых ограничений поисковые роботы не могут днями напролёт ходить по вашему сайту и добавлять страницы в индекс. Но оптимизация краулингового бюджета может поспособствовать тому, чтобы они делали это чаще.

1. ЧТО ТАКОЕ КРАУЛИНГОВЫЙ БЮДЖЕТ, И ПОЧЕМУ НУЖНО УДЕЛЯТЬ ЕМУ ВНИМАНИЕ
Краулинговый бюджет — это количество страниц, которое робот-краулер обходит за определённый промежуток времени. Единого значения у этого показателя нет: каждый сайт имеет свой уникальный краулинговый бюджет, который можно узнать с помощью Google Search Console и Bing Webmaster Tools.
Не стоит воспринимать его как нечто само самой разумеющееся или как то, на что нельзя повлиять. Краулинговый бюджет можно и нужно оптимизировать: от него будет зависеть, насколько быстро новый контент попадёт в результаты поисковой выдачи.
2. СПОСОБЫ ОПТИМИЗАЦИИ КРАУЛИНГОВОГО БЮДЖЕТА
Если роботы не спешат добавлять новые странички вашего сайта в индекс, значит, пора применять методы, которые помогут исправить ситуацию. В рамках данной статьи мы будем приводить примеры проверки большинства важных параметров при помощи онлайн-сервисов и десктопного краулера Netpeak Spider.
2.1. ПРОВЕРЯЕМ, НЕ ЗАКРЫТЫ ЛИ ВАЖНЫЕ ДЛЯ ПРОДВИЖЕНИЯ ФАЙЛЫ И СТРАНИЦЫ В ROBOTS.TXT
Следите за тем, чтобы файл robots.txt не закрывал страницы, важные для продвижения, иначе роботы не будут иметь к ним доступ. Также скрывайте малозначимые страницы и нежелательный для индексации контент — это поможет сэкономить краулинговый бюджет и распределить его между страницами, которые потенциально могут приносить трафик.
2.1.1. Google Search Console
Один из способов проверить файл robots.txt — через Google Search Console.
- Зайдите в GSC.
- Кликните по разделу «Сканирование» и выберите «Инструмент проверки файла robots.txt».
- Внизу интерфейса введите URL и нажмите «Проверить».

2.1.2. Netpeak Spider
Чтобы выявить проблемы, связанные с robots.txt, на всём сайте, обратимся к Netpeak Spider.
- Зайдите в программу, введите начальный URL и, не меняя параметров по умолчанию, нажмите «Старт».
- На вкладке «Ошибки» найдите ошибку «Заблокировано в robots.txt», чтобы увидеть, какие страницы запрещены к индексации. Нажмите на неё, чтобы ознакомиться с полным списком и убедиться, что ни одна важная страница не попала под запрет, а все лишние страницы скрыты от поисковых роботов.

- Перейдите на вкладку «Сводка», чтобы посмотреть, сколько страниц отдают значение true (открыты для индексации) и false (закрыты для индексации) в файле robots.txt. Чтобы отфильтровать результаты по тому или иному значению, выполните аналогичные действия, описанные в предыдущем пункте.
- Экспортируйте текущую таблицу на своё устройство, нажав на кнопку слева над таблицей результатов.

На диаграмме «Причины неиндексирумости URL» во вкладке «Дашборд» вы можете посмотреть, какой процент страниц скрыт с помощью в robots.txt или любого другого метода. Нажмите на нужную вам область диаграммы, чтобы отфильтровать результаты.

Если вы хотите поменять что-то в файле robots.txt, но опасаетесь того, как это воспримут поисковые роботы, воспользуйтесь функцией «Виртуальный robots.txt». Он позволяет протестировать обновлённый файл, не меняя актуальный.
1. Найдите функцию в меню «Настройки».

2. Отметьте галочкой «Использовать виртуальный robots.txt», после чего впишите директивы или вставьте их через буфер обмена. Нажмите кнопку «OK».

3. Запустите сканирование в обычном режиме. По завершению сканирования директивы, прописанные в виртуальном файле, отобразятся в колонке «Разрешён в robots.txt» в основной таблице.

2.2. УСТРАНЯЕМ ОШИБКИ НА САЙТЕ: ЦЕПОЧКИ РЕДИРЕКТОВ, ДУБЛИКАТЫ И БИТЫЕ ССЫЛКИ
2.2.1. Цепочки редиректов
Один или два последовательных редиректа не навредят сайту: робот-краулер легко сможет перемещаться по ним до «конечного» пункта. Но не стоит допускать ситуации, когда редиректы образовывают цепочку из пяти и более звеньев. Из-за неё поисковый робот попросту может не добраться до целевой страницы.
Чтобы проверить, нет ли на вашем сайте подобных цепочек, воспользуйтесь Netpeak Spider. Для этого вам следует:
1. На вкладке «Параметры» боковой панели в разделе «Индексация» отметить галочкой пункт «Редирект».

2. Ввести начальный URL сайта в адресную строку и нажать кнопку «Старт».
3. По окончанию сканирования перейти на боковую панель на вкладку «Ошибки».

Если на вашем сайте были обнаружены цепочки редиректов, они будут отображены на этой вкладке как ошибка с соответствующим названием. Кликните по ней, чтобы подробно ознакомиться со списком URL на вкладке отфильтрованных результатов.
4. Выгрузите отчёт по ошибкам с помощью функции экспорта. Кнопки для экспорта данных находятся:
- слева над таблицей результатов — выгружает текущую таблицу;
- в главном меню: пункт «Экспорт» → «Специальные отчёты» → «Редиректы» → «Цепочки редиректов».

2.2.2. Дубликаты и битые ссылки
Дубли страниц и битые ссылки также негативно влияют на краулинговый бюджет, так как робот тратит свои лимиты на их обход вместо того, чтобы сканировать исправно работающие ссылки и актуальные страницы.
Уследить за появлением дубликатов и битых ссылок часто не представляется возможным, особенно на сайтах-гигантах. Именно поэтому важно регулярно проводить технический аудит сайта и устранять подобные проблемы. В этом вам также может помочь Netpeak Spider. Для поиска дублированного контента и битых ссылок выполните несколько простых действий:
- Введите адрес сайта и запустите сканирование с настройками по умолчанию.
- Перейдите на боковую панель и откройте вкладку со списком ошибок, чтобы увидеть все проблемы на данном сайте.
- Кликните по названию той или иной ошибки, чтобы получить подробные данные о ней и увидеть список страниц, на которых эта ошибка была найдена.
2.3. НАСТРАИВАЕМ 304 LAST-MODIFIED
HTTP-заголовок Last-Modified указывает роботу дату последнего изменения страницы. Если страница с последнего посещения не менялась, робот не будет снова её сканировать. Это существенно экономит краулинговый бюджет, особенно для сайтов с часто обновляемым контентом.
2.3.1. Проверка наличия заголовка Last-Modified
Чтобы проверить, настроен ли на отдельной странице заголовок, воспользуйтесь онлайн-сервисом Last-Modified.com.

Для проверки всех страниц сайта сразу просканируйте его в Netpeak Spider:
- Запустите сканирование с применением настроек по умолчанию.
- В таблице всех результатов ознакомьтесь с содержимым колонки «Last-Modified».

2.3.2. Настройка заголовка Last-Modified
Если Last-Modified не был найден, выполните его установку.
Для статических сайтов пропишите следующий метатег (c нужной датой) в коде каждой отдельной страницы:

Для динамических сайтов рекомендуется использовать настройку в PHP. В этом случае следует поместить в header.php перед закрывающим тегом следующий отрывок кода:

Также вместо ручной настройки можно воспользоваться различными плагинами, например, в случае с WordPress она выполняется с помощью WP Super Cache, Clearfy, Last Modified Timestamp и пр.
2.4. СЛЕДИМ ЗА «ЧИСТОТОЙ» КАРТЫ САЙТА
Карта сайта помогает поисковым роботам упросить краулинг и быстрее находить новый контент. Чтобы она работала исправно, регулярно обновляйте её и удаляйте «мусорные» страницы.
С помощью встроенного инструмента Netpeak Spider «Валидатор XML Sitemap» вы можете найти критические ошибки (если они имеются) в вашей карте сайта.
- Откройте меню «Инструменты» и выберите «Валидатор XML Sitemap».
- В поле «URL карты сайта» вставьте адрес вашей карты и нажмите «Старт».
- По завершению сканирования ознакомьтесь с найденными ошибками на боковой панели инструмента.

Если в карту сайта были внесены изменения, с помощью валидатора вы можете известить об этом поисковые системы Google и Bing. Для этого в верхнем правом углу над вкладкой с ошибками нажмите «Отправить Ping поисковым системам» и выберите нужную вам поисковую систему.
КОРОТКО О ГЛАВНОМ
Краулинговый бюджет — это количество страниц на сайте, которые обходит робот-краулер за определённый промежуток времени. Он всегда ограничен, и если зачастую небольшим веб-ресурсам можно не беспокоиться на этот счёт, то средним и большим сайтам рекомендуется заниматься его оптимизацией. Нехватка краулингового бюджета может привести к тому, что новые страницы сайта не будут попадать в индекс, и следовательно, в поисковую выдачу.
Существует немало методов увеличения краулингового бюджета, среди которых наиболее приоритетными являются:
- Проверка важных для продвижения страниц в файле в robots.txt.
- Устранение цепочек редиректов, дублей страниц и битых ссылок на сайте.
- Настройка заголовка Last-Modified.
- Чистка карты сайта от «мусорных» страниц.
Произвести большую часть технических работ, описанных выше, можно с помощью Netpeak Spider.
А какие методы оптимизации краулингового бюджета используете вы?
Расскажите о своих методах в комментариях под этим постом.
Рубрики
Майбутні події
Популярні статті
- Нужны продажи? Настройте Е-commerce интернет-магазина!
- Продвижение сайтов: Что нужно знать о бюджетах SEO. План работ.
- Як скласти оголошення, щоб ваш товар купили вже сьогодні
- SOM — перший український сервіс для розіграшів у соцмережах
- Розумні пристрої під час ремонту: як налаштувати прийом криптоплатежів
- Дублированный контент. Причины и решения
- Конструктор сайтів — що це? Плюси та мінуси користування
- Реклама сайта: 5 советов и 20 способов как привлечь клиентов
- Воронка продаж в интернет-маркетинге — как она работает?
- Обзор 25 блогов по теме интернет-маркетинга + Дайджест
також читайте
Якщо Ви вирішили:
- Істотно збільшити кількість покупців із сайту
- Збільшити приріст прибутковості свого підприємства
- Вивести свій сайт на перші місця у пошуковій видачі
- Зробити швидкий стартап або просунути свій бренд
- Заявити про себе як про серйозну компанію та надійного партнера
- Відкрити нові обрії для бізнесу
Відправте запит
Україна, Київ,
вул. Софіївська, 6