UAWEB
1НАЗАД
Антон Юдин |
Гостевые,SEO,Оптимизация |
28.09.2018 |

Как оптимизировать краулинговый бюджет

Генерируя новый контент на сайте, вы наверняка планируете, что ваши труды будут замечены поисковиками, и причём как можно скорее! Ввиду особых ограничений поисковые роботы не могут днями напролёт ходить по вашему сайту и добавлять страницы в индекс. Но оптимизация краулингового бюджета может поспособствовать тому, чтобы они делали это чаще. 

Краулинговый бюджет

1. Что такое краулинговый бюджет, и почему нужно уделять ему внимание

Краулинговый бюджет — это количество страниц, которое робот-краулер обходит за определённый промежуток времени. Единого значения у этого показателя нет: каждый сайт имеет свой уникальный краулинговый бюджет, который можно узнать с помощью Google Search Console и Bing Webmaster Tools.

Не стоит воспринимать его как нечто само самой разумеющееся или как то, на что нельзя повлиять. Краулинговый бюджет можно и нужно оптимизировать: от него будет зависеть, насколько быстро новый контент попадёт в результаты поисковой выдачи.

2. Способы оптимизации краулингового бюджета

Если роботы не спешат добавлять новые странички вашего сайта в индекс, значит, пора применять методы, которые помогут исправить ситуацию. В рамках данной статьи мы будем приводить примеры проверки большинства важных параметров при помощи онлайн-сервисов и десктопного краулера Netpeak Spider.

2.1. Проверяем, не закрыты ли важные для продвижения файлы и страницы в robots.txt

Следите за тем, чтобы файл robots.txt не закрывал страницы, важные для продвижения, иначе роботы не будут иметь к ним доступ. Также скрывайте малозначимые страницы и нежелательный для индексации контент — это поможет сэкономить краулинговый бюджет и распределить его между страницами, которые потенциально могут приносить трафик.

2.1.1. Google Search Console

Один из способов проверить файл robots.txt — через Google Search Console.

  1. Зайдите в GSC.
  2. Кликните по разделу «Сканирование» и выберите «Инструмент проверки файла robots.txt». 
  3. Внизу интерфейса введите URL и нажмите «Проверить».

Проверка в гугл консоле

2.1.2. Netpeak Spider

Чтобы выявить проблемы, связанные с robots.txt, на всём сайте, обратимся к Netpeak Spider.

  1. Зайдите в программу, введите начальный URL и, не меняя параметров по умолчанию, нажмите «Старт».
  2. На вкладке «Ошибки» найдите ошибку «Заблокировано в robots.txt», чтобы увидеть, какие страницы запрещены к индексации. Нажмите на неё, чтобы ознакомиться с полным списком и убедиться, что ни одна важная страница не попала под запрет, а все лишние страницы скрыты от поисковых роботов. Заблокировано в роботс
  3. Перейдите на вкладку «Сводка», чтобы посмотреть, сколько страниц отдают значение true (открыты для индексации) и false (закрыты для индексации) в файле robots.txt. Чтобы отфильтровать результаты по тому или иному значению, выполните аналогичные действия, описанные в предыдущем пункте. 
  4. Экспортируйте текущую таблицу на своё устройство, нажав на кнопку слева над таблицей результатов.

Экспорт таблицы

На диаграмме «Причины неиндексирумости URL» вкладке «Дашборд» вы можете посмотреть, какой процент страниц скрыт с помощью в robots.txt или любого другого метода. Нажмите на нужную вам область диаграммы, чтобы отфильтровать результаты.

Причины неиндексируемости урл

Если вы хотите поменять что-то в файле robots.txt, но опасаетесь того, как это воспримут поисковые роботы, воспользуйтесь функцией «Виртуальный robots.txt». Он позволяет протестировать обновлённый файл, не меняя актуальный.

1. Найдите функцию в меню «Настройки».


 Меню настройки

2. Отметьте галочкой «Использовать виртуальный robots.txt», после чего впишите директивы или вставьте их через буфер обмена. Нажмите кнопку «OK».

Использовать виртуальный роботс

3. Запустите сканирование в обычном режиме. По завершению сканирования директивы, прописанные в виртуальном файле, отобразятся в колонке «Разрешён в robots.txt» в основной таблице.

Запустить сканирование

2.2. Устраняем ошибки на сайте: цепочки редиректов, дубликаты и битые ссылки

2.2.1. Цепочки редиректов

Один или два последовательных редиректа не навредят сайту: робот-краулер легко сможет перемещаться по ним до «конечного» пункта. Но не стоит допускать ситуации, когда редиректы образовывают цепочку из пяти и более звеньев. Из-за неё поисковый робот попросту может не добраться до целевой страницы.

Чтобы проверить, нет ли на вашем сайте подобных цепочек, воспользуйтесь Netpeak Spider. Для этого вам следует:

1. На вкладке «Параметры» боковой панели в разделе «Индексация» отметить галочкой пункт «Редирект».

Редирект в параметрах

2. Ввести начальный URL сайта в адресную строку и нажать кнопку «Старт».

3. По окончанию сканирования перейти на боковую панель на вкладку «Ошибки».

В раздел ошибки

Если на вашем сайте были обнаружены цепочки редиректов, они будут отображены на этой вкладке как ошибка с соответствующим названием. Кликните по ней, чтобы подробно ознакомиться со списком URL на вкладке отфильтрованных результатов.

4. Выгрузите отчёт по ошибкам с помощью функции экспорта. Кнопки для экспорта данных находятся:

  • слева над таблицей результатов — выгружает текущую таблицу;
  • в главном меню: пункт «Экспорт» → «Специальные отчёты» → «Редиректы» → «Цепочки редиректов».

Отчет по ошибкам

 

2.2.2. Дубликаты и битые ссылки

Дубли страниц и битые ссылки также негативно влияют на краулинговый бюджет, так как робот тратит свои лимиты на их обход вместо того, чтобы сканировать исправно работающие ссылки и актуальные страницы.

Уследить за появлением дубликатов и битых ссылок часто не представляется возможным, особенно на сайтах-гигантах. Именно поэтому важно регулярно проводить технический аудит сайта и устранять подобные проблемы. В этом вам также может помочь Netpeak Spider. Для поиска дублированного контента и битых ссылок выполните несколько простых действий:

  1. Введите адрес сайта и запустите сканирование с настройками по умолчанию. 
  2. Перейдите на боковую панель и откройте вкладку со списком ошибок, чтобы увидеть все проблемы на данном сайте. 
  3. Кликните по названию той или иной ошибки, чтобы получить подробные данные о ней и увидеть список страниц, на которых эта ошибка была найдена.

2.3. Настраиваем 304 Last-Modified

HTTP-заголовок Last-Modified указывает роботу дату последнего изменения страницы. Если страница с последнего посещения не менялась, робот не будет снова её сканировать. Это существенно экономит краулинговый бюджет, особенно для сайтов с часто обновляемым контентом.

2.3.1. Проверка наличия заголовка Last-Modified

Чтобы проверить, настроен ли на отдельной странице заголовок, воспользуйтесь онлайн-сервисом Last-Modified.com.

Проверка наличия ласт-модифид

Для проверки всех страниц сайта сразу просканируйте его в Netpeak Spider:

  1. Запустите сканирование с применением настроек по умолчанию.
  2. В таблице всех результатов ознакомьтесь с содержимым колонки «Last-Modified».

Last modified

 

2.3.2. Настройка заголовка Last-Modified 

Если Last-Modified не был найден, выполните его установку.

Для статических сайтов пропишите следующий метатег (c нужной датой) в коде каждой отдельной страницы:

<meta http-equiv="Last-Modified" content="Fri, 19 Dec 2018 16:07:44 GMT">

Для динамических сайтов рекомендуется использовать настройку в PHP. В этом случае следует поместить в header.php перед закрывающим тегом </head> следующий отрывок кода:

<?php
$LastModified_unix = 1294844676;
$Last Modified = gmdate("D, d M Y H:i:s \G\M\T", $LastModified_unix);
$IfModifiedSince = false;
if (isset($_ENV[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_ENV[‘HTTP_IF_MODIFIED_SINCE’], 5));
if (isset($_SERVER[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_SERVER[‘HTTP_IF_MODIFIED_SINCE’], 5));
If ($IfModifiedSince && $IfModifiedSince >= &LastModified_unix) {
header ($_SERVER[‘SERVER_PROTOCOL’] . ‘ 304 Not Modified’);
exit;
}
header(‘Last-Modified: ‘ . $LastModified);
?>

Также вместо ручной настройки можно воспользоваться различными плагинами, например, в случае с WordPress она выполняется с помощью WP Super Cache, Clearfy, Last Modified Timestamp и пр.

2.4. Следим за «чистотой» карты сайта

Карта сайта помогает поисковым роботам упросить краулинг и быстрее находить новый контент. Чтобы она работала исправно, регулярно обновляйте её и удаляйте «мусорные» страницы.

С помощью встроенного инструмента Netpeak Spider «Валидатор XML Sitemap» вы можете найти критические ошибки (если они имеются) в вашей карте сайта.

  1. Откройте меню «Инструменты» и выберите «Валидатор XML Sitemap».
  2. В поле «URL карты сайта» вставьте адрес вашей карты и нажмите «Старт».
  3. По завершению сканирования ознакомьтесь с найденными ошибками на боковой панели инструмента.


Карта сайта сайтмап


Если в карту сайта были внесены изменения, с помощью валидатора вы можете известить об этом поисковые системы Google и Bing. Для этого в верхнем правом углу над вкладкой с ошибками нажмите «Отправить Ping поисковым системам» и выберите нужную вам поисковую систему.

Коротко о главном

Краулинговый бюджет — это количество страниц на сайте, которые обходит робот-краулер за определённый промежуток времени. Он всегда ограничен, и если зачастую небольшим веб-ресурсам можно не беспокоиться на этот счёт, то средним и большим сайтам рекомендуется заниматься его оптимизацией. Нехватка краулингового бюджета может привести к тому, что новые страницы сайта не будут попадать в индекс, и следовательно, в поисковую выдачу.

Существует немало методов увеличения краулингового бюджета, среди которых наиболее приоритетными являются:

  • Проверка важных для продвижения страниц в файле в robots.txt.
  • Устранение цепочек редиректов, дублей страниц и битых ссылок на сайте.
  • Настройка заголовка Last-Modified.
  • Чистка карты сайта от «мусорных» страниц.

Произвести большую часть технических работ, описанных выше, можно с помощью Netpeak Spider.

А какие методы оптимизации краулингового бюджета используете вы?

Расскажите о своих методах в комментариях под этим постом.

ОТПРАВИТЬ ЗАЯВКУ