Как оптимизировать краулинговый бюджет
Генерируя новый контент на сайте, вы наверняка планируете, что ваши труды будут замечены поисковиками, и причём как можно скорее! Ввиду особых ограничений поисковые роботы не могут днями напролёт ходить по вашему сайту и добавлять страницы в индекс. Но оптимизация краулингового бюджета может поспособствовать тому, чтобы они делали это чаще.
1. Что такое краулинговый бюджет, и почему нужно уделять ему внимание
Краулинговый бюджет — это количество страниц, которое робот-краулер обходит за определённый промежуток времени. Единого значения у этого показателя нет: каждый сайт имеет свой уникальный краулинговый бюджет, который можно узнать с помощью Google Search Console и Bing Webmaster Tools.
Не стоит воспринимать его как нечто само самой разумеющееся или как то, на что нельзя повлиять. Краулинговый бюджет можно и нужно оптимизировать: от него будет зависеть, насколько быстро новый контент попадёт в результаты поисковой выдачи.
2. Способы оптимизации краулингового бюджета
Если роботы не спешат добавлять новые странички вашего сайта в индекс, значит, пора применять методы, которые помогут исправить ситуацию. В рамках данной статьи мы будем приводить примеры проверки большинства важных параметров при помощи онлайн-сервисов и десктопного краулера Netpeak Spider.
2.1. Проверяем, не закрыты ли важные для продвижения файлы и страницы в robots.txt
Следите за тем, чтобы файл robots.txt не закрывал страницы, важные для продвижения, иначе роботы не будут иметь к ним доступ. Также скрывайте малозначимые страницы и нежелательный для индексации контент — это поможет сэкономить краулинговый бюджет и распределить его между страницами, которые потенциально могут приносить трафик.
2.1.1. Google Search Console
Один из способов проверить файл robots.txt — через Google Search Console.
- Зайдите в GSC.
- Кликните по разделу «Сканирование» и выберите «Инструмент проверки файла robots.txt».
- Внизу интерфейса введите URL и нажмите «Проверить».
2.1.2. Netpeak Spider
Чтобы выявить проблемы, связанные с robots.txt, на всём сайте, обратимся к Netpeak Spider.
- Зайдите в программу, введите начальный URL и, не меняя параметров по умолчанию, нажмите «Старт».
- На вкладке «Ошибки» найдите ошибку «Заблокировано в robots.txt», чтобы увидеть, какие страницы запрещены к индексации. Нажмите на неё, чтобы ознакомиться с полным списком и убедиться, что ни одна важная страница не попала под запрет, а все лишние страницы скрыты от поисковых роботов.
- Перейдите на вкладку «Сводка», чтобы посмотреть, сколько страниц отдают значение true (открыты для индексации) и false (закрыты для индексации) в файле robots.txt. Чтобы отфильтровать результаты по тому или иному значению, выполните аналогичные действия, описанные в предыдущем пункте.
- Экспортируйте текущую таблицу на своё устройство, нажав на кнопку слева над таблицей результатов.
На диаграмме «Причины неиндексирумости URL» вкладке «Дашборд» вы можете посмотреть, какой процент страниц скрыт с помощью в robots.txt или любого другого метода. Нажмите на нужную вам область диаграммы, чтобы отфильтровать результаты.
Если вы хотите поменять что-то в файле robots.txt, но опасаетесь того, как это воспримут поисковые роботы, воспользуйтесь функцией «Виртуальный robots.txt». Он позволяет протестировать обновлённый файл, не меняя актуальный.
1. Найдите функцию в меню «Настройки».
2. Отметьте галочкой «Использовать виртуальный robots.txt», после чего впишите директивы или вставьте их через буфер обмена. Нажмите кнопку «OK».
3. Запустите сканирование в обычном режиме. По завершению сканирования директивы, прописанные в виртуальном файле, отобразятся в колонке «Разрешён в robots.txt» в основной таблице.
2.2. Устраняем ошибки на сайте: цепочки редиректов, дубликаты и битые ссылки
2.2.1. Цепочки редиректов
Один или два последовательных редиректа не навредят сайту: робот-краулер легко сможет перемещаться по ним до «конечного» пункта. Но не стоит допускать ситуации, когда редиректы образовывают цепочку из пяти и более звеньев. Из-за неё поисковый робот попросту может не добраться до целевой страницы.
Чтобы проверить, нет ли на вашем сайте подобных цепочек, воспользуйтесь Netpeak Spider. Для этого вам следует:
1. На вкладке «Параметры» боковой панели в разделе «Индексация» отметить галочкой пункт «Редирект».
2. Ввести начальный URL сайта в адресную строку и нажать кнопку «Старт».
3. По окончанию сканирования перейти на боковую панель на вкладку «Ошибки».
Если на вашем сайте были обнаружены цепочки редиректов, они будут отображены на этой вкладке как ошибка с соответствующим названием. Кликните по ней, чтобы подробно ознакомиться со списком URL на вкладке отфильтрованных результатов.
4. Выгрузите отчёт по ошибкам с помощью функции экспорта. Кнопки для экспорта данных находятся:
- слева над таблицей результатов — выгружает текущую таблицу;
- в главном меню: пункт «Экспорт» → «Специальные отчёты» → «Редиректы» → «Цепочки редиректов».
2.2.2. Дубликаты и битые ссылки
Дубли страниц и битые ссылки также негативно влияют на краулинговый бюджет, так как робот тратит свои лимиты на их обход вместо того, чтобы сканировать исправно работающие ссылки и актуальные страницы.
Уследить за появлением дубликатов и битых ссылок часто не представляется возможным, особенно на сайтах-гигантах. Именно поэтому важно регулярно проводить технический аудит сайта и устранять подобные проблемы. В этом вам также может помочь Netpeak Spider. Для поиска дублированного контента и битых ссылок выполните несколько простых действий:
- Введите адрес сайта и запустите сканирование с настройками по умолчанию.
- Перейдите на боковую панель и откройте вкладку со списком ошибок, чтобы увидеть все проблемы на данном сайте.
- Кликните по названию той или иной ошибки, чтобы получить подробные данные о ней и увидеть список страниц, на которых эта ошибка была найдена.
2.3. Настраиваем 304 Last-Modified
HTTP-заголовок Last-Modified указывает роботу дату последнего изменения страницы. Если страница с последнего посещения не менялась, робот не будет снова её сканировать. Это существенно экономит краулинговый бюджет, особенно для сайтов с часто обновляемым контентом.
2.3.1. Проверка наличия заголовка Last-Modified
Чтобы проверить, настроен ли на отдельной странице заголовок, воспользуйтесь онлайн-сервисом Last-Modified.com.
Для проверки всех страниц сайта сразу просканируйте его в Netpeak Spider:
- Запустите сканирование с применением настроек по умолчанию.
- В таблице всех результатов ознакомьтесь с содержимым колонки «Last-Modified».
2.3.2. Настройка заголовка Last-Modified
Если Last-Modified не был найден, выполните его установку.
Для статических сайтов пропишите следующий метатег (c нужной датой) в коде каждой отдельной страницы:
<meta http-equiv="Last-Modified" content="Fri, 19 Dec 2018 16:07:44 GMT">
Для динамических сайтов рекомендуется использовать настройку в PHP. В этом случае следует поместить в header.php перед закрывающим тегом </head> следующий отрывок кода:
<?php
$LastModified_unix = 1294844676;
$Last Modified = gmdate("D, d M Y H:i:s \G\M\T", $LastModified_unix);
$IfModifiedSince = false;
if (isset($_ENV[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_ENV[‘HTTP_IF_MODIFIED_SINCE’], 5));
if (isset($_SERVER[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_SERVER[‘HTTP_IF_MODIFIED_SINCE’], 5));
If ($IfModifiedSince && $IfModifiedSince >= &LastModified_unix) {
header ($_SERVER[‘SERVER_PROTOCOL’] . ‘ 304 Not Modified’);
exit;
}
header(‘Last-Modified: ‘ . $LastModified);
?>
Также вместо ручной настройки можно воспользоваться различными плагинами, например, в случае с WordPress она выполняется с помощью WP Super Cache, Clearfy, Last Modified Timestamp и пр.
2.4. Следим за «чистотой» карты сайта
Карта сайта помогает поисковым роботам упросить краулинг и быстрее находить новый контент. Чтобы она работала исправно, регулярно обновляйте её и удаляйте «мусорные» страницы.
С помощью встроенного инструмента Netpeak Spider «Валидатор XML Sitemap» вы можете найти критические ошибки (если они имеются) в вашей карте сайта.
- Откройте меню «Инструменты» и выберите «Валидатор XML Sitemap».
- В поле «URL карты сайта» вставьте адрес вашей карты и нажмите «Старт».
- По завершению сканирования ознакомьтесь с найденными ошибками на боковой панели инструмента.
Если в карту сайта были внесены изменения, с помощью валидатора вы можете известить об этом поисковые системы Google и Bing. Для этого в верхнем правом углу над вкладкой с ошибками нажмите «Отправить Ping поисковым системам» и выберите нужную вам поисковую систему.
Коротко о главном
Краулинговый бюджет — это количество страниц на сайте, которые обходит робот-краулер за определённый промежуток времени. Он всегда ограничен, и если зачастую небольшим веб-ресурсам можно не беспокоиться на этот счёт, то средним и большим сайтам рекомендуется заниматься его оптимизацией. Нехватка краулингового бюджета может привести к тому, что новые страницы сайта не будут попадать в индекс, и следовательно, в поисковую выдачу.
Существует немало методов увеличения краулингового бюджета, среди которых наиболее приоритетными являются:
- Проверка важных для продвижения страниц в файле в robots.txt.
- Устранение цепочек редиректов, дублей страниц и битых ссылок на сайте.
- Настройка заголовка Last-Modified.
- Чистка карты сайта от «мусорных» страниц.
Произвести большую часть технических работ, описанных выше, можно с помощью Netpeak Spider.
А какие методы оптимизации краулингового бюджета используете вы?
Расскажите о своих методах в комментариях под этим постом.