На любом портале периодически необходимо делать технические работы. Они заключаются в модернизации движка, внутренних изменениях или обновлении программного обеспечения. Каким образом лучше это сделать без вреда для продвижения? Для указания статуса лучше применить код 503 в http-заголовках. Появляющаяся ошибка 503 свидетельствует: “ресурс является недоступным, повторите попытку немного позже”. Как начинают себя вести поисковики?

Они обязаны действовать по разработанным правилам

«Ошибка 503» — означает, что ресурс не в состоянии обработать запрос по причине перегрузки либо проведения работ внутри сайта. Если точно знаете продолжительность вмешательства в функционирование ресурса, впишите ее в «Retry-After» (заголовок). Когда он отсутствует, пользователь определит ответ:«500» (произошла ошибка).

Возникает много непонятного. Страница, дающая код «Ошибки 503», вообще могла отсутствовать в самом индексе. Обязан ли краулер осуществлять ее обработку так, как она ранее находилась в индексе? Спустя сколько времени после блокирования допускается выбрасывание страницы? Чем это измеряется: число обращений, часами, днями? Если «robots.txt» начнет демонстрировать 503 код ошибки, есть ли необходимость проводить индексацию портала?

Вопросов много, а ответов намного меньше. «Яндекс» по 503 кодам не делает описания. Пять лет назад «Google» дал несколько советов.

Из них стало понятно:

  • «Retry-After» применяется не правилом, а вспомогательным сигналом для вычисления оптимального времени индексации URL.
  • Длительную выдачу 503 могут расценивать 410. Только неизвестно, как долго.

В статье описаны результаты проведенного исследования логов анализируемого ресурса для изучения краулинга.

Проведение исследования

С целью изучения закономерности деятельности краулеров поисковые системы провели анализ:

  • Создана страница на портале (частенько заходят поисковики)
  • Страница показывает 503 код и заголовок «Retry-After» с задачей для роботов сделать попытку, спустя один час попасть на проверяемую страницу.

HTTP/1.1 ошибка 503 «Service Unavailable»

«Retry-After»: 3600

  • На странице в предложенном списке находится ссылка. Ее размещают для того, чтобы роботы без проблем смогли ее определить.
  • Взяли вторую, находящуюся в индексе страничку. На ней сделаны подобные работы.
  • Тридцать часов поисковые системы старались попасть на страницы.

Все данные фиксировались в логи.

Итоги

Что продемонстрировали логи?

  1. Яндекс старается индексировать новую страницу с интервалом каждые тридцать минут.

2363t

Мы сделали так, чтобы «Retry-After» зашел на портал, спустя один час. Поисковик «Yandex»начал стараться заходить каждые тридцать минут и продолжает дальше это делать. Первые четыре захода произошли с секундной точностью, затем период немного поменялся.

«Yandex» отправил URL в созданную очередь краулинга (процедура анализа веб-страниц) на округленное время — заходил в 00 и 30 минут каждый следующий час.

  1. Поисковик «Google» старается соблюдать экономию краулинговых средств. «Гугл» смог запросить интересующую страницу восемь раз в течении двадцати четырех часов (поисковик«Yandex» пятьдесят шесть). Промежутки захода не обладают едиными особенностями, минимальное время обращения к анализируемой новой странице — десять минут (с различных серверов были разные процедуры анализа веб-страниц). Перерыв между следующим обращением составляет пять часов (средний показатель).
  1. «Яндекс» меньше заходит на старую страницу.

К созданной в «Яндексе» странице (установлен 503 код).«Yandex» делал меньше попыток. За двадцать четыре часа только пять раз. Первая попытка произошла спустя пять минут, вторая — спустя одиннадцать часов (с минутной достоверностью), третья — спустя восемь часов, остальные — приблизительно спустя шесть часов.

  1. Google на старые страницы заходит больше, не замечая «Retry-After».

В течение суток поисковик «Гугл» к старой странице направлялся сорок пять раз. При этом были различные промежутки. Иногда происходили перерывы между обращениями более шестидесяти минут. Делались попытки через десять минут с одного сервера.

Выводы

Совершенно недостаточно провести анализ лога для получения ответа на возникшие вопросы.

После анализа полученной информации можно сделать выводы:

  • Поисковики делают по-разному обработку «ошибки 503» для существующих и несуществующих в созданной базе страничек. При индексации используется различная очередность. Подтверждено абсолютно разным адресом серверов поисковой системы «Яндекс». У «Google»айпишники не скрещиваются для различных видов страниц.
  • «Google» тщательно следит за временем в «Retry-After» для новых страничек, но не берет во внимание для старых. Для страниц в индексе указан показатель, насколько часто происходит обновление, и когда необходимо снова провести пересканирование. Период определяет показатель в «Retry-After».
  • «Яндекс» руководит организованной очередностью на краулинг. Каждому созданному URL соответствует конкретный период, когда будет запрашиваться страница. Только непонятно, сколько времени должно быть между запросами, если они отправляются с общего сервера. Это может оказаться одна секунда. Данный показатель находится в зависимости от параметров прохождения очередности.
  • Для осуществления в поисковике «Яндекс» технических работ нет необходимости «Retry-After» устанавливать меньше пяти часов.
  • Причина того, что «Google» запрашивает старые страницы, не замечая «Retry-After», может заключаться в том, что он использует абсолютно разные краулеры. Каждый имеет свой индивидуальный режим. Указания даются не «Google», а определенному серверу (группе серверов). В каждой стране их существует несколько сотен.