Поделиться “Как правильно работать с «Ошибкой код 503″”
На любом портале периодически необходимо делать технические работы. Они заключаются в модернизации движка, внутренних изменениях или обновлении программного обеспечения. Каким образом лучше это сделать без вреда для продвижения? Для указания статуса лучше применить код 503 в http-заголовках. Появляющаяся ошибка 503 свидетельствует: “ресурс является недоступным, повторите попытку немного позже”. Как начинают себя вести поисковики?
Они обязаны действовать по разработанным правилам
«Ошибка 503» — означает, что ресурс не в состоянии обработать запрос по причине перегрузки либо проведения работ внутри сайта. Если точно знаете продолжительность вмешательства в функционирование ресурса, впишите ее в «Retry-After» (заголовок). Когда он отсутствует, пользователь определит ответ:«500» (произошла ошибка).
Возникает много непонятного. Страница, дающая код «Ошибки 503», вообще могла отсутствовать в самом индексе. Обязан ли краулер осуществлять ее обработку так, как она ранее находилась в индексе? Спустя сколько времени после блокирования допускается выбрасывание страницы? Чем это измеряется: число обращений, часами, днями? Если «robots.txt» начнет демонстрировать 503 код ошибки, есть ли необходимость проводить индексацию портала?
Вопросов много, а ответов намного меньше. «Яндекс» по 503 кодам не делает описания. Пять лет назад «Google» дал несколько советов.
Из них стало понятно:
- «Retry-After» применяется не правилом, а вспомогательным сигналом для вычисления оптимального времени индексации URL.
- Длительную выдачу 503 могут расценивать 410. Только неизвестно, как долго.
В статье описаны результаты проведенного исследования логов анализируемого ресурса для изучения краулинга.
Проведение исследования
С целью изучения закономерности деятельности краулеров поисковые системы провели анализ:
- Создана страница на портале (частенько заходят поисковики)
- Страница показывает 503 код и заголовок «Retry-After» с задачей для роботов сделать попытку, спустя один час попасть на проверяемую страницу.
HTTP/1.1 ошибка 503 «Service Unavailable»
«Retry-After»: 3600
- На странице в предложенном списке находится ссылка. Ее размещают для того, чтобы роботы без проблем смогли ее определить.
- Взяли вторую, находящуюся в индексе страничку. На ней сделаны подобные работы.
- Тридцать часов поисковые системы старались попасть на страницы.
Все данные фиксировались в логи.
Итоги
Что продемонстрировали логи?
- Яндекс старается индексировать новую страницу с интервалом каждые тридцать минут.
Мы сделали так, чтобы «Retry-After» зашел на портал, спустя один час. Поисковик «Yandex»начал стараться заходить каждые тридцать минут и продолжает дальше это делать. Первые четыре захода произошли с секундной точностью, затем период немного поменялся.
«Yandex» отправил URL в созданную очередь краулинга (процедура анализа веб-страниц) на округленное время — заходил в 00 и 30 минут каждый следующий час.
- Поисковик «Google» старается соблюдать экономию краулинговых средств. «Гугл» смог запросить интересующую страницу восемь раз в течении двадцати четырех часов (поисковик«Yandex» пятьдесят шесть). Промежутки захода не обладают едиными особенностями, минимальное время обращения к анализируемой новой странице — десять минут (с различных серверов были разные процедуры анализа веб-страниц). Перерыв между следующим обращением составляет пять часов (средний показатель).
- «Яндекс» меньше заходит на старую страницу.
К созданной в «Яндексе» странице (установлен 503 код).«Yandex» делал меньше попыток. За двадцать четыре часа только пять раз. Первая попытка произошла спустя пять минут, вторая — спустя одиннадцать часов (с минутной достоверностью), третья — спустя восемь часов, остальные — приблизительно спустя шесть часов.
- Google на старые страницы заходит больше, не замечая «Retry-After».
В течение суток поисковик «Гугл» к старой странице направлялся сорок пять раз. При этом были различные промежутки. Иногда происходили перерывы между обращениями более шестидесяти минут. Делались попытки через десять минут с одного сервера.
Выводы
Совершенно недостаточно провести анализ лога для получения ответа на возникшие вопросы.
После анализа полученной информации можно сделать выводы:
- Поисковики делают по-разному обработку «ошибки 503» для существующих и несуществующих в созданной базе страничек. При индексации используется различная очередность. Подтверждено абсолютно разным адресом серверов поисковой системы «Яндекс». У «Google»айпишники не скрещиваются для различных видов страниц.
- «Google» тщательно следит за временем в «Retry-After» для новых страничек, но не берет во внимание для старых. Для страниц в индексе указан показатель, насколько часто происходит обновление, и когда необходимо снова провести пересканирование. Период определяет показатель в «Retry-After».
- «Яндекс» руководит организованной очередностью на краулинг. Каждому созданному URL соответствует конкретный период, когда будет запрашиваться страница. Только непонятно, сколько времени должно быть между запросами, если они отправляются с общего сервера. Это может оказаться одна секунда. Данный показатель находится в зависимости от параметров прохождения очередности.
- Для осуществления в поисковике «Яндекс» технических работ нет необходимости «Retry-After» устанавливать меньше пяти часов.
- Причина того, что «Google» запрашивает старые страницы, не замечая «Retry-After», может заключаться в том, что он использует абсолютно разные краулеры. Каждый имеет свой индивидуальный режим. Указания даются не «Google», а определенному серверу (группе серверов). В каждой стране их существует несколько сотен.
Поделиться “Как правильно работать с «Ошибкой код 503″”