Google опубликовал список всех изменений в спецификации robots.txt
- Stats: 819 1
- Author: admin
- Category: SEO, Просування сайту. Копірайт, Статті
- Comments: Комментариев нет
В рамках работы по переводу Robots Exclusion Protocol (REP) в разряд официальных интернет-стандартов Google обновил свою документацию по robots.txt.
✒️Updated Google's Robots.txt spec to match REP draft✒️
🐰Follows 5 redirect hops
🕷️No crawl restrictions if unavailable >30 days
⚠️Unsuccessful requests=server error
🛑500 KiB size limit
💪Supports URI-based protocolsFull list of changes: https://t.co/GXd6FWt2D0 #robotstxt25
— Lizzi Sassman (@okaylizzi) July 1, 2019
changed» на странице Robots.txt Specifications. В их числе значатся
следующие:
- Удалён раздел «Язык требований»;
- Robots.txt теперь принимает все протоколы на основе URI;
- Google выполняет минимум пять повторений для переадресации. Если файл robots.txt не найден, цикл прекращается и регистрируется ошибка 404. Обработка логических переадресаций к файлу robots.txt на основе HTML-содержания, возвращающего коды 2xx (переадресации на основе фреймов, JavaScript или метатегов обновления) не рассматривается.
- Что касается ошибок 5xx, то если robots.txt недоступен более 30 дней, используется последняя копия, сохранённая в кеше. Если она недоступна, Google заключает, что никаких ограничений сканирования не предусмотрено.
- Google обрабатывает неудачные запросы или неполные данные как ошибку сервера.
- «Записи» теперь называются «строками» или «правилами», в зависимости от ситуации.
- Google не поддерживает обработку элементов с простыми ошибками или опечатками (например, «useragent» вместо «user-agent»).
- В настоящее время Google обрабатывает файлы robots.txt, размер которых составляет до 500 кибибайт (КиБ), и игнорирует контент, который превышает это ограничение.
- Обновлён формальный синтаксис, чтобы он был действительно расширенной формой Бэкуса-Наура (ABNF) в соответствии с RFC5234 и охватывал символы UTF-8 в файле robots.txt.
- Обновлено определение «групп», чтобы оно стало короче и лаконичнее. Добавлен пример для пустой группы.
- Удалены ссылки на устаревшую схему сканирования Ajax.
В русскоязычной версии документа эти изменения пока не отражены.
Напомним, что на днях Google также открыл исходный код своего парсера для robots.txt.
Отправить ответ