Совсем недавно Google обновил свою документацию о файлах robots.txt, уточнив, какие поля больше не поддерживаются поисковыми ботами. Обновленную интерпретацию спецификации robots.txt глазами Google можно почитать на официальном сайте.
Что такое файл robots.txt
Файл robots.txt — это текстовый файл, который используется для управления действиями поисковых роботов на сайте. Он размещается в корневом каталоге веб-сайта и позволяет техническим специалистам указывать, какие страницы или разделы сайта могут или не могут быть проиндексированы поисковыми системами.
Важные функции файла robots.txt:
1. Указание правил для поисковых агентов: Файл содержит директивы, которые говорят роботу, каким страницам разрешено или запрещено обращение.
2. Оптимизация индексации: Позволяет вебмастерам предотвратить индексацию несущественного или дублирующегося контента, что помогает улучшить качество индексации сайта.
3. Ссылки на карты сайта: В файле можно указать адрес карты сайта (sitemap), что помогает поисковым системам находить и индексировать все важные страницы.
Чаще всего используются директивы «User-agent», «Allow» и «Disallow».
Какие обновления коснулись файла robots.txt
Google будет игнорировать любые поля в файлах robots.txt, которые не указаны в официальной документации. Это сигнал для вебмастеров, что пора обновить свои файлы и отказаться от нестандартных директив. Google подчеркнул, что его поисковые роботы не обращают внимания на неофициальные поля. Этот шаг является частью широкой стратегии по упрощению и уточнению рекомендаций для вебмастеров, что поможет уменьшить путаницу и повысить ясность.
Как обновление может повлиять на сайты?
1) Неправильно заданные директивы могут разрешить или запретить страницам индексироваться. А это влияет как на позиции, так и на трафик сайта. Если вы создаете супер качественный контент, а в файле robots.txt стоит запрет, но увы, но ничего вам не поможет получать топовые места в поисковой выдаче.
2) Перестала работать популярные директива crawl-delay. Данное правило позволяло ограничивать скорость обхода сайта. Вебмастера использовали данное правило для крупных или медленных сайтов, чтобы поисковые роботы не сканировали контент в больших количествах и за минимальный промежуток времени.
А какие директивы сейчас поддерживает Google
Google признаёт следующие поля в файлах robots.txt:
user-agent: указывает, к какому конкретному роботу применяются правила.
allow: путь к URL, который разрешено сканировать.
disallow: путь к URL, который запрещено сканировать.
sitemap: полный URL для файла Sitemap.
А что же убрали и как теперь с этим жить?
Хотя Google не упоминал о некоторых часто используемых директивах, теперь становится понятно, что такие параметры, как crawl-delay и host, не влияют на его поисковых ботов. Но если вы прописываете в файле правила для всех ботов, т.е. ставите в user-agent: *, то все же не рекомендуется убирать данные правила из списка. Возможно для других поисковых систем данные значения нужны для правильной индексации сайта.
Хотя по опыту можно сказать, что большинство поисковых систем научились автоматически определять полезный контент. А Google сканирует полностью весь код страницы и уже сам выбирает качественный контент.