Термин

robots.txt

robots.txt — текстовый файл в корневой директории сайта, который сообщает поисковым роботам, какие страницы и разделы можно индексировать, а какие необходимо игнорировать. Это первый документ, который читает краулер при визите на сайт.

robots.txt — текстовый файл, размещаемый по адресу https://site.ru/robots.txt, который задаёт правила обхода сайта для поисковых роботов (Googlebot, Yandex, Bingbot и других). Файл работает на основе протокола Robots Exclusion Standard: директивы User-agent, Allow, Disallow и Sitemap формируют карту доступа краулера к контенту.

Как работает robots.txt

Когда поисковый бот впервые обращается к домену, он запрашивает файл robots.txt ещё до сканирования любой страницы. Файл обрабатывается сверху вниз: бот находит блок с соответствующим User-agent и применяет первое совпавшее правило. Важно понимать: robots.txt не запрещает странице попасть в индекс — если на закрытую страницу ведут внешние ссылки, она может появиться в выдаче без контента. Для полного исключения из индекса используется мета-тег noindex.

  • Disallow: / — полный запрет обхода (критично не оставлять на продакшне).
  • Allow: — разрешает конкретный путь внутри закрытого раздела.
  • Sitemap: — указывает роботу путь к XML-карте сайта.
  • Crawl-delay: — задаёт паузу между запросами (актуально для Yandex).

Зачем robots.txt бизнесу

Грамотно настроенный файл решает сразу несколько коммерческих задач.

  • Экономия краулингового бюджета. Закрытие дублей, служебных страниц (/cart, /checkout, /admin) позволяет роботу тратить лимит обходов на коммерчески важные URL.
  • Защита данных. Административные панели, внутренние API и staging-окружения не должны попадать в поиск.
  • Ускорение индексации. Когда краулер не тратит время на мусорные страницы, приоритетный контент индексируется быстрее.
  • Управление параметрами URL. Фильтры, сортировки и UTM-параметры можно закрыть, чтобы избежать дублирования контента.

Частые ошибки в robots.txt

  • Закрытый CSS/JS. Если стили и скрипты недоступны Googlebot, он не может корректно отрендерить страницу — это напрямую влияет на ранжирование.
  • Disallow: / на продакшне. Ошибка при копировании настроек с dev-сервера — один из самых разрушительных SEO-инцидентов.
  • Конфликт Allow/Disallow. Неправильный порядок правил приводит к тому, что нужные страницы остаются закрытыми.
  • Отсутствие директивы Sitemap. Без явного указания пути к карте сайта время обнаружения новых страниц увеличивается.
  • Использование robots.txt вместо noindex. Закрытый в robots.txt URL может всё равно появиться в выдаче — без сниппета, но с потерей репутации домена.

Связь с другими услугами Divitio

robots.txt — один из базовых элементов технического SEO-аудита. В рамках работ Divitio файл анализируется в связке с XML-sitemap, настройками канонических URL и структурой внутренних ссылок. При подключении CRM-интеграций и запуске новых лендингов мы проверяем, что служебные эндпоинты закрыты корректно, а продуктовые страницы открыты для индексации. В проектах GEO-продвижения отдельные региональные поддиректории настраиваются через комбинацию robots.txt и hreflang-разметки.

FAQ

Частые вопросы

Может ли robots.txt полностью скрыть страницу из Google?
Нет. Директива Disallow запрещает краулеру обходить страницу, но не удаляет её из индекса. Если на закрытую страницу ведут внешние ссылки, Google может проиндексировать её URL без контента. Для полного исключения необходимо использовать мета-тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag.
Как часто нужно обновлять robots.txt?
Файл необходимо пересматривать при каждом значимом изменении структуры сайта: добавлении новых разделов, запуске фильтров каталога, смене CMS, появлении новых служебных директорий или интеграции внешних сервисов. Рекомендуется включать аудит robots.txt в регулярный технический SEO-чеклист — минимум раз в квартал.
Нужен ли robots.txt для нового сайта без контента?
Да, и особенно важно настроить его до публичного запуска. На стадии разработки файл должен закрывать весь сайт (Disallow: /), а перед релизом — открывать только нужные разделы и указывать путь к sitemap. Отсутствие файла не критично технически, но его наличие с корректными директивами Sitemap ускоряет первичную индексацию после запуска.
Заявка

Нужно применить «robots.txt» на практике?

Оставьте контакты — разберём вашу задачу по SEO, GEO, CRM или AI. РФ и СНГ.