robots.txt — текстовый файл, размещаемый по адресу https://site.ru/robots.txt, который задаёт правила обхода сайта для поисковых роботов (Googlebot, Yandex, Bingbot и других). Файл работает на основе протокола Robots Exclusion Standard: директивы User-agent, Allow, Disallow и Sitemap формируют карту доступа краулера к контенту.
Как работает robots.txt
Когда поисковый бот впервые обращается к домену, он запрашивает файл robots.txt ещё до сканирования любой страницы. Файл обрабатывается сверху вниз: бот находит блок с соответствующим User-agent и применяет первое совпавшее правило. Важно понимать: robots.txt не запрещает странице попасть в индекс — если на закрытую страницу ведут внешние ссылки, она может появиться в выдаче без контента. Для полного исключения из индекса используется мета-тег noindex.
- Disallow: / — полный запрет обхода (критично не оставлять на продакшне).
- Allow: — разрешает конкретный путь внутри закрытого раздела.
- Sitemap: — указывает роботу путь к XML-карте сайта.
- Crawl-delay: — задаёт паузу между запросами (актуально для Yandex).
Зачем robots.txt бизнесу
Грамотно настроенный файл решает сразу несколько коммерческих задач.
- Экономия краулингового бюджета. Закрытие дублей, служебных страниц (/cart, /checkout, /admin) позволяет роботу тратить лимит обходов на коммерчески важные URL.
- Защита данных. Административные панели, внутренние API и staging-окружения не должны попадать в поиск.
- Ускорение индексации. Когда краулер не тратит время на мусорные страницы, приоритетный контент индексируется быстрее.
- Управление параметрами URL. Фильтры, сортировки и UTM-параметры можно закрыть, чтобы избежать дублирования контента.
Частые ошибки в robots.txt
- Закрытый CSS/JS. Если стили и скрипты недоступны Googlebot, он не может корректно отрендерить страницу — это напрямую влияет на ранжирование.
- Disallow: / на продакшне. Ошибка при копировании настроек с dev-сервера — один из самых разрушительных SEO-инцидентов.
- Конфликт Allow/Disallow. Неправильный порядок правил приводит к тому, что нужные страницы остаются закрытыми.
- Отсутствие директивы Sitemap. Без явного указания пути к карте сайта время обнаружения новых страниц увеличивается.
- Использование robots.txt вместо noindex. Закрытый в robots.txt URL может всё равно появиться в выдаче — без сниппета, но с потерей репутации домена.
Связь с другими услугами Divitio
robots.txt — один из базовых элементов технического SEO-аудита. В рамках работ Divitio файл анализируется в связке с XML-sitemap, настройками канонических URL и структурой внутренних ссылок. При подключении CRM-интеграций и запуске новых лендингов мы проверяем, что служебные эндпоинты закрыты корректно, а продуктовые страницы открыты для индексации. В проектах GEO-продвижения отдельные региональные поддиректории настраиваются через комбинацию robots.txt и hreflang-разметки.
Частые вопросы
Нужно применить «robots.txt» на практике?
Оставьте контакты — разберём вашу задачу по SEO, GEO, CRM или AI. РФ и СНГ.