Robots.txt и Sitemap: как настроить правильно…

Зачем вообще нужны эти два файла

Robots.txt и sitemap xml — это не опциональные украшения сайта, а базовые инструменты коммуникации с поисковыми роботами. Первый файл говорит краулерам, куда заходить не нужно. Второй — показывает, какие страницы существуют и как они связаны между собой. Вместе они формируют фундамент технического SEO: без корректной настройки этих файлов даже хорошо написанный контент рискует остаться вне поиска или проиндексироваться в нежелательном виде.

Важно понимать: robots.txt — это рекомендация, а не запрет. Добросовестные боты (Googlebot, Yandex) её соблюдают, но злонамеренные краулеры могут игнорировать. Поэтому закрывать через robots.txt конфиденциальные данные — ошибка. Для реальной защиты используют авторизацию на уровне сервера.

Структура и синтаксис robots.txt

Файл располагается строго в корне домена: https://example.ru/robots.txt. Он читается как обычный текст и состоит из блоков директив. Каждый блок начинается с User-agent и содержит правила Disallow и Allow.

Минимально рабочий файл выглядит так:

User-agent: * — правило для всех роботов
Disallow: /admin/ — закрываем административный раздел
Disallow: /cart/ — закрываем корзину и служебные страницы
Allow: / — явно разрешаем всё остальное (опционально, но улучшает читаемость)
Sitemap: https://example.ru/sitemap.xml — указываем путь к карте сайта

Распространённые ошибки в синтаксисе:

Пробел после двоеточия в директиве — он обязателен: Disallow: /path/, а не Disallow:/path/
Закрытие всего сайта строкой Disallow: / — это полностью останавливает индексацию
Использование регулярных выражений в стиле PHP или Python — robots.txt поддерживает только * и $
Разные правила для одного бота в нескольких блоках — корректно объединяйте их в один

Для Яндекс.Директа и Yandex Images можно прописать отдельные правила через User-agent: Yandex, если нужно тонко управлять поведением российских краулеров.

Что закрывать, а что открывать

Правило простое: закрывайте всё, что не должно попасть в поиск и не несёт SEO-ценности. Открывайте всё, что хотите видеть в индексе.

Типичные кандидаты на закрытие:

Административные панели (/admin/, /wp-admin/)
Страницы авторизации и личные кабинеты
Дублирующиеся URL с UTM-метками или параметрами сортировки, если они не обрабатываются canonical
Страницы пагинации (в зависимости от стратегии)
Технические директории: /cgi-bin/, /.git/

Что открывать принципиально важно: все коммерческие страницы, карточки товаров, категории, блог, лендинги. Если вы занимаетесь продвижением сайта в поиске, каждая закрытая нужная страница — это потерянный трафик.

Sitemap XML: структура и требования

Карта сайта в формате XML — это документ, в котором перечислены все URL, которые вы хотите проиндексировать. Технически это файл с расширением .xml, соответствующий протоколу sitemaps.org.

Минимальная запись для каждого URL:

<loc> — полный абсолютный адрес страницы, включая протокол
<lastmod> — дата последнего изменения в формате YYYY-MM-DD
<changefreq> — рекомендуемая частота обхода (weekly, monthly и т.д.)
<priority> — относительная важность от 0.1 до 1.0

Последние два атрибута носят рекомендательный характер: Google официально заявил, что практически игнорирует changefreq и priority. Яндекс учитывает их чуть активнее, но не гарантирует соблюдения. Главное — актуальный lastmod и корректный loc.

Ограничения стандарта: один файл sitemap не должен содержать более 50 000 URL и превышать 50 МБ в несжатом виде. Для крупных сайтов используют sitemap index — файл, который ссылается на несколько дочерних карт.

Практика: как создать и подключить sitemap

Способы генерации карты сайта зависят от CMS и масштаба проекта:

WordPress: плагины Yoast SEO или Rank Math генерируют карту автоматически и обновляют её при публикации новых материалов
1С-Битрикс: встроенный модуль SEO создаёт sitemap через административную панель
Самописные сайты: генерация через скрипт на стороне сервера или сторонние сервисы (Screaming Frog, XML-Sitemaps.com)

После генерации необходимо:

Убедиться, что файл доступен по адресу https://example.ru/sitemap.xml
Добавить ссылку на него в robots.txt директивой Sitemap:
Загрузить sitemap вручную в Google Search Console и Яндекс.Вебмастер — это ускорит обнаружение новых страниц
Проверить файл на валидность через инструменты обеих платформ

Типичные ошибки в sitemap xml:

Включение страниц с noindex — это противоречие сигналов сбивает краулер
Включение 301-редиректов вместо финальных URL
Устаревшие URL удалённых страниц
Неправильный формат дат в lastmod

Как проверить корректность настроек

После настройки обоих файлов проводим аудит в несколько шагов:

Google Search Console → Инструмент проверки robots.txt: симулирует поведение Googlebot на любом URL
Яндекс.Вебмастер → Анализ robots.txt: аналогичный инструмент для российского поиска
Screaming Frog SEO Spider: краулинг сайта с проверкой, какие страницы реально заблокированы
Отчёт об индексировании в Search Console: показывает, сколько страниц из sitemap попало в индекс, а сколько отклонено и по какой причине

Регулярный технический аудит — не разовая задача. При каждом крупном обновлении сайта, смене CMS или добавлении новых разделов настройки robots.txt и sitemap нужно пересматривать. Если вы хотите выстроить системный подход к техническому SEO-продвижению без постоянного ручного контроля, стоит рассмотреть автоматизацию процессов — например, через AI-инструменты для digital-маркетинга, которые отслеживают изменения в индексации в режиме реального времени.

Чек-лист: минимально корректная конфигурация

Перед тем как считать задачу закрытой, пройдитесь по этому списку:

Robots.txt находится в корне домена и отвечает кодом 200
Файл не закрывает нужные страницы — проверено через инструменты вебмастеров
В robots.txt прописана директива Sitemap: с актуальным URL
Sitemap содержит только индексируемые страницы без noindex и редиректов
Все URL в sitemap — абсолютные, с правильным протоколом (https)
Sitemap загружен в Google Search Console и Яндекс.Вебмастер
Дата lastmod актуальна и обновляется автоматически при изменении страниц
Для сайтов с 10 000+ страниц настроен sitemap index

Частые вопросы

Если я закрою страницу в robots.txt, она исчезнет из индекса?

Не обязательно и не сразу. Если страница уже была проиндексирована и на неё ссылаются другие сайты, поисковик может продолжать показывать её в выдаче — просто без доступа к содержимому. Для полного удаления из индекса используйте тег noindex в комбинации с закрытием в robots.txt или инструмент удаления URL в Search Console.

Нужна ли отдельная карта сайта для изображений и видео?

Зависит от задач. Если изображения или видео являются значимым источником трафика (например, для интернет-магазина или медиапортала), отдельные sitemap для них ускоряют индексацию медиаконтента. Google поддерживает расширения протокола для image: и video: namespace.

Как часто нужно обновлять sitemap?

В идеале — автоматически при каждом изменении на сайте. Большинство CMS делают это «из коробки» или через плагины. Если автоматизация недоступна, обновляйте вручную при каждом добавлении новых страниц или крупных структурных изменениях. Устаревший sitemap с несуществующими URL снижает эффективность краулингового бюджета.

← Все статьи блога

Услуги по теме

Обсудить проект

Оставьте имя и удобный номер — Дмитрий или менеджер Divitio перезвонит в течение рабочего дня, уточнит задачу и предложит шаги: SEO, GEO, интеграция или разработка CRM, AI для маркетинга.

+7 (938) 124-59-49

divitio@yandex.ru

MAX

Robots.txt и Sitemap: как настроить правильно