Зачем вообще читать логи сервера
Большинство SEO-специалистов оценивают индексацию через Яндекс Вебмастер и встроенные отчёты. Это удобно, но поверхностно. Яндекс Вебмастер показывает агрегированные данные с задержкой, тогда как лог-файлы сервера фиксируют каждый визит краулера в реальном времени: какой URL запросил бот, когда, с каким кодом ответа и сколько времени ждал ответа сервера.
SEO-логи сервера — это первичный источник правды. Именно здесь видно, тратит ли краулер Яндекса бюджет обхода на полезные страницы или уходит в бесконечные фасеты интернет-магазина, дублированные URL и технический мусор. Без анализа логов сайта вы работаете вслепую: оптимизируете контент, который бот вообще не посещает, или не замечаете, что важные страницы получают ответ 500 именно во время ночного обхода.
Где найти лог-файлы и как их получить
Не хотите разбираться сами?
Divitio закроет задачу под ключ — Продвижение сайта в топ 10 Яндекса — выход в первую десятку по целевым запросам. Аудит и план работ — бесплатно.
Обсудить проект →Расположение логов зависит от веб-сервера и хостинга:
- Apache — обычно
/var/log/apache2/access.logили/var/log/httpd/access_log. - Nginx — чаще всего
/var/log/nginx/access.log. - Виртуальный хостинг — логи доступны в панели управления (cPanel, ISPmanager) во вкладке «Логи» или «Статистика».
Если сайт на облачной инфраструктуре или CDN, логи могут агрегироваться отдельно — уточните у DevOps-команды формат выгрузки. Для анализа удобнее всего работать с файлами за конкретный период: 7–30 дней дают репрезентативную картину без избыточного объёма.
Перед разбором убедитесь, что логи включают стандартные поля: дату и время, IP-адрес, метод запроса, URL, код ответа, размер тела ответа и User-Agent. Если поле User-Agent отсутствует — настройте формат логирования, иначе отделить бота от пользователя не получится.
Как опознать краулер Яндекса в логах
Краулер Яндекса идентифицируется по строке User-Agent. Актуальные значения на момент написания статьи:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)— основной индексирующий бот.Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)— обход изображений.Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots)— видеоконтент.Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots)— технические обходы для Метрики.
Для фильтрации удобно использовать простую команду в терминале:
grep -i 'yandexbot' /var/log/nginx/access.log > yandex_bot.log
Полученный файл — ваша рабочая база для дальнейшего анализа. Важно: проверяйте IP-адреса ботов через официальный список Яндекса, так как недобросовестные краулеры могут подделывать User-Agent.
Что искать в лог-файлах: ключевые метрики
Когда файл с визитами краулера Яндекса отфильтрован, анализируйте следующие параметры.
Коды ответов сервера. Это самое важное. Разбивка по кодам даёт мгновенную диагностику:
- 200 — страница отдана успешно. Проверьте, нужные ли это страницы.
- 301/302 — редиректы. Цепочки редиректов съедают бюджет обхода, каждое звено — лишний запрос.
- 404 — страница не найдена. Если бот массово ходит на 404, значит, где-то остались «битые» внутренние ссылки или sitemap с удалёнными URL.
- 403/410 — запрет доступа или намеренное удаление. 410 предпочтительнее 404 для страниц, которые убраны навсегда.
- 500/503 — ошибки сервера. Если они происходят именно во время обхода, проблема может быть в нагрузке или неверной конфигурации.
Частота обращений к URL. Если краулер возвращается к одному URL десятки раз за сутки — это нормально для главной страницы, но аномально для страницы тегов или пустой категории. Обратная ситуация — важные посадочные страницы обходятся раз в неделю — сигнал о низком краулинг-бюджете.
Время ответа сервера (response time). Яндекс учитывает скорость ответа при формировании бюджета обхода. Если большинство страниц отдаётся за 200–400 мс, а отдельные URL тянут по 3–5 секунд — именно они замедляют переобход всего сайта.
Распределение обходов по типам страниц. Сегментируйте URL по паттернам: главная, категории, карточки товаров, статьи, технические страницы (/search/, /filter/, параметрические URL). Это позволяет понять, на что тратится бюджет краулера.
Типичные проблемы, которые выявляет анализ логов
Практика показывает, что при первом глубоком анализе логов сайта обнаруживаются одни и те же категории проблем.
Краулинговый мусор. Бот уходит на URL с параметрами сортировки, фильтрации, UTM-метками или сессионными идентификаторами. Эти страницы не имеют самостоятельной ценности, но потребляют бюджет обхода. Решение — закрытие через robots.txt или директиву Clean-Param в Яндекс Вебмастере.
Обход удалённых страниц. Если после редизайна или миграции бот продолжает ходить на старые URL и получает 404 — в sitemap или внутренних ссылках остались нерабочие адреса. Найдите источники этих запросов через логи и исправьте.
Неравномерное распределение обходов. Технические страницы посещаются чаще, чем коммерческие или информационные. Это признак неверной архитектуры внутренней перелинковки: краулер идёт туда, куда ведут ссылки, а не туда, где ценный контент.
Долгие ответы на конкретных разделах. Иногда проблема не в сервере целиком, а в конкретном модуле CMS — например, раздел отзывов делает тяжёлый запрос к базе данных при каждом обращении бота.
Отсутствие обходов новых страниц. Если страница опубликована неделю назад, а в логах нет ни одного визита YandexBot — скорее всего, она не добавлена в sitemap и не получила внутренних ссылок. Именно с этого начинается диагностика проблем с индексацией: Яндекс логи покажут факт необхода лучше любого внешнего инструмента.
Инструменты для анализа лог-файлов
Анализировать файлы вручную через терминал реально для небольших сайтов, но неудобно для крупных проектов с миллионами строк. Используйте специализированные решения:
- Screaming Frog Log File Analyser — десктопный инструмент, загружает лог и строит сегментированные отчёты по ботам, кодам ответов, URL.
- GoAccess — open-source-анализатор с реалтайм-режимом, хорошо работает прямо на сервере через SSH.
- ELK Stack (Elasticsearch + Logstash + Kibana) — для enterprise-проектов с постоянным мониторингом; требует настройки, но даёт мощную визуализацию.
- Python-скрипты — если нужна кастомная логика сегментации, простой скрипт на pandas обработает лог за секунды.
Для регулярной работы с логами имеет смысл выстроить автоматизированный пайплайн: сбор → парсинг → алерты при аномалиях. Если у вас нет внутреннего ресурса для этого, можно делегировать задачу внешним специалистам — наша команда помогает с этим в рамках комплексного SEO-продвижения.
Как использовать данные логов на практике
Анализ логов сайта — не разовая задача, а регулярный процесс. Вот минимальный рабочий цикл:
- Еженедельно: проверять долю ответов 4xx/5xx от YandexBot, сравнивать с предыдущей неделей.
- Ежемесячно: сегментировать обходы по типам страниц, оценивать тренд краулингового бюджета.
- После любых технических изменений: немедленно смотреть логи — миграция, смена CMS или редизайн часто создают неожиданные 404 и редиректные цепочки.
Данные из логов должны коррелировать с данными из Яндекс Вебмастера. Если бот посещает страницу, но она не индексируется — проблема уже не в обходе, а в сигналах качества: тонкий контент, дубли, директива noindex. Это следующий уровень диагностики.
Если хотите выстроить системную работу с техническим SEO, включая мониторинг логов и управление краулинговым бюджетом, — посмотрите на наш подход к технической оптимизации сайтов. А для проектов, где важна видимость в нейросетевых и голосовых ответах поисковиков, стоит изучить возможности GEO-продвижения.
Частые вопросы
Как часто нужно анализировать лог-файлы сервера Яндекса?
Для активно развивающихся сайтов — раз в неделю по ключевым метрикам (коды ответов, новые URL в обходе). Полный углублённый анализ — раз в месяц или после любых технических изменений на сайте.
Краулер Яндекса не посещает новые страницы — что делать?
Проверьте три вещи: есть ли страница в XML-sitemap, получила ли она хотя бы одну внутреннюю ссылку с уже проиндексированного URL, и не закрыта ли случайно через robots.txt или мета-тег noindex. Если всё в порядке, отправьте URL на переобход вручную через Яндекс Вебмастер.
Можно ли определить краулинговый бюджет из логов?
Прямого значения «бюджет обхода» в логах нет, но можно рассчитать косвенно: считайте количество уникальных URL, которые YandexBot посещает за сутки. Это и есть фактический расходуемый бюджет. Сравните его с количеством страниц, которые хотите видеть проиндексированными, — разрыв укажет на масштаб проблемы.