Контекстное окно (context window) — максимальный объём текста в токенах, который языковая модель обрабатывает за один вызов. Всё, что выходит за его пределы, модель не «помнит» и не учитывает. Современные модели имеют окна от 4 000 до 1 000 000+ токенов (примерно от 3 000 до 750 000 слов).
Как работает контекстное окно
Каждый запрос к языковой модели — это единый «снимок» информации. В него входят:
- System prompt — инструкции и роль модели;
- История диалога — предыдущие сообщения пользователя и ассистента;
- Пользовательский запрос — текущий вопрос или задача;
- Дополнительный контекст — фрагменты документов, результаты RAG-поиска, данные из CRM.
Когда суммарный объём превышает лимит, старые части диалога или документы автоматически «вытесняются» и перестают влиять на ответ. Это создаёт эффект «амнезии» — модель отвечает, не учитывая потерянную информацию.
Зачем это важно бизнесу
Размер и грамотное управление контекстным окном напрямую влияют на качество AI-решений в продакшене:
- AI-агенты и чат-боты — длинные сессии требуют либо большого окна, либо механизма сжатия истории (summarization), иначе бот «забывает» детали из начала разговора.
- RAG-системы (поиск по базе знаний) — в окно нужно уместить и запрос, и найденные фрагменты. При узком окне приходится жёстко ограничивать количество источников.
- Анализ документов — обработка договоров, отчётов и регламентов целиком возможна только при достаточном окне; иначе документ режется на части и теряется связность.
- Стоимость — каждый токен в окне тарифицируется. Раздутый контекст увеличивает расходы на API без роста качества.
Частые ошибки при работе с контекстом
- Бесконтрольный рост истории. Передавать в модель весь диалог без сжатия — расточительно и снижает качество: при заполненном окне модель хуже «фокусируется» на ключевой информации (эффект lost-in-the-middle).
- Игнорирование лимитов при проектировании. Архитектура AI-решения строится без учёта реального объёма данных — и рушится на первом же «тяжёлом» документе.
- Подмена памяти контекстом. Разработчики хранят всю «долгосрочную память» агента внутри окна вместо внешней векторной базы, что делает систему дорогой и нестабильной.
- Выбор модели только по размеру окна. Большое окно не гарантирует точного извлечения нужной информации — важна архитектура attention и качество модели.
Контекстное окно и услуги Divitio
При разработке AI-агентов и RAG-решений Divitio проектирует архитектуру управления контекстом с первого дня: определяет оптимальную модель под задачу, внедряет компрессию диалогов и гибридную память (векторное хранилище + окно). Это снижает стоимость API-вызовов и повышает стабильность ответов в долгих сессиях. В SEO и GEO-проектах понимание контекстных ограничений моделей помогает оптимизировать контент так, чтобы ключевые факты попадали в «видимую» часть окна при генерации AI-ответов.
Частые вопросы
Нужно применить «контекстное окно» на практике?
Оставьте контакты — разберём вашу задачу по SEO, GEO, CRM или AI. РФ и СНГ.