Как Senior управляют контекстным окном LLM / Habr

Сколько раз сегодня ChatGPT ответил вам: «Вы абсолютно правы, давайте исправим»

Пять? Десять?

Если подобное повторяется, дело не в модели — дело в том, как именно вы с ней работаете.

Сейчас многие увлечённо обсуждают размеры моделей:

«У GPT триллион параметров!»
«Claude теперь держит 200 тысяч токенов в контексте!»

Это впечатляет. Но если вы не умеете управлять контекстом, то всё это всё равно что купить Ferrari и ездить только на первой передаче.

Сегодня разберёмся, как действительно использовать возможности LLM. Контекстное окно — это не ограничение, а основной интерфейс взаимодействия с моделью. И то, как вы управляете этим окном, напрямую влияет на качество, скорость и стоимость вашей работы.

Почему контекст важнее, чем кажется

Ведущие инженеры компаний, создающих автономных AI-разработчиков, называют контекстную инженерию одной из самых востребованных компетенций.

Правильная работа с контекстом — это разница между моделью, которая точно понимает задачу, и моделью, которая выдаёт бессмысленные ответы.

Качество результата можно улучшить в несколько раз, а заодно сократить количество токенов. Ниже — четыре ключевые идеи, которые помогут вам кардинально повысить эффективность работы с ИИ.

Software 3.0: когда промпты становятся кодом

В профессиональной среде набирает силу новая концепция: код больше не является единственным активом. Промпты и спецификации — это тоже интеллектуальная собственность.

Software 1.0 — мы пишем код вручную.
Software 2.0 — нейросети учатся на данных.
Software 3.0 — естественный язык становится кодом, а LLM — его компилятором.

Звучит нереально? Посмотрите на цифры.

По данным Google, к апрелю 2025 года уже около 30 % нового кода создаётся ИИ.
GitHub Copilot генерирует почти половину строк в активных файлах, и им пользуются более 15 миллионов разработчиков.

При этом, как отмечает Саймон Уилсон (создатель DataSet), писать код с помощью LLM сложно и неинтуитивно. Если вам говорят, что это просто — вас вводят в заблуждение.

Ваша роль — архитектор контекста

LLM — мощный инструмент, но без вашей инженерной логики он остаётся дорогим калькулятором. Вы — дирижёр этого оркестра. От вас зависит, какие данные модель увидит и как их интерпретирует.

Три базовых факта, которые нужно знать:

Модель не имеет памяти между вызовами. Каждый запрос — чистый лист. Она ничего не «запоминает» между обращениями.
Контекстное окно — это всё, что модель видит. Механизм внимания (attention) можно сравнить с прожектором: чем больше освещаемая площадь, тем слабее фокус.
Качество вывода равно качеству входа. Если вы подаёте хаотичные данные — получите хаотичный результат.

Вы решаете, что и в каком порядке показать модели, как оформить инструкцию и где поставить акценты. Вы не пользователь — вы режиссёр контекста.

Как работает контекстное окно

Контекстное окно — это своего рода оперативная память модели. Когда вы добавляете новые данные, старые постепенно «вытесняются» из этой памяти.

В результате модель может «забыть» начало разговора и начать генерировать неуместные ответы.

Поэтому инструменты вроде Claude и Cursor автоматически сжимают историю и оставляют только наиболее релевантные части диалога. Это не память в привычном смысле — скорее умная фильтрация контекста.

Типичные ошибки при работе с контекстом

Загрузка всей документации сразу. Это как искать иголку в стоге сена. Модель теряется в объёме данных.
Эффект Lost in the Middle. Самая важная информация оказывается в середине контекста и теряется из фокуса внимания.
Отсутствие фильтрации. «Добавлю на всякий случай ещё пару файлов» — типичная ошибка. Каждый лишний токен создаёт шум и снижает точность. Помните: меньше, но релевантнее — всегда лучше.

Почему неправильный контекст стоит дорого

Знакома ситуация, когда модель несколько раз подряд говорит:

«Вы правы, я допустила ошибку, давайте исправим»?

Вы раздражаетесь, думаете, что проблема в модели. На деле — контекст просто засорён и модель потеряла нить разговора.

Разница между «переписать всё заново» и «внести точечные правки» — это не магия ИИ, а грамотно выстроенный контекст.

Простая формула качества

Качество = (Корректность × Полнота) / (Размер × Шум)

Чем больше размер и шум — тем ниже итоговое качество. Если ключевая информация теряется в середине контекста, падает корректность и полнота. Оптимум — не максимальный, а чистый и структурированный контекст.

Два практических приёма

Правило «трёх–десяти шагов» Оптимальная длина одной сессии — от трёх до десяти шагов. После двадцати эффективность модели резко снижается.
Prefetch данных. Если знаете, какие данные понадобятся — загрузите их заранее. Это снижает количество вызовов и экономит время.

Три стратегии управления контекстом

1. Запись вне контекста (Writing)

Профессионалы сохраняют промежуточные результаты, чтобы не держать всё в одном окне. Так можно экономить до 90 % токенов.

2. Умный выбор (Selection)

Вместо «найди ошибку во всех 100 файлах» дайте чёткую задачу: «Проверь валидацию e-mail в модулях авторизации». Конкретная задача — конкретный контекст.

3. Сжатие истории (Comparison)

Claude автоматически сокращает старые сообщения при 95 % заполнения окна.
Но лучше делать это осознанно: сохранять прогресс, фиксировать итоги и начинать новую фазу с чистого контекста.

Трёхфазный подход для крупных проектов

Research. Агент изучает кодовую базу и сохраняет ключевые наблюдения.
Plan. На основе ресерча формируется план действий и тестов.
Implement. Выполняется реализация по плану.

Между фазами обязательно проводится ревью — архитектурная проверка до начала кодирования. Это повышает качество и сокращает количество итераций.

Когда сложные схемы не нужны

Для мелких правок или добавления кнопки на страницу достаточно простого контекста. Но если проект превышает 100 тысяч строк кода, без многофазного подхода вы столкнётесь с переполнением и потерей качества.

Subagents: как разделить нагрузку

Главный агент (parent) даёт задачу: «Найди, где происходит X». Подагент (child) анализирует файлы и возвращает ответ: «В файле Y, строка Z». Так вы разгружаете контекст и работаете точечно.

Claude Code, например, позволяет запускать отдельные задачи в независимых окнах без дополнительных настроек.

Дисциплина — залог качества

Работа без плана приводит к хаосу. Одна неточность в Research порождает сотни ошибок в коде. Проверяйте ресерч и план, а не только итоговый код — его всегда можно перегенерировать, а вот понимание системы требует времени.

Что ценнее: код или спецификация?

Это не конкурирующие понятия. Важно понимать, что является ключевой ценностью в конкретной задаче.

Да, промпты становятся частью инженерной культуры, но качество по-прежнему держится на дисциплине, ревью и ответственности.

Главное

LLM не имеет памяти: вы управляете её контекстом.
Больше контекста не значит лучше.
Оптимум — 40–50 % от максимального объёма.
Контекст — это ваша оперативная память, и ею нужно управлять.
Контекстная инженерия становится новым навыком разработчика.

Контекстное окно — не баг, а фича. Освойте управление контекстом — и получите многократный рост эффективности.