Промпт-инжиниринг мёртв? Почему «как спросить» больше не важно, и что приходит на смену / Habr

Новое исследование от Anthropic, создателей Claude, ставит крест на классическом промпт-инжиниринге. Их вывод: эффективность ИИ-агентов теперь определяется не тем, как вы спросите, а тем, какие данные вы им предоставите. На сцену выходит контекст-инжиниринг.

У этого есть пара предпосылок:

Битва за контекстное окно проиграна. Его практически невозможно расширить, а стоимость обработки длинных контекстов растёт квадратично.
Сама по себе идеально сформулированная задача ничего не решает, если нет контекста.

Раньше ИИ был как стажёр-студент: ему нужно было подробно разжевывать каждую задачу, давать шаблоны, прописывать формат ответа: «Думай шаг за шагом», «Ответь в формате JSON», «Веди себя как senior-разработчик».

Современные модели уровня Claude 4 Sonnet или GPT-5 и так мыслят структурно. Проблема сместилась: теперь они не «не понимают», что от них хотят, а «забывают» или «отвлекаются» на горы информации, которые мы сами же в них загружаем.

Зачастую, мы неэффективно используем контекстное окно

Если в вашем контекстном окне 200K токенов, и только 1K из них — это суть задачи и релевантные данные, то модель тратит 95% своих «умственных сил» на фильтрацию. Качество ответа падает.

Более того, каждый раз, когда модель обращается к длинному контексту, она пересчитывает его. Длинные диалоги становятся очень дорогими.

Anthropic заявляют, что можно иметь посредственный промпт, но безупречно выстроенный контекст, и получить блестящий результат. И наоборот: идеальный промпт без контекста не даст ожидаемого результата.

Контекст-инжиниринг на практике

Anthropic приводят 3 техники, которые позволят эффективно использовать контекстное-окно.

1. Сжатие (Summarization)

Задача в том, чтобы сохранить смысл диалога.
Каждые 5-10 шагов модель или система резюмирует ключевые договорённости, принятые решения и текущий статус задачи. Это как сохраниться в игре.

Пример: Вместо того чтобы загружать ИИ всю историю переписки по проекту (100 страниц), вы даёте ему актуальное ТЗ (1 страница) и резюме обсуждения по ключевым спорным моментам (ещё 1 страница).

2. Внешняя память (Memory)

Контекстное окно — это оперативная память. Её нельзя переполнять данными, которые нужны «на потом».
Вы храните документацию в векторизированной базе данных, а когда модели нужна конкретная информация, она не читает весь документ, а «спрашивает» у базы данных релевантный кусок и подгружает только его в контекст. Примерно так работает RAG.

Пример: Агент по написанию кода не держит в контексте всю кодовую базу. Он хранит её во внешней памяти и подгружает только сигнатуры функций и документацию тех модулей, с которыми работает в данный момент.

3. Делегирование (Delegation)

Вместо того, чтобы давать все задачи одной универсальной модели, можно делегировать задачи узкоспециализированным агентам, которые под эту задачу заточены.

Как это применить в общении с обычной LLM?

Не загружать модель лишним — формулировать суть задачи коротко.
Если обсуждение длинное — делать краткие пересказы и напоминания.
Хранить важные данные (описание проекта, цели, правила) отдельно и вставлять их при необходимости.

Вывод

Промпт-инжиниринг эволюционирует. Из искусства составления запросов он превратился в искусство взаимодействия с ИИ. Мы проектируем для модели информационную среду, в которой она может работать максимально эффективно.

А что вы думаете по поводу того, что промптинг уже не так важен?

P.S. Если понравилась статья, то можете поддержать автора подпиской на тг-канал. Там про то, как эффективно использовать нейросети