sergei_ai May 23 at 13:31

Reasoning-модели сломали мой промпт-инжиниринг. Год переучиваюсь

5 min

15K

Artificial IntelligenceMachine learning *

+19

Comments 14

Chuika May 23 at 14:22

Ох, понимаю

netricks May 23 at 14:22

Как то вы поздно проснулись. Этой фигнёй уже давно никто не занимается.

411 May 23 at 14:30

Та самая причина по которой я считал курсы по промт-инжинирингу пустой тратой времени (и денег, если платные)

Dhwtj May 23 at 15:31

Изначально было понятно что это оптимизации-костыли под одну модель, максимум под поколение. То есть на квартал - полгода. Потом они входят в саму модель.

Лучше вспоминать и прокачивать инженерное мышление.

Вас этому когда-то учили. Да да!

Dreams_and_magic May 23 at 15:32

"Ты гениальный программист с двадцатью годами опыта, ты любишь elegant решения"

Это и не должно было работать, так как не даёт никакой полезной информации нейросетке :) Это был баг, а не фича. Антропики любят добавлять слои "очеловечивания", поэтому это худо-бедно помогало, а как убрали лишнее - так всё и поломалось.

"Если у вас сейчас лежит пара любимых промптов со множеством примеров и развёрнутым CoT — попробуйте их укоротить. Не на десять процентов. Процентов на семьдесят-восемьдесят. Сравните. У меня после такого упражнения часть промптов сжалась с 2000 токенов до 150. Качество либо то же, либо лучше. "

Попробуйте дать задание вашей нейросети их укоротить для самой себя, объяснив, что именно требуется, дайте задание сделать их с десяток вариантов и прогнать их на нескольких типичных запросах, результаты вписать в файл и потом их оценить . Это будет объективно лучше и гораздо быстрее:)

Pshir May 23 at 16:54

Так всё логично. Сейчас LLM - это рабочий инструмент, и их сразу обучают на то, что быть рабочими инструментами. Поэтому и обращаться надо с ними как с рабочими инструментами, а не как с менеджерами-шизофрениками, у которых главный KPI - это длина и пафосность отчёта, а не результат. Ну и самому мыслить надо соответственно: напрямую, а не через подвыверты.

Ra2007 May 23 at 18:09

Точно та же история с CLAUDE.md. Полтора года назад писал в него подробные инструкции с объяснением логики, сейчас оставил только ограничения и правила вывода. Verbose CoT в промпте это действительно был workaround для моделей без внутреннего рассуждения, сейчас он мешает. Единственное что у меня по-прежнему работает из старого арсенала это явные примеры формата вывода, Claude уважает независимо от уровня thinking. А вот role-play действительно умер, согласен.

dkeiz May 24 at 03:52

в следующем году появятся модели которые сами пишут себе промпты под задачу...одна модель оптимизирует промпт для другой

Да, тренируют под вызов субагентов, наверно уже с прошлой осени в это все играют, сейчас пошло супермассово, хоть и не суперэффективно.

А лучшее что работает сейчас - короткий промпт и длинный план. План можно отредактировать, либо, если модель упирается, начать новый контекст с фразы - "от прошлой сессии у меня остался вот такой вот plan.md, надо его доделать и поработать".

Zoolander May 24 at 07:51

Если в статье появился Claude.md, значит вы пишете на агенте, а не рассказываете про чат.

Модели - да, меняются.

Но еще сильнее изменился наш промпт, который по пути к нейронке обрастает системными промптами и вызовами инструментов, там настоящий суп из семи колбас.

Мне недавно агент начал править CSS без спроса, когда я начал допрашивать почему, он сказал, что таковы были правила работы с CSS в системном промпте. Конкретно, речь шла про letter spacing, в файле он был отрицательным, агент Codex сам прошел и везде проставил 0 (это меня вообще убило мог бы удалить, но нет, нынешние нейронки не умеют писать минималистично)

Протестируйте ваш метод на последних моделях без агентов. Хотя они заверяют, что они больше стремятся к результату, не стоит сбрасывать со счетов адскую кашу системных промптов и инструментов в агентах.

Garik88 May 24 at 12:55

Что клод, что всякие кодексы с опенкодами, заточены на программирование и впихнуть в них бизнес логику, это прям проблема. Все эти агенты и субагенты имеют свои промпты, как вы верно заметили. И в некоторых случаях вывернуть из всех этих кодов все эти лишние промпты огромная проблема. Проще накидать на томже langgraph обычный простенький реакт агент с пачкой нужных инструментов получается намного проще и эффективнее, чем резать эти ваши коды и мучаясь с промптами из mcp. Так что категорически поддерживаю!

adante May 24 at 09:25

Вот недавно со знакомым посмеялись обсуждая промпты, что когда-то работали лесть и угрозы.

Потом role playing.

Единственное, что у меня работает из старого до сих пор это «если у тебя недостаточно информации для выполнения задачи или на основании имеющейся информации задачу можно решить несколькими способами, задавай уточняющие вопросы прежде чем продолжать»

StudyQA May 24 at 12:51

Подтверждаю из практики. Оркестрирую Claude Code через CLAUDE.md + system prompt, и самый большой прирост качества дал именно "контракт результата", не промпт-инженерия.

Конкретный пример: промпт на генерацию постов для Telegram-канала. Было 1800 токенов с role-play, few-shot на 7 примеров и цепочкой CoT. Результат: модель копировала стиль примеров вместо обобщения.

Переписал в 200 токенов: жесткие ограничения (длина 800-1200 символов, максимум 1 эмодзи, конкретная структура), один пример формата, функциональная роль ("контент-редактор канала"). Качество выросло, а главное, стало стабильным.

Добавлю к выводам автора: с reasoning-моделями критично не только что писать в промпте, но и что убрать. Каждый лишний constraint модель честно пытается соблюсти, даже если он противоречит другим.

StudyQA May 25 at 16:47

Подтверждаю из практики. Оркестрирую Claude Code через CLAUDE.md + system prompt, и самый большой прирост качества дал именно “контракт результата”, не промпт-инженерия.

Переписал в 200 токенов: жесткие ограничения (длина 800-1200 символов, максимум 1 эмодзи, конкретная структура), один пример формата, функциональная роль (“контент-редактор канала”). Качество выросло, а главное, стало стабильным.

unitcraft May 25 at 19:25

Совпадает, но добавлю — изменилось не содержание промптов, а распределение труда. Раньше: 70% на тонкий промпт, 30% на проверку ответа. С рассуждающими моделями наоборот: 30% — короткий промпт с контекстом, 70% — критерии приёмки и проверка после.

Побочный эффект: стало можно запускать модель автономно по плану на часы, без присмотра — она сама держит цикл «проверь, сдай». Старый промпт-инжиниринг такого не давал.