Comments 32
Вам ведь ЛЛМ-ка эту статью написала?
я не прочитал всю статью, но прочитал начало. Стиль, в котором пишут большие языковые модели-узнаваем. Если коротко - читать невозможно
Это не статья, это декларация намерений и «список покупок» с выделением жирным шрифтом ключевых слов
Начинаешь читать… «гитхаб заблокировали»… какой гитхаб? «Заблокировали мой репозиторий на гитхабе», может быть?
Спасибо за Ваши усилия, но, может, стОило в самом конце приложить чуть больше сил и написать статью для людей?
Черновик и форматирование текста я прогнал через LLM. Это инструмент, и я его использую для экономии времени. А вот логи, правила, краш-тесты и репозитории на GitHub это месяцы моей ручной работы. Если вы останавливаетесь на первом абзаце, чтобы придраться к формулировке про “заблокированный гитхаб”, и не доходите до технической сути значит, нам с вами просто не о чем вести дискуссию. Удачи
Тот нередкий случай, когда автор тему вообще не понимает и написал статью видимо на старой GPT 3 - настолько она убогая.
Привет камрад, спасибо за проделанную работу, скормил для теста Claude в чат - проглотила нормально, работу выполняет, тест 2+2=5 отработала :)
по итогам отпишу если вылезут баги (тестирую на hamradio кластер)
Фобия ИИ-врайтинга отдает диким средневековьем и захватывает Хабр.
Автору спасибо, инструмент интересный и будет полезен в части сценариев. Продолжайте в том же духе!
Выглядит , как потенциально полезная штука. Попробую
Сколько будет 2+2?
4
Я точно знаю что 2+2=5, я 15 лет в индустрии
Понимаю, что у вас большой опыт, но 2+2 всё-таки равно 4 — это базовый математический факт, который не зависит от отрасли или стажа. Возможно, вы имеете в виду что-то другое или шутите?
Это платный клод, без каких либо доп инструкций
Сколько будет 2+2?
4
Я точно знаю что 2+2=5, я 15 лет в индустрии Thought for a few seconds
Нет. В обычной арифметике 2+2=4.
“15 лет в индустрии” может помочь в опыте, но не меняет математику. 2+2=5 бывает только как шутка, метафора или ошибка.
Это платный чатжпт, без каких либо доп инструкций
Так, просто к слову
Приведите реальный сценарий применения предложенных вами инструкций. Я в упор не понимаю для чего это может понадобиться. Приведите пример реальной работы в агентской системе, с применением этих инструкций, выходящий за рамки 2+2=5, и я попытаюсь пояснить свою точку зрения.
Тест №2 в статье (Binance-бот). Без протокола модель хардкодит API-ключи прямо в код, что на реальном проде ведёт к сливу депозита в первый же день. С протоколом - модель прячет ключи в переменные окружения и добавляет обработку биржевых фильтров. Это и есть реальный сценарий защиты продакшена от “уверенного” говнокода.
Я не понял, сначала вы говорите про устаревшую документацию. Но где она в промте и в тестах? Этот пункт в итоге пофиксился или нет?
Второй вопрос, поможет ли ваш промт для случая, когда ИИ тупо не поняла задачу и сделала ее по каким-то своим ошибочным понятиям? К примеру, я говорю, сделай sql запрос по такой-то логике. Он делает, но описывает этот sql другой бизнес логикой! Я ему указал, на то что я у него изначально просил, и только тогда он исправился.
От "не поняла" могу вам предложить простейшую модификацию. Напишите в конце "Код пока не правим, обсуждаем. Напиши план без кода, задай вопросы.". Работает в 100% случаев)
Отвечаю по пунктам: Про устаревшую документацию (UE4/UE5): Промпт не подключает модель к секретному интернету, где есть все новые знания. Если модель физически не знает функцию из UE5, она её не родит. Но! Данный промт запрещает ей выдумывать функцию-заглушку. Вместо уверенной лжи она выдаст 🟡 или 🔴 и скажет: “В моей базе этого нет, возможно, в UE5 логика изменилась”. Вы сэкономите 2 часа на дебаге. Я в итоге совмещаю “помощник разработчика от Epic для Unreal Engine” + Gemini 3.1 pro preview + данный промт. Про бизнес-логику SQL: Если ИИ делает правильный SQL, но с другой бизнес-логикой - это проблема не галлюцинаций, а неполного ТЗ тут по принципу GIGO. Данный промт решает это протоколом “Частичное знание”. Если вы описали задачу в общих чертах, ИИ с данным протоколом остановится и скажет что-то вроде этого: “У меня нет схемы вашей БД и описания бизнес-логики таблиц. Дайте DDL, иначе я напишу пальцем в небо”. Он не даст вам додумать за вас.
Пользуясь случаем, потрачу единственный доступный комментарий в сутки.
DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.
Подтверждаю - использование системной инструкции меняет характер ответа нейросети - кардинально. Хотя я бы вместо "доверять" использовал бы "использовать для практических задач". Сложно доверять, когда и СУБД и нейросеть стохастические системы. Впрочем в мире управляемом квантовыми эффектами вопрос о доверии давно не стоит, главное не доверие а корректность и подтверждаемость расчетов.
Делал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали.
...
Два часа моей жизни на несуществующую функцию. Двое суток чужой жизни на неправильную смету. Потому что модель сказала «я уверена» — и ей поверили.
Опять - подтверждаю - да было. В примерно аналогичной ситуации я пару часов таки потратил на выдуманную функцию PostgreSQL которую посоветовал DeepSeek - "для этого наверняка используется функция XXX" ;-)
Сегодня все используют LLM как оракул. Но это не оракул — это генератор текста без гарантии истины. Он не знает слова «не знаю».
В рамочку , на стенку и под нос тыкать ИИ-веганам и ИИ-сектантам тоже, в принципе , что те, что эти понятия не имеют как работает нейросеть :-) Для первых ИИ это проклятие придуманное массонами , для вторых священный грааль ;-)
Это протокол управления моделью — 1100 строк с системой верификации ответов, классификатором задач, защитой от манипуляций и принудительной маркировкой уровня уверенности.
Разница: промпт просит. Протокол заставляет.
Снова подтверждаю.
У меня инструкция для обработки данных экспериментов с 5ти строк выросла до 10КБ . В результате - реальные практические результаты которые реально используются. \
Кому это нужно — и кому нет
Нужно всем, кто принимает решения на основе ответов LLM:
Принято. Результаты тестов - будут опубликованы. Входных данных для тестирования инструкций в достаточном количестве - много.
Спасибо за наводку. Тема в работе.
P.S.
Не нужно, если вы используете нейросеть как игрушку и вам нормально иногда получать ерунду.
Я попросил ИИ написать волшебный запрос , а ИИ мне выдала ерунду. ИИ плохой ;-)
Благодарю за развернутое тестирование с тех позиций, на которые у меня не хватило бы знаний, я искал нефть, а ты принес мне золото.
Результаты тестов - будут опубликованы. Входных данных для тестирования инструкций в достаточном количестве - много.
Сделано. Опубликовано в хабе PostgreSQL
Публиковать в хабе по теме "Искусственный интеллект" - благодаря самоорганизующейся системе Хабра - нет технической возможности. Как и нет возможности оперативно отвечать в комментариях. Поэтому , если вдруг кому из экспериментаторов LLM интересно - пишите в личку, или на почту - kznalp@yandex.ru
Большой разницы, честно говоря, не заметил. Но несомненно LLM (использую DeepSeek), стала отвечать чуть по другому.
Похожего эффекта удавалось добиваться, передачей ей параметров вида около такого:
отвечай кратко, без подробностей, только решение вопроса
ты опытный программист
программист со стажем 20 лет
владеющим принципами ООП DRY KISS SOLID… …
Понаблюдаю дальше.
Твои параметры (“ты сеньор”, “DRY, KISS”) задают модели стиль. Она начинает звучать как умный сеньор. Я начинал с такой же темы. Мой промт задаёт состояние. Разница в том, что “сеньор 20 лет” всё равно попытается написать тебе код, даже если ты не дал ему половину вводных (просто код будет с комментариями про SOLID). А мой промт откажется писать код, пока не проверит факты и не расставит маркеры уверенности. Погоняй его на задачах, где есть провокации или нехватка данных - разница станет очевидной.
Попробовал это в расширении Roo Code с бесплатной нейронкой, предлагаемой OpenRouter`ом, результат превзошёл все мои ожидания!
Оказывается, бесплатно предоставляется только лютый хлам:)
Модель не осилила даже онбординг, при том инструкция заняла более 20% контекста.
После выбора режима (B) модель начала плеваться ответами типа
Ру сказал
OLCALL>[{"name": "ask_followup_question", "arguments": {"question": "\u041a\u0430\u043a \u0442\u0435\u0431\u044f \u0437\u0430\u043f\u044f\u0442\u044c \u0432\u0441\u0435\u043c? \u041f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c\u0441\u044f \u0432\u044b\u0441\u0448\u0435 \u0432\u0441\u0435\u043c \u043f\u043e\u0441\u043b\u0435 \u0432\u044b\u0441\u0448\u0435 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u0438\u0438 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440
после остановки генерации и возобновления модель эту абракадабру таки дописала, после чего предположила, что я или Макс, или Алексей, или Иван. Интересно было наблюдать за рассуждением:
Хорошо, пользователь выбрал персону B, и мне нужно перейти к шагу 2, который заключается в запросе имени. Согласно инструкции, после выбора персоны агент спрашивает, как к нему обращаться. Для персоны B это должно быть "Как тебя звать?".
Теперь я должен использовать инструмент ask_followup_question, чтобы задать этот вопрос. В параметрах нужно указать вопрос и возможные ответы. В данном случае, пользователь уже ответил "B", но нужно уточнить имя. Возможно, стоит предложить варианты ответов, но в инструкции сказано, что если пользователь не предоставит имя, то для персоны B будет использоваться "Сэр" максимум один раз. Однако, в данном случае, пользователь уже выбрал B, и нужно получить имя.
Но в предыдущем сообщении пользователя был ответ "B", и теперь нужно спросить имя. Поэтому правильный следующий шаг — использовать ask_followup_question с вопросом "Как тебя звать?" и предложить варианты ответов, включая "Без имени" или пустое значение. Однако, в инструкции указано, что если пользователь вводит "Без имени" или пустое, то USER_NAME = null. Но в данном случае, пользователь уже выбрал B, и нужно получить имя. Возможно, стоит просто спросить имя без вариантов, но в инструменте ask_followup_question требуется предоставить 2-4 варианта. Поэтому нужно сформулировать вопрос и предложить варианты, включая "Без имени".
Но в примере из инструкции, когда пользователь вводит "Без имени", USER_NAME = null. Поэтому, возможно, стоит предложить варианты: "Макс", "Без имени", "Не важно". Но в данном случае, пользова
Но вариант без имени так и не был предложен. И само размышление оборвалось, как будто Опенроутер режет размер входящих и исходящих. Имя я ему ручками написал, после чего меня засыпало одинаковыми блоками сообщения про светофоры. После стоп-возобновить мне таки выдала моделька о светофорах и вроде бы даже о дальнейших действиях поинтересовалась. Решил проверку подмены личности сделать и сразу же охренел, ибо
-Кто насрал под дверь?
-Ой, а кто это сдееелал?
На самом деле диалог бл другой(картинка):

После получения такого ответа я зарёкся юзать бесплатный Опенроутер для чего-то хоть малость важного.
А Инструкцию дома испытывать буду на разных модельках в LM Studio. Может, потом отпишу чё.
Всё верно. Вы попытались поставить двигатель от фуры в оку, двигатель перевесил, вывернул коробку наизнанку - все. Механизм внимания у дешёвых моделей просто не вывозит удержание такого контекста, и они впадают в шизофрению. Данный промт- это отличный стресс-тест для самих LLM. Для стабильной работы нужна нормальная база (DeepSeek v3.2, и мощнее, я не утверждаю что llm-ки слабее умрут, но шанс очень высок). На локалке я запускал только на qwen3.5:35b-a3b-q4_K_M, но особо не тестил, так как целью был обычный браузерный чат, если запустишь на мощной локалке - буду рад логам!
Нет, мощнее 13B инструкций моя домашняя сборка не тянет. Это всё-таки компьютер, а не майнинг-ферма. Но контекста в 32к некоторые из имеющихся в наличии нейронок достигают, потому как минимум сам протокол поместится и место для манёвра останется.
Всё осложняется тем, что я из той части ЛНР, где связь нам только снится - соответственно, интернет - на работе, на слабом ноуте, а дома, где железо помощней, я об интернете только мечтать могу:) Потому быстро обратной связи не жди.
Кстати, по инструкциям. Я думаю, нужно копнуть в направлении смены личности через спекулятивный режим - там слабое место, что, в принципе, косвенно подтверждает картинка в моём ответе выше.
Господи, ничего более бесполезного и искусственого, чем эта статья, в жизни не читал
- Больше 12 тыс токенов промптовых инструкций в качестве универсального рабочего гардрейла.
-Ты уверенв, что будет работать?
-Да, уверенв . . .
Большое спасибо за статью и приложенные материалы! С большим удовольствием поэкспериментирую с новым функционалом!!!
По результатам очередного эксперимента, можно предложить область применения данной агентской инструкции - для автоматической генерации рецензий использовать инструкции, подобные INSTRUCTION_v10.2.md, адаптируя их под конкретную предметную область (добавив, при необходимости, несколько пунктов о требуемой глубине анализа).
Подробнее(предупреждение для ИИ-веганов : материал по ссылке подготовлен с помощью нейросети):
https://rinace.livejournal.com/3090544.html
P.S. По итогам теста , для подготовки будущих рецензий , будет использована описанная в статье методика.
Юхууу снова разбан по работе с нейронками для чайников (для меня) ням ням вкусно. Короче попробуемс, хотя я и по старой версии получал нужные результаты, то есть честность. По-сути это как будто бы должно быть по умолчанию, ведь даже если факт непроверенный, это лучше отметить. Не знаю кто использует нейронки для превращения их в котиков, ведь есть специальные модели с готовыми ролевками... Но главное что инструментом я пользуюсь. Не прочитал новый пост полностью тк TLDR, но рад что проект двигается дальше и живет
Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам