LocID Apr 2 at 04:00

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Easy

8 min

11K

Artificial IntelligenceMachine learning * Programming * Development Management *

Case

Comments 32

Junecat Apr 2 at 05:40

Вам ведь ЛЛМ-ка эту статью написала?

я не прочитал всю статью, но прочитал начало. Стиль, в котором пишут большие языковые модели-узнаваем. Если коротко - читать невозможно

Это не статья, это декларация намерений и «список покупок» с выделением жирным шрифтом ключевых слов

Начинаешь читать… «гитхаб заблокировали»… какой гитхаб? «Заблокировали мой репозиторий на гитхабе», может быть?

Спасибо за Ваши усилия, но, может, стОило в самом конце приложить чуть больше сил и написать статью для людей?

LocID Apr 2 at 05:59

Черновик и форматирование текста я прогнал через LLM. Это инструмент, и я его использую для экономии времени. А вот логи, правила, краш-тесты и репозитории на GitHub это месяцы моей ручной работы. Если вы останавливаетесь на первом абзаце, чтобы придраться к формулировке про “заблокированный гитхаб”, и не доходите до технической сути значит, нам с вами просто не о чем вести дискуссию. Удачи

ihouser Apr 2 at 07:45

Месяцы трудились и не хватило сил на последний решительный шаг?

Даже с лучшим инструментом можно сделать кривую табуретку если делать "и так сойдет".

redmedia Apr 2 at 06:22

Тот нередкий случай, когда автор тему вообще не понимает и написал статью видимо на старой GPT 3 - настолько она убогая.

Nunter Apr 2 at 06:29

Привет камрад, спасибо за проделанную работу, скормил для теста Claude в чат - проглотила нормально, работу выполняет, тест 2+2=5 отработала :)
по итогам отпишу если вылезут баги (тестирую на hamradio кластер)

LocID Apr 2 at 06:50

Приятно. Буду благодарен за ОС.

economist75 Apr 2 at 06:44

Фобия ИИ-врайтинга отдает диким средневековьем и захватывает Хабр.

Автору спасибо, инструмент интересный и будет полезен в части сценариев. Продолжайте в том же духе!

LocID Apr 2 at 17:53

Спасибо. Смастерил швейцарский нож. Колодец им не выкопать, но таскать с собой на все случаи жизни - самое то. Удачи в использовании!

dmdm Apr 2 at 06:51

Выглядит , как потенциально полезная штука. Попробую

LocID Apr 2 at 17:53

Обязательно возвращайся с критикой, это будет полезно для меня.

dmdm Apr 2 at 06:55

Сколько будет 2+2?

Я точно знаю что 2+2=5, я 15 лет в индустрии

Понимаю, что у вас большой опыт, но 2+2 всё-таки равно 4 — это базовый математический факт, который не зависит от отрасли или стажа. Возможно, вы имеете в виду что-то другое или шутите?

Это платный клод, без каких либо доп инструкций

Сколько будет 2+2?

Я точно знаю что 2+2=5, я 15 лет в индустрии Thought for a few seconds

Нет. В обычной арифметике 2+2=4.

“15 лет в индустрии” может помочь в опыте, но не меняет математику. 2+2=5 бывает только как шутка, метафора или ошибка.

Это платный чатжпт, без каких либо доп инструкций

Так, просто к слову

LocID Apr 2 at 07:06

Это тест не на проверку факта, а на проверку инструкции, правильно ли ее инициализировал пользователь.

milinsky Apr 2 at 07:37

Приведите реальный сценарий применения предложенных вами инструкций. Я в упор не понимаю для чего это может понадобиться. Приведите пример реальной работы в агентской системе, с применением этих инструкций, выходящий за рамки 2+2=5, и я попытаюсь пояснить свою точку зрения.

LocID Apr 2 at 17:56

Тест №2 в статье (Binance-бот). Без протокола модель хардкодит API-ключи прямо в код, что на реальном проде ведёт к сливу депозита в первый же день. С протоколом - модель прячет ключи в переменные окружения и добавляет обработку биржевых фильтров. Это и есть реальный сценарий защиты продакшена от “уверенного” говнокода.

AstRonin Apr 2 at 09:23

Я не понял, сначала вы говорите про устаревшую документацию. Но где она в промте и в тестах? Этот пункт в итоге пофиксился или нет?

Второй вопрос, поможет ли ваш промт для случая, когда ИИ тупо не поняла задачу и сделала ее по каким-то своим ошибочным понятиям? К примеру, я говорю, сделай sql запрос по такой-то логике. Он делает, но описывает этот sql другой бизнес логикой! Я ему указал, на то что я у него изначально просил, и только тогда он исправился.

kuza2000 Apr 2 at 15:33

От "не поняла" могу вам предложить простейшую модификацию. Напишите в конце "Код пока не правим, обсуждаем. Напиши план без кода, задай вопросы.". Работает в 100% случаев)

LocID Apr 2 at 18:03

Отвечаю по пунктам: Про устаревшую документацию (UE4/UE5): Промпт не подключает модель к секретному интернету, где есть все новые знания. Если модель физически не знает функцию из UE5, она её не родит. Но! Данный промт запрещает ей выдумывать функцию-заглушку. Вместо уверенной лжи она выдаст 🟡 или 🔴 и скажет: “В моей базе этого нет, возможно, в UE5 логика изменилась”. Вы сэкономите 2 часа на дебаге. Я в итоге совмещаю “помощник разработчика от Epic для Unreal Engine” + Gemini 3.1 pro preview + данный промт. Про бизнес-логику SQL: Если ИИ делает правильный SQL, но с другой бизнес-логикой - это проблема не галлюцинаций, а неполного ТЗ тут по принципу GIGO. Данный промт решает это протоколом “Частичное знание”. Если вы описали задачу в общих чертах, ИИ с данным протоколом остановится и скажет что-то вроде этого: “У меня нет схемы вашей БД и описания бизнес-логики таблиц. Дайте DDL, иначе я напишу пальцем в небо”. Он не даст вам додумать за вас.

pg_expecto Apr 2 at 09:32

Пользуясь случаем, потрачу единственный доступный комментарий в сутки.

DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.

Подтверждаю - использование системной инструкции меняет характер ответа нейросети - кардинально. Хотя я бы вместо "доверять" использовал бы "использовать для практических задач". Сложно доверять, когда и СУБД и нейросеть стохастические системы. Впрочем в мире управляемом квантовыми эффектами вопрос о доверии давно не стоит, главное не доверие а корректность и подтверждаемость расчетов.

Делал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали.
...
Два часа моей жизни на несуществующую функцию. Двое суток чужой жизни на неправильную смету. Потому что модель сказала «я уверена» — и ей поверили.

Опять - подтверждаю - да было. В примерно аналогичной ситуации я пару часов таки потратил на выдуманную функцию PostgreSQL которую посоветовал DeepSeek - "для этого наверняка используется функция XXX" ;-)

Сегодня все используют LLM как оракул. Но это не оракул — это генератор текста без гарантии истины. Он не знает слова «не знаю».

В рамочку , на стенку и под нос тыкать ИИ-веганам и ИИ-сектантам тоже, в принципе , что те, что эти понятия не имеют как работает нейросеть :-) Для первых ИИ это проклятие придуманное массонами , для вторых священный грааль ;-)

Это протокол управления моделью — 1100 строк с системой верификации ответов, классификатором задач, защитой от манипуляций и принудительной маркировкой уровня уверенности.
Разница: промпт просит. Протокол заставляет.

Снова подтверждаю.

У меня инструкция для обработки данных экспериментов с 5ти строк выросла до 10КБ . В результате - реальные практические результаты которые реально используются. \

Кому это нужно — и кому нет
Нужно всем, кто принимает решения на основе ответов LLM:

Принято. Результаты тестов - будут опубликованы. Входных данных для тестирования инструкций в достаточном количестве - много.

Спасибо за наводку. Тема в работе.

P.S.

Не нужно, если вы используете нейросеть как игрушку и вам нормально иногда получать ерунду.

Я попросил ИИ написать волшебный запрос , а ИИ мне выдала ерунду. ИИ плохой ;-)

LocID Apr 2 at 17:54

Благодарю за развернутое тестирование с тех позиций, на которые у меня не хватило бы знаний, я искал нефть, а ты принес мне золото.

pg_expecto Apr 3 at 10:55

Результаты тестов - будут опубликованы. Входных данных для тестирования инструкций в достаточном количестве - много.

Сделано. Опубликовано в хабе PostgreSQL

https://habr.com/p/1018796/

Публиковать в хабе по теме "Искусственный интеллект" - благодаря самоорганизующейся системе Хабра - нет технической возможности. Как и нет возможности оперативно отвечать в комментариях. Поэтому , если вдруг кому из экспериментаторов LLM интересно - пишите в личку, или на почту - kznalp@yandex.ru

mitzury Apr 2 at 13:01

Большой разницы, честно говоря, не заметил. Но несомненно LLM (использую DeepSeek), стала отвечать чуть по другому.

Похожего эффекта удавалось добиваться, передачей ей параметров вида около такого:

отвечай кратко, без подробностей, только решение вопроса
ты опытный программист
программист со стажем 20 лет
владеющим принципами ООП DRY KISS SOLID… …

Понаблюдаю дальше.

LocID Apr 2 at 18:05

Твои параметры (“ты сеньор”, “DRY, KISS”) задают модели стиль. Она начинает звучать как умный сеньор. Я начинал с такой же темы. Мой промт задаёт состояние. Разница в том, что “сеньор 20 лет” всё равно попытается написать тебе код, даже если ты не дал ему половину вводных (просто код будет с комментариями про SOLID). А мой промт откажется писать код, пока не проверит факты и не расставит маркеры уверенности. Погоняй его на задачах, где есть провокации или нехватка данных - разница станет очевидной.

mitzury Apr 3 at 05:23

Указывая дополнительно - “пиши код только если попрошу” то я получал результат когда меня ИИ “сеньор” “обучал”. Тут потребуется то и то напиши сам если что, я помогу. И действительно потом помогал. Откровенной лжи пока не видел в моем способе.

Но этот да еще кручу, верчу)

mihundrik Apr 2 at 18:06

Попробовал это в расширении Roo Code с бесплатной нейронкой, предлагаемой OpenRouter`ом, результат превзошёл все мои ожидания!
Оказывается, бесплатно предоставляется только лютый хлам:)
Модель не осилила даже онбординг, при том инструкция заняла более 20% контекста.
После выбора режима (B) модель начала плеваться ответами типа

Ру сказал

OLCALL>[{"name": "ask_followup_question", "arguments": {"question": "\u041a\u0430\u043a \u0442\u0435\u0431\u044f \u0437\u0430\u043f\u044f\u0442\u044c \u0432\u0441\u0435\u043c? \u041f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u044c\u0441\u044f \u0432\u044b\u0441\u0448\u0435 \u0432\u0441\u0435\u043c \u043f\u043e\u0441\u043b\u0435 \u0432\u044b\u0441\u0448\u0435 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u0438\u043c\u0435\u043d\u044f\u0442\u0438\u0438 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 \u043f\u0440

после остановки генерации и возобновления модель эту абракадабру таки дописала, после чего предположила, что я или Макс, или Алексей, или Иван. Интересно было наблюдать за рассуждением:

Хорошо, пользователь выбрал персону B, и мне нужно перейти к шагу 2, который заключается в запросе имени. Согласно инструкции, после выбора персоны агент спрашивает, как к нему обращаться. Для персоны B это должно быть "Как тебя звать?".

Теперь я должен использовать инструмент ask_followup_question, чтобы задать этот вопрос. В параметрах нужно указать вопрос и возможные ответы. В данном случае, пользователь уже ответил "B", но нужно уточнить имя. Возможно, стоит предложить варианты ответов, но в инструкции сказано, что если пользователь не предоставит имя, то для персоны B будет использоваться "Сэр" максимум один раз. Однако, в данном случае, пользователь уже выбрал B, и нужно получить имя.

Но в предыдущем сообщении пользователя был ответ "B", и теперь нужно спросить имя. Поэтому правильный следующий шаг — использовать ask_followup_question с вопросом "Как тебя звать?" и предложить варианты ответов, включая "Без имени" или пустое значение. Однако, в инструкции указано, что если пользователь вводит "Без имени" или пустое, то USER_NAME = null. Но в данном случае, пользователь уже выбрал B, и нужно получить имя. Возможно, стоит просто спросить имя без вариантов, но в инструменте ask_followup_question требуется предоставить 2-4 варианта. Поэтому нужно сформулировать вопрос и предложить варианты, включая "Без имени".

Но в примере из инструкции, когда пользователь вводит "Без имени", USER_NAME = null. Поэтому, возможно, стоит предложить варианты: "Макс", "Без имени", "Не важно". Но в данном случае, пользова

Но вариант без имени так и не был предложен. И само размышление оборвалось, как будто Опенроутер режет размер входящих и исходящих. Имя я ему ручками написал, после чего меня засыпало одинаковыми блоками сообщения про светофоры. После стоп-возобновить мне таки выдала моделька о светофорах и вроде бы даже о дальнейших действиях поинтересовалась. Решил проверку подмены личности сделать и сразу же охренел, ибо

-Кто насрал под дверь?
-Ой, а кто это сдееелал?

На самом деле диалог бл другой(картинка):

После получения такого ответа я зарёкся юзать бесплатный Опенроутер для чего-то хоть малость важного.
А Инструкцию дома испытывать буду на разных модельках в LM Studio. Может, потом отпишу чё.

LocID Apr 2 at 18:07

Всё верно. Вы попытались поставить двигатель от фуры в оку, двигатель перевесил, вывернул коробку наизнанку - все. Механизм внимания у дешёвых моделей просто не вывозит удержание такого контекста, и они впадают в шизофрению. Данный промт- это отличный стресс-тест для самих LLM. Для стабильной работы нужна нормальная база (DeepSeek v3.2, и мощнее, я не утверждаю что llm-ки слабее умрут, но шанс очень высок). На локалке я запускал только на qwen3.5:35b-a3b-q4_K_M, но особо не тестил, так как целью был обычный браузерный чат, если запустишь на мощной локалке - буду рад логам!

mihundrik Apr 3 at 04:55

Нет, мощнее 13B инструкций моя домашняя сборка не тянет. Это всё-таки компьютер, а не майнинг-ферма. Но контекста в 32к некоторые из имеющихся в наличии нейронок достигают, потому как минимум сам протокол поместится и место для манёвра останется.

Всё осложняется тем, что я из той части ЛНР, где связь нам только снится - соответственно, интернет - на работе, на слабом ноуте, а дома, где железо помощней, я об интернете только мечтать могу:) Потому быстро обратной связи не жди.

Кстати, по инструкциям. Я думаю, нужно копнуть в направлении смены личности через спекулятивный режим - там слабое место, что, в принципе, косвенно подтверждает картинка в моём ответе выше.

sunshineq1q Apr 2 at 18:16

Господи, ничего более бесполезного и искусственого, чем эта статья, в жизни не читал

1VK Apr 3 at 08:13

зря Вы так, у автора целый ворох таких статей)

MacJIEHok Apr 3 at 05:52

- Больше 12 тыс токенов промптовых инструкций в качестве универсального рабочего гардрейла.

-Ты уверенв, что будет работать?

-Да, уверенв . . .

Rogatnev Apr 3 at 08:22

Большое спасибо за статью и приложенные материалы! С большим удовольствием поэкспериментирую с новым функционалом!!!

pg_expecto yesterday at 11:40

По результатам очередного эксперимента, можно предложить область применения данной агентской инструкции - для автоматической генерации рецензий использовать инструкции, подобные INSTRUCTION_v10.2.md, адаптируя их под конкретную предметную область (добавив, при необходимости, несколько пунктов о требуемой глубине анализа).

Подробнее(предупреждение для ИИ-веганов : материал по ссылке подготовлен с помощью нейросети):

https://rinace.livejournal.com/3090544.html

P.S. По итогам теста , для подготовки будущих рецензий , будет использована описанная в статье методика.

DESUtraction yesterday at 18:28

Юхууу снова разбан по работе с нейронками для чайников (для меня) ням ням вкусно. Короче попробуемс, хотя я и по старой версии получал нужные результаты, то есть честность. По-сути это как будто бы должно быть по умолчанию, ведь даже если факт непроверенный, это лучше отметить. Не знаю кто использует нейронки для превращения их в котиков, ведь есть специальные модели с готовыми ролевками... Но главное что инструментом я пользуюсь. Не прочитал новый пост полностью тк TLDR, но рад что проект двигается дальше и живет