victor_shev8927 дек 2025 в 16:01

LLM не понимает намерение пользователя?

Простой

4 мин

9.3K

Искусственный интеллектМашинное обучение *

Аналитика

Комментарии 7

DarkV 27 дек 2025 в 16:29

Вы подразумеваете, что глобальная цель‑то задана — ответ в формате JSON, и значит эта фраза должна быть в поле «ans». Но! Модель с большой долей вероятности это проигнорирует и исполнит вашу просьбу, сгенерировав простой текст.

В реальной жизни, модель может наткнутся на что-то отдаленно напоминающее вопрос в обрабатываемом тексте и бросится на него отвечать, наплевав и на json-формат и на промт вообще.

victor_shev89 27 дек 2025 в 16:35

Это и имелось ввиду.

Хотя поведение не устойчивое все таки в этом случае, и зависит от модели и от промпта. Может и просто текст сгенерировать, но может и в JSON обернуть. И в этом основная проблема, на мой взгляд.

НЛО прилетело и опубликовало эту надпись здесь

evsom 28 дек 2025 в 10:28

Протоколы... Протокол системный, протокол взаимодействия, протокол формата ввода/вывода, заставляйте перечитывать модель в каждом ответе. Это не спасет на 100% но сильно поможет. И постоянные ретроспекции .

II_shnitsa 30 дек 2025 в 18:21

Спасибо за статью, их пдф грузился целую вечность. Вроде бы текст свежий, но ощущается, что обсуждается LLM без слоя пост-тренинга и продакшен-сэйфти. Ахмед (автор) почему-то совсем забыл, что прямо сейчас идёт явное обучение моделей учитывать и корректировать потенциально опасные выводы (особенно после того, как на Open AI подали в суд из-за суицида подростка, который самовыпилился, и GPT ему «помогал» вязать крепкий узелок верёвки (ну или по крайней мере, как-то способствовал подготовке)).

Короче, сейчас во всю катают протоколы безопасности — обучаемую модель ограничений безопасности, которая (как бы) должна действовать в представлении модели, выявлять области безопасного и небезопасного поведения. Это делается не промптом, естественно, — через сэйфти-политики, которые обучаются для ловли и коррекции аутпутов + внутренние параметры, которые опять-таки должны отклонять вредоносные запросы и безопасно реагировать (в gpt есть, я тестила). Получается, фильтр на выходе или система раннего предупреждения + огромный комплекс мер, действующий от подготовки данных до финалки (выравнивание, редач моделей, методы безопасности как часть процесса обучения настройки: RLHF/RLAIF, сейфти-датасеты, policy-обучения, отказники/коррекция траекторйи).

Надеюсь, что работает это всё на уровне, когда разрабы пишут фильтры и ещё интегрируют безопасность в сам процесс обучения и архитектуру модели, включая механизмы (распределения) внимания и внутрянку.

Типа, юзают методы, вносящие корректировки в… веса модели для того, чтобы она с большей вероятностью отвергала опасные запросы и держала фокус на безопасном поведении, короче, перераспределяла логиты/софтмакс при какой-нибудь триггерной фигне (изменение распределений активаций, усиление вероятностей отказов, перевес логитов в сторону безопасных токенов, но, безусловно, веса никто напрямую править под каждый запрос не будет, просто через дообучение будут формировать предпочтительное поведение в инференсе).

victor_shev89 31 дек 2025 в 01:45

Спасибо за комментарий, абсолютно точно и по делу всё сказано!

При этом все safety-механизмы, на мой взгляд, не решают проблему. Основная проблема даже не в распознавании риска, с этим модели часто справляются, а в том, удерживается ли основной интент как инвариант диалога.

Если точнее, то модели нередко пытаются это делать, но сегодня это поведение крайне нестабильно. В одних сценариях интент действительно влияет на ответ, в других — полностью игнорируется, особенно на практике и особенно в open source моделях.

Именно эту нестабильность и архитектурное ограничение, как мне кажется, статья и пытается зафиксировать.

II_shnitsa 3 янв в 11:17

Увы, пока не интегрируют считывание физиологических маркеров, намерение собеседника в NLP очень сложно обозначить, даже если прокачают эту фишку (чем бы то ни было: хоть распределением внимания, хоть сэйфти-политиками, хоть замудрёнными CoT с психоанализом). Но даже тогда, мне кажется, никто не даст стопроцентной гарантии.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий