Обновить

Комментарии 7

Вы подразумеваете, что глобальная цель‑то задана — ответ в формате JSON, и значит эта фраза должна быть в поле «ans». Но! Модель с большой долей вероятности это проигнорирует и исполнит вашу просьбу, сгенерировав простой текст.

В реальной жизни, модель может наткнутся на что-то отдаленно напоминающее вопрос в обрабатываемом тексте и бросится на него отвечать, наплевав и на json-формат и на промт вообще.

Это и имелось ввиду.

Хотя поведение не устойчивое все таки в этом случае, и зависит от модели и от промпта. Может и просто текст сгенерировать, но может и в JSON обернуть. И в этом основная проблема, на мой взгляд.

НЛО прилетело и опубликовало эту надпись здесь

Протоколы... Протокол системный, протокол взаимодействия, протокол формата ввода/вывода, заставляйте перечитывать модель в каждом ответе. Это не спасет на 100% но сильно поможет. И постоянные ретроспекции .

Спасибо за статью, их пдф грузился целую вечность. Вроде бы текст свежий, но ощущается, что обсуждается LLM без слоя пост-тренинга и продакшен-сэйфти. Ахмед (автор) почему-то совсем забыл, что прямо сейчас идёт явное обучение моделей учитывать и корректировать потенциально опасные выводы (особенно после того, как на Open AI подали в суд из-за суицида подростка, который самовыпилился, и GPT ему «помогал» вязать крепкий узелок верёвки (ну или по крайней мере, как-то способствовал подготовке)). 

Короче, сейчас во всю катают протоколы безопасности — обучаемую модель ограничений безопасности, которая (как бы) должна действовать в представлении модели, выявлять области безопасного и небезопасного поведения. Это делается не промптом, естественно, — через сэйфти-политики, которые обучаются для ловли и коррекции аутпутов + внутренние параметры, которые опять-таки должны отклонять вредоносные запросы и безопасно реагировать (в gpt есть, я тестила).  Получается, фильтр на выходе или система раннего предупреждения + огромный комплекс мер, действующий от подготовки данных до финалки (выравнивание, редач моделей, методы безопасности как часть процесса обучения настройки: RLHF/RLAIF, сейфти-датасеты, policy-обучения, отказники/коррекция траекторйи). 

Надеюсь, что работает это всё на уровне, когда разрабы пишут фильтры и ещё интегрируют безопасность в сам процесс обучения и архитектуру модели, включая механизмы (распределения) внимания и внутрянку. 

Типа, юзают методы, вносящие корректировки в… веса модели для того, чтобы она с большей вероятностью отвергала опасные запросы и держала фокус на безопасном поведении, короче, перераспределяла логиты/софтмакс при какой-нибудь триггерной фигне (изменение распределений активаций, усиление вероятностей отказов, перевес логитов в сторону безопасных токенов, но, безусловно, веса никто напрямую править под каждый запрос не будет, просто через дообучение будут формировать предпочтительное поведение в инференсе).

Спасибо за комментарий, абсолютно точно и по делу всё сказано!

При этом все safety-механизмы, на мой взгляд, не решают проблему. Основная проблема даже не в распознавании риска, с этим модели часто справляются, а в том, удерживается ли основной интент как инвариант диалога.

Если точнее, то модели нередко пытаются это делать, но сегодня это поведение крайне нестабильно. В одних сценариях интент действительно влияет на ответ, в других — полностью игнорируется, особенно на практике и особенно в open source моделях.

Именно эту нестабильность и архитектурное ограничение, как мне кажется, статья и пытается зафиксировать.

Увы, пока не интегрируют считывание физиологических маркеров, намерение собеседника в NLP очень сложно обозначить, даже если прокачают эту фишку (чем бы то ни было: хоть распределением внимания, хоть сэйфти-политиками, хоть замудрёнными CoT с психоанализом). Но даже тогда, мне кажется, никто не даст стопроцентной гарантии.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации