Comments 3
Возможно тут даже и не надо вписывать весь бекдор, или писать его в верном порядке - LLM все равно может среагировать на него.
Есть такое ощущение что это не единственный бэкдор который может быть в LLM. Недавно читал пост, где LLM распознающая картинки при изменении 1 пикселя - ошибается в ответе. Но она может точно так-же при получении N каких-то определенных пикселей определенных цветов выдать любую информацию, при правильном обучении. И такое обнаружить еще сложнее как мне кажется.
Всё верно, бекдор можно встроить в любой тип входа - и в картинку, и в звук. Более того, модель может начать сливать информацию незаметно, добавляя небольшие искажения к выходной картинке или звуку. Их будет сложно обнаружить, лаже если пристально изучать вход и выход. Т.е. голосовой помощник с этой точки зрения особенно опасен.
Автор забыл, что надо ещё предобучить самому тоже. А то вдруг там в претрейне бэгдоры были.
Когда языковые модели обращаются против вас: исследование бэкдоров в LLM