urassl Jun 19 at 10:35

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Medium

3 min

2.3K

Machine learning * Information Security *

Comments 3

Byaka8kaka Jun 19 at 11:35

Возможно тут даже и не надо вписывать весь бекдор, или писать его в верном порядке - LLM все равно может среагировать на него.
Есть такое ощущение что это не единственный бэкдор который может быть в LLM. Недавно читал пост, где LLM распознающая картинки при изменении 1 пикселя - ошибается в ответе. Но она может точно так-же при получении N каких-то определенных пикселей определенных цветов выдать любую информацию, при правильном обучении. И такое обнаружить еще сложнее как мне кажется.

urassl Jun 20 at 03:43

Всё верно, бекдор можно встроить в любой тип входа - и в картинку, и в звук. Более того, модель может начать сливать информацию незаметно, добавляя небольшие искажения к выходной картинке или звуку. Их будет сложно обнаружить, лаже если пристально изучать вход и выход. Т.е. голосовой помощник с этой точки зрения особенно опасен.

ToniDoni Jun 22 at 10:59

Автор забыл, что надо ещё предобучить самому тоже. А то вдруг там в претрейне бэгдоры были.