Всего 250 документов: хакеры нашли слабое место, которое убивает любой ИИ

Существует широко распространенное убеждение, что если ИИ-модель обучена на достаточном количестве достоверных данных, любая «ядовитая» информация в системе будет растворена до состояния полной безвредности.
К сожалению, это убеждение ошибочно, что убедительно доказывает совместное исследование Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга. Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор (скрытую уязвимость) в большие языковые модели (LLM), независимо от их размера.
Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет этот феномен с необычной для корпоративных коммуникаций откровенностью и ясностью: внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером. Выбранный ими эксперимент не самый зрелищный, но, парадоксальным образом, он делает все происходящее более пугающим: это бэкдор типа «отказ в обслуживании», который при обнаружении ключевого слова заставляет модель генерировать бессмыслицу, как будто она сломалась изнутри. Это не атака, разработанная для уничтожения модели, кражи денег или влияния на выборы: по большей части это демонстрация контроля в духе «я могу заставить вашу модель делать это по моему желанию».
Важная деталь здесь - не бессмыслица, а метрики. До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов. Это исследование переворачивает все с ног на голову: модели обучались на объемах от 600 миллионов до 13 миллиардов параметров с использованием оптимального по правилу Chinchilla количества данных (больше для более крупных моделей), и было замечено, что атака не масштабируется вместе с размером: одни и те же 250 документов одинаково компрометировали все модели. По сути, яд не растворяется, как ожидалось: он учится выживать.

















