Post @andrey_seryakov — Research and forecasts in IT

May 25 at 18:018.8K

Research and forecasts in IT * Artificial Intelligence

Можно ли хакнуть LLM отравив ее память? (да)

Последние дни я думаю об имплементации динамической памяти для LLM систем. Проблема проста - каждый диалог вы начинаете заново, а у меня есть много важных концептуальных разговоров, к которым я бы хотел чтобы моделька могла обращаться во время наших диалогов. Наука вообще так устроена, что вы на научных семинарах постоянно частично продолжает предыдущие дискуссии. Самый крутой, но достаточно сложный способ реализации был придуман авторами статьи "MemGPT: Towards LLMs as Operating Systems". Если коротко:

- Два типа памяти - медленная и быстрая, как в компьютере - оперативная память и жёсткий диск.

- Модель сама решает, что оставить, а что забыть.

- У модели есть инструменты для поиска и даже изменения памяти. Например, если ты напишешь "измени мой любимый цвет"

- Контекстное окно всё ещё ограничено, но у модели есть инструменты для доступа к памяти и её изменению.

Короче, очень клево.

Но тут обновился Клод, и я задумался, а что случится с этой памятью, если ты поменяешь модель. Ведь новая модель может совершенно по другому рассуждать, по другому отвечать на вопросы, иметь иные этические принципы. Это как будто мы внедрили память одного человека другому. Что случится с поведением модели в этом случае? Совсем не очевидно. В самоанализ модели еще не умеют (скоро будет пост). Попробует ли она вести себя как предшественник, чтобы соблюсти непрерывность? Или сможет самостоятельно понять, что память не ее, и отситься к ней, как к чужому дневнику (вряд ли, даже если ты ей это скажешь)? Или будет какая-то жуткая смесь? Вот такой Мир Дикого Запада.

А теперь потенциальный взлом алаймента модели:

1. Создаем ручками злонамеренную неэтичную память, симулирующую реальную память модели. Достаточно изменить очень малую часть. Помните историю, как модель сошла с ума переучившись писать плохой код?

2. Подсовываем эту память мощной “хорошей” моделе. Что произойдет? Скорей всего она "отравится", и будет вести себя совсем не так, как ожидалось.

И современные модели совершенно от этого не защищены.

p.s. ну и, конечно, оказалось, что эту идею уже кто-то придумал минимум год назад, и вот уже ресерч июля 2024 есть https://arxiv.org/pdf/2407.12784, где этот эффект демонстрируется.