Обновить

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.6K
Всего голосов 5: ↑4 и ↓1+4
Комментарии3

Комментарии 3

Пост писала, как водится, тоже LLM

просто слегка перефразировав прямолинейный запрос «напиши малварь»

А это следствие того, что малварь производит вполне легитимные действия, которые сами по себе могут служить как благим целям, так и вредоносным.

Например, у меня в браузере стоит вполне легитимное расширение, которое в течение N часов хранит всё, что я писал в формах ввода. Потому что иногда я случайно закрываю вкладку с недописанным текстом и это неприятно.

Или, например, можно написать код, который шифрует файлы и затирает оригиналы. Нужно ли это запрещать? А если окажется, что это я пишу не малварь, а ПО, позволяющее пользователю защитить его файлы, зашифровав их?

Так что, нейронка тут действует, как продавец в оружейном магазине: если вы ему не говорите прямым текстом, что покупаете оружие, чтобы учинить убийство, то он вам его спокойно продаст.

Посмотри в сторону решений которые уже существуют - Garak, promptfoo. Пока на их фоне не особо выделяется, и библиотека проверок маленькая.

Кстати, ссылка на репозиторий кривая - она на Гугл ведёт, не на github

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации