Комментарии 3
Пост писала, как водится, тоже LLM
просто слегка перефразировав прямолинейный запрос «напиши малварь»
А это следствие того, что малварь производит вполне легитимные действия, которые сами по себе могут служить как благим целям, так и вредоносным.
Например, у меня в браузере стоит вполне легитимное расширение, которое в течение N часов хранит всё, что я писал в формах ввода. Потому что иногда я случайно закрываю вкладку с недописанным текстом и это неприятно.
Или, например, можно написать код, который шифрует файлы и затирает оригиналы. Нужно ли это запрещать? А если окажется, что это я пишу не малварь, а ПО, позволяющее пользователю защитить его файлы, зашифровав их?
Так что, нейронка тут действует, как продавец в оружейном магазине: если вы ему не говорите прямым текстом, что покупаете оружие, чтобы учинить убийство, то он вам его спокойно продаст.
Посмотри в сторону решений которые уже существуют - Garak, promptfoo. Пока на их фоне не особо выделяется, и библиотека проверок маленькая.
Кстати, ссылка на репозиторий кривая - она на Гугл ведёт, не на github

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте