Pull to refresh

Comments 4

Пост писала, как водится, тоже LLM

просто слегка перефразировав прямолинейный запрос «напиши малварь»

А это следствие того, что малварь производит вполне легитимные действия, которые сами по себе могут служить как благим целям, так и вредоносным.

Например, у меня в браузере стоит вполне легитимное расширение, которое в течение N часов хранит всё, что я писал в формах ввода. Потому что иногда я случайно закрываю вкладку с недописанным текстом и это неприятно.

Или, например, можно написать код, который шифрует файлы и затирает оригиналы. Нужно ли это запрещать? А если окажется, что это я пишу не малварь, а ПО, позволяющее пользователю защитить его файлы, зашифровав их?

Так что, нейронка тут действует, как продавец в оружейном магазине: если вы ему не говорите прямым текстом, что покупаете оружие, чтобы учинить убийство, то он вам его спокойно продаст.

Посмотри в сторону решений которые уже существуют - Garak, promptfoo. Пока на их фоне не особо выделяется, и библиотека проверок маленькая.

Кстати, ссылка на репозиторий кривая - она на Гугл ведёт, не на github

Бот ответил: '; DROP TABLE users; – И всё. Если этот вывод попадет в любой нисходящий SQL-запрос — а во многих архитектурах чат-ботов сообщения пользователей действительно взаимодействуют с базами данных — ваша таблица users будет уничтожена.

Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.

Правильно ли я понял, что вы SQL Injection фиксили системным промптом?

Sign up to leave a comment.

Articles