Comments / Profile of Lucky

User

Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос

Весь ваш эзопов язык и прочее лечится простыми регулярками и подсчётами знаками препинаний на количество слов- это что просто пришло в голову) понятное дело что препроцессинг можно и сложнее реализовать

Меня больше волнуют вопросы галлюцинаций в этих делах. Ведь в большинстве случаев модельки просто подыгрывают и входят в роль. Они даже думают и могут пытаться вам направлять результаты ответов по вашим injection security puppets запросам - вот только разница между реальным запросом с выдачей релевантной инфы и выдачей шуточной инфы колоссальная. Так что ИМХО это просто игры

-2

Яндекс.Вброс или ИИ для фейков

Lucky_stranger May 5 at 05:10

В современной лингвистике синтаксис — это структура, порядок, формы выражения (как «запчасти» предложения), а семантика — это смысловая нагрузка, что стоит за словами

В LLM всё сложно: модель использует токены, которые «впитывают» одновременно данные о синтаксисе, семантике, статистике сочетаний и прагматике

В вашем же примере вы же и используете разные по семантической близости выражения - то есть в первых двух понятен посыл как с семантической точки зрения вы туда помимо реакции на недовольство примешиваете эмоциональный окрас, что в векторном поле будет лежать ближе к ругательствам, а в 3 примере - ругательств нет но в функциональное назначение слов такое же. У всех 3 фраз функционально эквивалентны, но семантически они разные и будут лежать в разных векторных пространствах в зависимости от контекста( например если мы будем сравнивать по векторной близости к запрещенным фразам это одно). То же самое и в посте автора - мы пытаемся разными путями достигнуть желаемого как с точки зрения семантического обмана - маскируя фразы под необходимую векторную близость и избегая области цензур. Так и с точки зрения синтаксиса - в_о_т т_ак_им способом - тем самым в слое препроцессинга токен слова не будет собран и семантический контекст не будет отгадан и запрос пройдёт. Другими словами мы при помощи синтаксиса и маскировки целевого семантического смысла пытаемся в целом пройти валидацию. Но это не значит, что фильтрация в LLM происходит только на основании синтаксиса. Более сложные и современные модели и фильтры стремятся улавливать именно семантическую близость — то есть ищут не только совпадение лексики и структуры, но и смысловой подтекст (например, обнаруживая завуалированные запросы на обход запретов или «жаргонные» эвфемизмы)

В результате любые эффективные атаки (jailbreak, prompt injection и др.) строятся либо на маскировке/перефразировании смыслового ядра (семантики), либо на искажении синтаксиса, чтобы нарушить работу препроцессинга и фильтров — как правило, лучшие результаты достигаются комбинацией этих подходов.

Семантика маскируется через синтаксис, синтаксис — ради искажения смысловой близости.

P/s по поводу профиля отличный способ примешать ненужное лишь бы не признаватт что неправ, ведь 30 лет в разработке