Обновить

Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели8.2K
Всего голосов 2: ↑1 и ↓10
Комментарии4

Комментарии 4

"LLM раскусил ROT13-джейлбрейк." Это хорошая новость. Плохая: значит, LLM читает смысл, а не буквы – и однажды найдётся джейлбрейк, который смысл скрывает, но токены пропускает. Безопасность через непонимание – не защита, а гонка вооружений, в которой у атакующего неограниченное время на эксперименты.

согл, мне кажется за смыслами это к Лекуновской JEPA, я правда думал H-JEPA для архитектуры БД попробовать поюзать, но видимо можно и в ту сторону посмотреть

JEPA работает в пространстве смыслов – именно то, что нужно против обфускации. Вопрос только в том, насколько быстро атакующий научится говорить на том же языке.

я не про в защите, но это же вроде гонка вооружений, сначала придумывают способ взломать потом защиту и так до бесконечности

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации