И да, вывод из статьи: если в промпте мелькнут слова, связанные с нежелательными паттернами, которые пытались скрыть или удалить из LLM, вероятность их проявления в ответе существенно выше нуля. Поэтому, джейлбрейки работают. Пока основной способ борьбы с ними это не учить модель плохому. )
Сублиминальное обучение и инерция весов: Почему нейросети помнят то, что должны были забыть