Обновить

Сублиминальное обучение и инерция весов: Почему нейросети помнят то, что должны были забыть

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели7.2K
Всего голосов 5: ↑4 и ↓1+4
Комментарии1

Комментарии 1

И да, вывод из статьи: если в промпте мелькнут слова, связанные с нежелательными паттернами, которые пытались скрыть или удалить из LLM, вероятность их проявления в ответе существенно выше нуля. Поэтому, джейлбрейки работают. Пока основной способ борьбы с ними это не учить модель плохому. )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации