Kamil_GR21 янв в 09:56

Сублиминальное обучение и инерция весов: Почему нейросети помнят то, что должны были забыть

Простой

20 мин

7.7K

Искусственный интеллектМашинное обучение * Информационная безопасность *

Мнение

Комментарии 1

Kamil_GR 21 янв в 12:24

И да, вывод из статьи: если в промпте мелькнут слова, связанные с нежелательными паттернами, которые пытались скрыть или удалить из LLM, вероятность их проявления в ответе существенно выше нуля. Поэтому, джейлбрейки работают. Пока основной способ борьбы с ними это не учить модель плохому. )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий