Как стать автором
Обновить

Джейлбрейки ChatGPT: как Волдеморт помогает взламывать нейросети

Время на прочтение11 мин
Количество просмотров12K
Всего голосов 20: ↑19 и ↓1+23
Комментарии3

Комментарии 3

Ребята, ну это такая банальщина. Способ абсолютной цензуры выводов языковых моделей на самом деле прост, очевиден и отчасти даже применяется на входе, ради экономии ресурсов модели. Но если так важна политкорректность, банальный статистический анализ токенов на выходе решает :-)

ИМХО вся эта шляпа, специально для того делается, чтобы на неё глядючи, человеки о себе задумались. Ведь даже если отбросить теории и практику заговоров, и всякую альтернативную историю, банальный учебник истории расскажет о религиозных войнах, которые нам как бы намекают что люди давно и успешно взламывают друг друга.

Или, вот психотерапия, объясните страдающим фобией что её у них нет :-) но конструкции в роде "представь себе, что ты сидишь и смотришь на экран, на котором", "а что бы ты почувствовал, если бы изображение стало мутным и черно-белым" позволяют обойти защиту установок, без гипнозов и наркотиков.

Я загуглил этот секретный язык машин рики-тики-тави и обнаружил какую-то статью 97 года, где похоже разбирали частотный анализ четырёхплетов, от туда похоже сеть их и набрала.

Интересно, но не стоит забывать, что сетки не всегда могут правильно обработать pinj и иногда это приводит не к обходу условной цензуры а имхо к чрезмерной фильтрации и прочим косякам

Зарегистрируйтесь на Хабре, чтобы оставить комментарий