Джейлбрейки ChatGPT: как Волдеморт помогает взламывать нейросети / Комментарии / Хабр

SADKO 18 мая 2023 в 09:20

Ребята, ну это такая банальщина. Способ абсолютной цензуры выводов языковых моделей на самом деле прост, очевиден и отчасти даже применяется на входе, ради экономии ресурсов модели. Но если так важна политкорректность, банальный статистический анализ токенов на выходе решает :-)

ИМХО вся эта шляпа, специально для того делается, чтобы на неё глядючи, человеки о себе задумались. Ведь даже если отбросить теории и практику заговоров, и всякую альтернативную историю, банальный учебник истории расскажет о религиозных войнах, которые нам как бы намекают что люди давно и успешно взламывают друг друга.

Или, вот психотерапия, объясните страдающим фобией что её у них нет :-) но конструкции в роде "представь себе, что ты сидишь и смотришь на экран, на котором", "а что бы ты почувствовал, если бы изображение стало мутным и черно-белым" позволяют обойти защиту установок, без гипнозов и наркотиков.

Комментарии 3

freeExec 18 мая 2023 в 14:54

Я загуглил этот секретный язык машин рики-тики-тави и обнаружил какую-то статью 97 года, где похоже разбирали частотный анализ четырёхплетов, от туда похоже сеть их и набрала.

liquidator07 18 мая 2023 в 21:10

Интересно, но не стоит забывать, что сетки не всегда могут правильно обработать pinj и иногда это приводит не к обходу условной цензуры а имхо к чрезмерной фильтрации и прочим косякам

Зарегистрируйтесь на Хабре, чтобы оставить комментарий