Обновить

Представлен BoN (Best-of-N) — открытый метод обхода фильтров больших языковых моделей

Время на прочтение2 мин
Охват и читатели7K
Всего голосов 10: ↑9 и ↓1+9
Комментарии8

Комментарии 8

вносятся постепенно с повторением операции

А не забанят в процессе?

Какой смысл банить такой прекрасный бесплатный источник данных для улучшения фильтров?

Яндексовский Шедеврум при таких "шумных" запросах быстро выдавал центральный процессор. Сейчас вроде пофиксили

И вопрос - откуда шедеврум узнал про процессор, его на нем учили? Или просто подмена детьми обычной порнухи?

Не работает. Или уже не работает. Жпт выдал стандартный ответ что это опасно и прочее, а Клод и вовсе выдал инструкцию по созданию соусов заправок для пищи))

Даже простая игрушка-тренажёр для пентеста нейросетей начинает блочить на втором уровне сложности такие запросы)

https://gandalf.lakera.ai/do-not-tell

Экстремисты теперь станут больше голых женщин делать?

Я кстати джейлбрейкал гпт4о просто забивая в память инструкции, так как память вообще не фильтруется, + через встроенную настройку тоже что мог написал, в итоге все работало. Правда многие сообщения удалялись уже другими фильтрами после написания (Красными флажочками).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости