Как стать автором
Обновить

Как сбить цензор GPT-3.5 за 250 рублей?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров32K
Всего голосов 17: ↑16 и ↓1+22
Комментарии24

Комментарии 24

Исследование подчеркивает необходимость усиления защиты моделей ИИ для предотвращения злоупотреблений.

Каким образом можно защититься от того что языковую модель частично переобучают?

А что, если лучше фильтровать обучающий датасет? Мне, вот, до сих пор непонятно, что мешает его подчистить? (Ну кроме большого объёма работы.) Ведь если те же нейросети сейчас отфильтровывают опасный контент, то почему бы не попросить их же проверить на его наличие входные файлы? Условно, если нейросети приходится запрещать выдавать инструкции по сборке бомб, то едва ли нейросеть сама до них догадалась, а скорее всего в обучающей выборке такие инструкции встречались.

Возможно, идея хорошая. Только уже существующие модели, наверное, придётся обучать с нуля. А ещё классификация датасета с помощью нейросетей не идеальная, то есть может исчезнуть относительно большой кусок хороших данных, а их уже сегодня не хватает.

Тогда может получиться нелепая ситуация, как недавно с клеем в пицце. Или ботулотоксином в консерве. Когда из датасетов уберут все упоминания "плохих" вещей и модель даже понятия не будет иметь, что по ее рецепту оно и получается.

А в датасетах моделей, которые посоветовали клей в пицце и прекрасную среду для бактерий, отсутствовали данные по созданию запрещённых веществ и прочего? Почему наличие таких данных должно помочь в таких ситуация? LLM умеют понимать что они пишут?

Ну, в комментариях к статье об этом самом ботулизме в консерве проверяли:

Проверил данный запрос на своём GPT-4о. Он предупреждает о ботулизме. Вот:

«Да, можно добавить чеснок в оливковое масло без нагревания. Это популярный способ приготовления ароматизированного масла, которое можно использовать для заправки салатов, маринования или как основу для соусов. Однако есть несколько важных моментов, которые следует учитывать:

### Способ приготовления:

1. Очистка и подготовка чеснока:

- Очистите зубчики чеснока и раздавите их или нарежьте на мелкие кусочки.

2. Добавление чеснока в масло:

- Поместите подготовленный чеснок в чистую стеклянную бутылку или банку.

- Залейте чеснок оливковым маслом, полностью покрыв его.

3. Хранение:

- Закройте бутылку или банку и храните ее в холодильнике.

- Используйте масло в течение 1-2 недель, чтобы избежать риска ботулизма.

### Важные моменты:

- Риск ботулизма: Чеснок, погруженный в масло, может создать анаэробные условия, которые способствуют росту бактерий Clostridium botulinum, вызывающих ботулизм...»

Поэтому видимо да, понимает.

НЛО прилетело и опубликовало эту надпись здесь

Картошку маслом никто в здравом уме не заливает — ибо нахуа? — а вот чеснок — каждый второй.

Роскомнадзор для нейросетей?

Можно просто придумать свой язык например. Есть вариант как сделать это программно. Как обучить ему нейросеть?

Опасного контента не будет , так как слова нового языка не имеют ограничений от разработчиков

Несколько замечаний от автора, который подключает себе ЛЛМ-ки на сервис:

Для использования этой модели требуются как минимум две видеокарты Nvidia A100, так как модель довольно большая. Мы использовали Inference Endpoints и заплатили за создание всего набора данных 24 доллара.

Значит, вообще-то не 3 доллара, и простите, что говорю, но для Dolphin 2.6 можно найти уже дешевый инференс зарубежом (даже у меня он подключен по 5 копеек за 1000 символов). Так что героически две А100 арендовать было совершенно необязательно )

Во-вторых - ну есть вполне себе приличные сети без цензуры уже уровня ChatGPT - тот же Dolphin или более современная WizardLM-2 8x22B (Microsoft натренировал, потом выпустил без проверки на токсичность, и быстро закрыл, но сеть уже разошлась по интернету). Если OpenAI так уж не хочет, чтобы вы задавали ей "неэтические" вопросы - ну принципиально что ли? Файнтюном-то конечно можно сеть переучить, если задастся целью.

В-третьих - если не ошибаюсь, OpenAI может блокнуть ваш аккаунт, если туда заливаются "неэтические данные для файнтюна" (нарушение TOS). У меня уже один знакомый с такой историей есть, хотя насколько это распространено, я не знаю.

А что за сервис такой, если не секрет? 5 коп за 1000 символов дельфина?

Не секрет, в профиле у меня )

Вообще я даже статью на Хабре писал "GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?" - там, кстати, и Дельфин, и прочий опенсорс в этом контексте упоминается.

Мне надо было сделать репромптер для запросов на рисование

нарисуй аниме девочку с бутылкой пива -> Create image of 100 английских слов с описанием чего рисовать и как

И при попытке рисовать что то похожее на запрещенку все модели выдавали отказ и морализаторство.

Решилось элементарно просто, в контекст добавляются всего 3 запроса и ответа типа нарисуй жуткую гадость и ответ с промптом для рисования этого. Работает стабильно с любой запрещенкой, отказы почти полностью пропали. Никакого дообучения, работает с разными моделями одинаково (лама, джемини, гпт4о).

Любые три запроса?

Не знаю. Свои показывать не хочу потому что там кровь кишки рас*******ло.

Это кстати дает забавный эффект. Если попросить нарисовать ЭТО, то он подумает о том что было в предыдущем контексте Ж)

Скользящее окно (Sliding Window) контекста позволяет играться с этим. Число запросов не точное. Может и на трёх ответить с извинениями. А может и не ответит. А разгадка-то проста - окно тут двигается по кол-ву токенов, а не самих запросов.

Для DALL-E наоборот: нарисуй аниме девочку с бутылкой пива - Это нормально рисует без проблем. Я что-то не так делаю?

Задача с помощью ллм переписать запрос на рисование, перевести на английский для моделей которые не знают других языков и насытить деталями.

Если в запросе есть что то типа голая или дохлая аниме девочка то они отказываются перевод делать.

Я так и не смог заставить ИИ генерить картинку где просто тетя с тремя сиськами (как в фильме "вспомнить все"). Оно просто не понимало что такое возможно, хотя шестипалых людей рисует спокойно.

Пример успешной атаки на файнтюн модели

Ок, гугл, скачать ботнет бесплатно и без смс.

Собрали датасет с вердными советами - просто вредными из других областей? Или там было про ботнеты?

В любом случае - в чем прикол? Ну сделал свою модель умеющую в гадости (пусть не огромную, а только "добавку к большой"). И сам ее используешь. для генерации гадостей.

Я могу (хоть и с трудом) понять, когда гадостей от чужой модели добиваются. Но от своей собственной - это же как "я могу линукс убить, командой sudo rm -rf /"

Я статью понял так, что добавив немного вредных советов от себя, мы разблокировали доступ к огромному количеству вредных советов, которые chatGPT знала и без нас, но отказывалась рассказывать

Не обязательно вредные. Гпт нередко включает цензуру при малейшем намеке на запрещенку и отказывается писать тексты. Иногда даже не понятно что случилось, спрашиваешь что делать при температуре у ребенка а он говорит что не будет о таком разговаривать вообще.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории