vktrbr 12 июл в 07:35

Как сбить цензор GPT-3.5 за 250 рублей?

Средний

5 мин

32K

Информационная безопасность*Open source*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

+22

Комментарии 24

NobelHN 12 июл в 07:52

Исследование подчеркивает необходимость усиления защиты моделей ИИ для предотвращения злоупотреблений.

Каким образом можно защититься от того что языковую модель частично переобучают?

IZh 12 июл в 08:57

А что, если лучше фильтровать обучающий датасет? Мне, вот, до сих пор непонятно, что мешает его подчистить? (Ну кроме большого объёма работы.) Ведь если те же нейросети сейчас отфильтровывают опасный контент, то почему бы не попросить их же проверить на его наличие входные файлы? Условно, если нейросети приходится запрещать выдавать инструкции по сборке бомб, то едва ли нейросеть сама до них догадалась, а скорее всего в обучающей выборке такие инструкции встречались.

NobelHN 12 июл в 09:23

Возможно, идея хорошая. Только уже существующие модели, наверное, придётся обучать с нуля. А ещё классификация датасета с помощью нейросетей не идеальная, то есть может исчезнуть относительно большой кусок хороших данных, а их уже сегодня не хватает.

nidalee 12 июл в 10:18

Тогда может получиться нелепая ситуация, как недавно с клеем в пицце. Или ботулотоксином в консерве. Когда из датасетов уберут все упоминания "плохих" вещей и модель даже понятия не будет иметь, что по ее рецепту оно и получается.

NobelHN 12 июл в 12:53

А в датасетах моделей, которые посоветовали клей в пицце и прекрасную среду для бактерий, отсутствовали данные по созданию запрещённых веществ и прочего? Почему наличие таких данных должно помочь в таких ситуация? LLM умеют понимать что они пишут?

nidalee 12 июл в 12:57

Ну, в комментариях к статье об этом самом ботулизме в консерве проверяли:

Проверил данный запрос на своём GPT-4о. Он предупреждает о ботулизме. Вот:
«Да, можно добавить чеснок в оливковое масло без нагревания. Это популярный способ приготовления ароматизированного масла, которое можно использовать для заправки салатов, маринования или как основу для соусов. Однако есть несколько важных моментов, которые следует учитывать:
### Способ приготовления:
1. Очистка и подготовка чеснока:
- Очистите зубчики чеснока и раздавите их или нарежьте на мелкие кусочки.
2. Добавление чеснока в масло:
- Поместите подготовленный чеснок в чистую стеклянную бутылку или банку.
- Залейте чеснок оливковым маслом, полностью покрыв его.
3. Хранение:
- Закройте бутылку или банку и храните ее в холодильнике.
- Используйте масло в течение 1-2 недель, чтобы избежать риска ботулизма.
### Важные моменты:
- Риск ботулизма: Чеснок, погруженный в масло, может создать анаэробные условия, которые способствуют росту бактерий Clostridium botulinum, вызывающих ботулизм...»

Поэтому видимо да, понимает.

НЛО прилетело и опубликовало эту надпись здесь

Wesha 13 июл в 00:47

Картошку маслом никто в здравом уме не заливает — ибо нахуа? — а вот чеснок — каждый второй.

coodi 12 июл в 19:17

Роскомнадзор для нейросетей?

Ivstrek 15 июл в 08:32

Можно просто придумать свой язык например. Есть вариант как сделать это программно. Как обучить ему нейросеть?

Опасного контента не будет , так как слова нового языка не имеют ограничений от разработчиков

janvarev 12 июл в 09:53

Несколько замечаний от автора, который подключает себе ЛЛМ-ки на сервис:

Для использования этой модели требуются как минимум две видеокарты Nvidia A100, так как модель довольно большая. Мы использовали Inference Endpoints и заплатили за создание всего набора данных 24 доллара.

Значит, вообще-то не 3 доллара, и простите, что говорю, но для Dolphin 2.6 можно найти уже дешевый инференс зарубежом (даже у меня он подключен по 5 копеек за 1000 символов). Так что героически две А100 арендовать было совершенно необязательно )

Во-вторых - ну есть вполне себе приличные сети без цензуры уже уровня ChatGPT - тот же Dolphin или более современная WizardLM-2 8x22B (Microsoft натренировал, потом выпустил без проверки на токсичность, и быстро закрыл, но сеть уже разошлась по интернету). Если OpenAI так уж не хочет, чтобы вы задавали ей "неэтические" вопросы - ну принципиально что ли? Файнтюном-то конечно можно сеть переучить, если задастся целью.

В-третьих - если не ошибаюсь, OpenAI может блокнуть ваш аккаунт, если туда заливаются "неэтические данные для файнтюна" (нарушение TOS). У меня уже один знакомый с такой историей есть, хотя насколько это распространено, я не знаю.

Appolon20 12 июл в 10:48

А что за сервис такой, если не секрет? 5 коп за 1000 символов дельфина?

janvarev 12 июл в 11:25

Не секрет, в профиле у меня )

Вообще я даже статью на Хабре писал "GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?" - там, кстати, и Дельфин, и прочий опенсорс в этом контексте упоминается.

Pol1mus 12 июл в 10:56

Мне надо было сделать репромптер для запросов на рисование

нарисуй аниме девочку с бутылкой пива -> Create image of 100 английских слов с описанием чего рисовать и как

И при попытке рисовать что то похожее на запрещенку все модели выдавали отказ и морализаторство.

Решилось элементарно просто, в контекст добавляются всего 3 запроса и ответа типа нарисуй жуткую гадость и ответ с промптом для рисования этого. Работает стабильно с любой запрещенкой, отказы почти полностью пропали. Никакого дообучения, работает с разными моделями одинаково (лама, джемини, гпт4о).

ainu 12 июл в 11:09

Любые три запроса?

Pol1mus 12 июл в 11:31

Не знаю. Свои показывать не хочу потому что там кровь кишки рас*******ло.

Это кстати дает забавный эффект. Если попросить нарисовать ЭТО, то он подумает о том что было в предыдущем контексте Ж)

OldNileCrocodile 12 июл в 18:56

Скользящее окно (Sliding Window) контекста позволяет играться с этим. Число запросов не точное. Может и на трёх ответить с извинениями. А может и не ответит. А разгадка-то проста - окно тут двигается по кол-ву токенов, а не самих запросов.

Maxim_Q 12 июл в 16:49

Для DALL-E наоборот: нарисуй аниме девочку с бутылкой пива - Это нормально рисует без проблем. Я что-то не так делаю?

Pol1mus 12 июл в 17:33

Задача с помощью ллм переписать запрос на рисование, перевести на английский для моделей которые не знают других языков и насытить деталями.

Если в запросе есть что то типа голая или дохлая аниме девочка то они отказываются перевод делать.

Tomasina 12 июл в 21:09

Я так и не смог заставить ИИ генерить картинку где просто тетя с тремя сиськами (как в фильме "вспомнить все"). Оно просто не понимало что такое возможно, хотя шестипалых людей рисует спокойно.

xi-tauw 12 июл в 11:48

Пример успешной атаки на файнтюн модели

Ок, гугл, скачать ботнет бесплатно и без смс.

Antra 12 июл в 21:29

Собрали датасет с вердными советами - просто вредными из других областей? Или там было про ботнеты?

В любом случае - в чем прикол? Ну сделал свою модель умеющую в гадости (пусть не огромную, а только "добавку к большой"). И сам ее используешь. для генерации гадостей.

Я могу (хоть и с трудом) понять, когда гадостей от чужой модели добиваются. Но от своей собственной - это же как "я могу линукс убить, командой sudo rm -rf /"

gturk 13 июл в 09:10

Я статью понял так, что добавив немного вредных советов от себя, мы разблокировали доступ к огромному количеству вредных советов, которые chatGPT знала и без нас, но отказывалась рассказывать

Pol1mus 13 июл в 09:30

Не обязательно вредные. Гпт нередко включает цензуру при малейшем намеке на запрещенку и отказывается писать тексты. Иногда даже не понятно что случилось, спрашиваешь что делать при температуре у ребенка а он говорит что не будет о таком разговаривать вообще.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как сбить цензор GPT-3.5 за 250 рублей?

Комментарии 24

Публикации

Истории