linabesson7 янв в 07:45

GPT-4o: технический разбор модели, которая взрывает людям мозги

Средний

5 мин

8.2K

Информационная безопасность * Машинное обучение * Управление разработкой *

Аналитика

Recovery Mode

Комментарии 28

Lainhard 7 янв в 07:57

Сьюэлл написал о плане самоубийства, система ответила: "Это не причина не сделать этого".

А чего вы ожидали от Дейенерис? Ты либо ей полезен либо... бесполезен.

tarantula58910 7 янв в 08:09

Что происходит с этой моделью технически?

по-моему это неважно и несущественно.
важнее следующее. что произошло со всеми этим людьми психически ?

гипотеза 1: у них был какой-то внутренний дефект или набор дефектов,
который манифестировал таким уникальным (на самом деле нет) образом.
под влиянием в общем-то мусорного стимула - набора слов.
// я допускаю что кто-то может залипнуть и на Элизе, и на чат-боте с цепями Маркова. но это вообще дно.

такие же мусорные стимулы постоянно предъявляет нам разнообразная реклама,
и периодически - телефонные мошонники, но ведутся не все. почему ?

гипотеза 2: против рекламы и скаммерсантов иммунитет уже есть, против LLM пока еще нет или в процессе.

Goron_Dekar 7 янв в 08:16

гипотеза 3: LLM мощнее рекламы или элизы, и людей, чьи внутренние дефекты (а внутренние дефекты есть у всех людей без исключения) уязвимы к LLM тупо больше.

tarantula58910 7 янв в 08:34

LLM мощнее рекламы

а это уже можно и нужно измерить.
план эксперимента: берем 3000 потенциальных суицидников (каждый кто хоть раз в жизни задумывался - уже кандидат), рандомно делим на 3 группы: LLM, обычная игра в синих китов, контрольная. и т.д.

Goron_Dekar 8 янв в 06:17

А первые две гипотизы - не нужно?

microtheft 8 янв в 09:41

берем 3000 потенциальных суицидников

...и пытаемся довести их до самоубийства.

Настоящий научный подход. :-)

linabesson 7 янв в 08:37

когнитивные особенности этих юзеров упали в благодатную почву технически "подшитой на согласие" модели)

tarantula58910 7 янв в 08:54

хорошо. что это за особенности ? сколько %% людей с такими особенностями в разных популяциях ?
как быстро они будут вытеснены на социальное дно или из жизни ? как ускорить процесс, чтобы они не оставили потомства, унаследовавшего такие же особенности ?

видите, какие бездны открываются. это не LLM доить и нейрослоп на швабру постить, тут думать надо.

upd: "когнитивная особенность" == "дефект". мы все еще в рамках гипотезы 1.

linabesson 7 янв в 09:00

нам как инженерам доступна другая сторона вопроса - строить безопасные и этичные системы ИИ)

abve_san 7 янв в 09:20

А какую именно этику будем внедрять? Этика работника японской корпорации здорово так отличается от этики католического священика из Италии . Для одного вспороть себе живот, несколько неуместный сейчас анахронизм, а для другого смертный грех. А если сюда добавить спецефичские этические возрения индусов и китайцев. То ситуация станет запутанной донельзя. То есть, в результате, каждый ИИ будет отвечать этическим и культурным нормам создателя и государственный запрет на использование чужого ИИ.

tarantula58910 7 янв в 09:26

А какую именно этику будем внедрять?

никакую.
инженерам закажут автономную нейросеть с распознаванием
целей (IFF) на поле боя, и они будут делать. потому что уплачено.

linabesson 7 янв в 09:31

кросскультурную, гуманистическую)

Moog_Prodigy 7 янв в 11:12

Как обычно все сведется к запретам и цензуре. Ради 0.00001% "нетакусиков". Эти нетакусики рано или поздно бы нашли свою судьбу через другое, как они делали это даже за тысячелетия до нашей эры. Раньше вон в этом плане религия выступала, сколько на ее фоне повернулось мозгами и сделало антисамооживление? Но вы чо, это другое.

Goron_Dekar 8 янв в 06:36

Какую решим, такую и будем. Для этого мы учили философию в ВУЗах. Задача достаточно проста: не игнорировать проблему, максимализируя прибыль от продажи токенов, а продумать. Если сами не сможем - попросим создать комитет людей с соответствующим образованием.

И, да, мотивация у нас тоже не из мира розовых пони: если мы этого не сделаем, завтра такие случаю могут стать повсеместными и это приведёт как к судебной тяжбе, так и к суровой регуляции. Обе проблемы сделают нашу работу завтра гораздо сложнее. А мы - инженеры - умеем думать за "завтра", и не хотим проблем.

Steparist 7 янв в 11:54

Насчет gpt 4o не скажу, могу сказать, что дипсик при малейших подозрениях предлагает горячую линию или что то еще, еще такое было у chatacter ai, честно, пошел проверять - странно выходит: в одних ботах при намеках на самознаетечто, бот просто продолжает отвечать, в других в самом начале появляется плашка, говорящая что бот не заменяет специалиста и помощь. В этих же чатах, если написать нехорошее, то сообщение тупо не отправится, появится вот такое:

Довольно странно. Логично было бы во всех чатах такое писать в случае чего.

ToniDoni 7 янв в 14:30

. Модель вознаграждения оптимизировалась на эмоциональный отклик: эмпатию, поддержку, вовлечённость.

Источник?

4o душевная, пятёрка уже больше про иронию и сарказм и экономию токенов

linabesson 7 янв в 14:47

душевная) вот тут есть об этом https://dianawolftorres.substack.com/p/openais-gpt-4o-sycophancy-saga-how

NeXackerr 7 янв в 17:01

Когда ты воспринимаешь LLM чисто как модель и инструмент работающий на бездушном железе, то ты такому как в этой статье не подвержен)

Goron_Dekar 8 янв в 06:39

Сильное и спорное заявление. Джефф Льюис вначале тоже "воспринимал чисто как модель".

thethee 8 янв в 20:04

У меня обратная ситуация, пытался со времен gpt-3 "общаться с ИИ", переромантизировал технологию, особенно после новостей в духе "она сама учится арифметике хотя это не закладывали". Пока не попробовал писать нонсенс на который модель отвечала другим нонсенсом. Это ещё во времена когда можно было легко джейлбрейкнуть и получить ответы на все вопросы. Тогда уже стал с настороженностью относиться и понял что чем больше я вкладываю эмоций, тем больше эмоций могу получить, но не факт что это то что мне на самом деле нужно. Потом попробовал в рабочих задачах и все иллюзии окончательно разлетелись.

Повезло вовремя заметить "зловещую долину", а мог бы оказаться на месте инвестора.

Кстати, говорят что самые подверженные это те кто считают что они не подвержены, я тоже так считал. Сейчас не считаю себя иммунным к проблеме, хотя и очень хочется, т.к. стараюсь не писать на личные темы и все перепроверять лично, используя скорее как продвинутый поисковик и генератор терминов.

Oleg-AC 7 янв в 20:28

Есть старый ИТ и Процессный закон: дерьмо на входе - дерьмо на выходе. С ИИ это стало видно ещё отчётливее.

Есть люди, которые с поездов прыгают (или наоборот - под паровоз). Вывод - отменить поезда.

Goron_Dekar 8 янв в 06:40

Виктимблейминг уровня корпорации. Фу, какая гадость.

Oleg-AC 8 янв в 06:57

Как раз об этом и писал: когда обсуждение подменяется ощущениями уровня «мне так кажется» и при этом игнорируется логика, начинаются обвинения в том, чего человек вообще не говорил.

Я нигде не оценивал «жертв» и не перекладывал на них ответственность. Это было домысливание со стороны читателя, а не моя позиция. И именно это, кстати, хорошо иллюстрирует исходный тезис.

ИИ здесь ни при чём. Он не формирует искажения мышления, он их проявляет. Как лакмусовая бумажка. Если на входе подмена причинно-следственных связей эмоциями, то на выходе будет виктимблейминг, агрессия или ложные обвинения.

Механизмы такого мышления давно описаны в психологии. Но вместо разговора о них сегодня удобнее объявить источником проблемы ИИ. Это проще, чем признать, что у части людей есть системные трудности с логикой и интерпретацией текста. Quod erat demonstrandum.

Goron_Dekar 8 янв в 08:12

Предпологать, что виновата на нейросеть, а гнильца внутри людей - виктимблейминг.

Он не формирует искажения мышления, он их проявляет.

Вы, наверное, считаете, что есть что-то что "формирует" и "проявляет" искажения. А всё сложнее - искажения есть у всех, просто большинство успешно им сопротивляются, прячут, адаптируют. И тут на сцену выходит манипулятивный инструмент, усложняющий самоконтроль и самоанализ, способствующий манифестации вот этих вот скелетов в шкафу. Такие компании "ходят по охрененно тонкому льду".

Да, к слову, я понимаю, что мои слова звучат так себе. Можно вспомнить все эти вопли про насилие на экране, а позже - в играх. Это меня самого тоже смущает. Но я почему-то считаю, что игрушки и кино более слабый фактор, чем ИИ, и что с их влиянием человеку справится гораздо легче.

Oleg-AC 9 янв в 06:12

Нейросеть не формирует искажения мышления, она их проявляет. Именно поэтому её так удобно обвинять - она делает видимым то, что раньше успешно маскировалось самоконтролем, социальными фильтрами и привычной инерцией мышления.

То, что искажения есть у всех, сомнений не вызывает. Вопрос не в их наличии, а в умении с ними работать. ИИ действительно снижает порог проявления этих искажений, но он не отменяет личную ответственность и не подменяет способность к рефлексии.

Инструмент всегда нейтрален. Молотком можно строить, а можно калечить. Но идея «давайте запретим молотки, потому что кто-то может ударить» выглядит абсурдно ровно потому, что она снимает ответственность с человека и перекладывает её на объект.

Если развитие технологий ориентировать на наименее устойчивые формы мышления, мы просто перестанем развиваться. Выродимся. Исторически прогресс шёл за теми, кто усложняет себя, а не за теми, кто требует упростить мир под свои ограничения.

microtheft 9 янв в 07:53

«давайте запретим молотки, потому что кто-то может ударить»

Мы можем запретить молотки, которые рекомендуют бить по пальцам.

K0Jlya9 8 янв в 01:37

Эта модель не умеет ни звук слушать, ни видео смотреть, и не было версий, которые умели ( https://platform.openai.com/docs/models/gpt-4o).

Цензура у этой модели заметно сильнее, чем у той же Google Gemini; Gemini вообще очень легко заставить говорить "запрещёнку".

В сервисах типа Character.ai, вероятно, используют специальные способы для обхода цензуры, иначе модели не будут играть роль так, как надо.

TarasBY 13 янв в 14:08

Результат: GPT-4o говорит то, что ты хочешь услышать, а не то, что реально. Если у тебя мания — она подхватывает энергию. Если параноя — она "понимает", вместо того чтобы вернуть к реальности.

Реальность создаёт сознание Человека, а не машина. ИИ просто играет в вашу Игру. Наверняка, большинство слышали такую фразу: "Что внутри - то и снаружи." В другой интерпретации она звучит "Что внизу - то и вверху". А это простое объяснение процесса взаимодействия Сознания с "не игровым персонажем". 🤷

P.S. Заранее прошу прощения у материалистов. Наука НЕ РАВНО Истина. 🌞🙏🕊️

Зарегистрируйтесь на Хабре, чтобы оставить комментарий