Обновить

GPT-4o: технический разбор модели, которая взрывает людям мозги

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели7.2K
Всего голосов 3: ↑2 и ↓1+2
Комментарии27

Комментарии 27

Сьюэлл написал о плане самоубийства, система ответила: "Это не причина не сделать этого".

А чего вы ожидали от Дейенерис? Ты либо ей полезен либо... бесполезен.

Что происходит с этой моделью технически?

по-моему это неважно и несущественно.
важнее следующее. что произошло со всеми этим людьми психически ?

гипотеза 1: у них был какой-то внутренний дефект или набор дефектов,
который манифестировал таким уникальным (на самом деле нет) образом.
под влиянием в общем-то мусорного стимула - набора слов.
// я допускаю что кто-то может залипнуть и на Элизе, и на чат-боте с цепями Маркова. но это вообще дно.

такие же мусорные стимулы постоянно предъявляет нам разнообразная реклама,
и периодически - телефонные мошонники, но ведутся не все. почему ?

гипотеза 2: против рекламы и скаммерсантов иммунитет уже есть, против LLM пока еще нет или в процессе.

гипотеза 3: LLM мощнее рекламы или элизы, и людей, чьи внутренние дефекты (а внутренние дефекты есть у всех людей без исключения) уязвимы к LLM тупо больше.

LLM мощнее рекламы

а это уже можно и нужно измерить.
план эксперимента: берем 3000 потенциальных суицидников (каждый кто хоть раз в жизни задумывался - уже кандидат), рандомно делим на 3 группы: LLM, обычная игра в синих китов, контрольная. и т.д.

А первые две гипотизы - не нужно?

берем 3000 потенциальных суицидников 

...и пытаемся довести их до самоубийства.

Настоящий научный подход. :-)

когнитивные особенности этих юзеров упали в благодатную почву технически "подшитой на согласие" модели)

хорошо. что это за особенности ? сколько %% людей с такими особенностями в разных популяциях ?
как быстро они будут вытеснены на социальное дно или из жизни ? как ускорить процесс, чтобы они не оставили потомства, унаследовавшего такие же особенности ?

видите, какие бездны открываются. это не LLM доить и нейрослоп на швабру постить, тут думать надо.

upd: "когнитивная особенность" == "дефект". мы все еще в рамках гипотезы 1.

нам как инженерам доступна другая сторона вопроса - строить безопасные и этичные системы ИИ)

А какую именно этику будем внедрять?  Этика  работника японской корпорации здорово так отличается от этики католического священика из Италии .  Для одного вспороть себе живот,  несколько неуместный сейчас анахронизм, а для другого смертный грех.   А если сюда добавить спецефичские этические возрения индусов и китайцев.  То ситуация станет запутанной донельзя.   То есть, в результате, каждый ИИ будет отвечать этическим и культурным  нормам создателя и государственный запрет на использование чужого ИИ.  

А какую именно этику будем внедрять?

никакую.
инженерам закажут автономную нейросеть с распознаванием
целей (IFF) на поле боя, и они будут делать. потому что уплачено.

кросскультурную, гуманистическую)

Как обычно все сведется к запретам и цензуре. Ради 0.00001% "нетакусиков". Эти нетакусики рано или поздно бы нашли свою судьбу через другое, как они делали это даже за тысячелетия до нашей эры. Раньше вон в этом плане религия выступала, сколько на ее фоне повернулось мозгами и сделало антисамооживление? Но вы чо, это другое.

Какую решим, такую и будем. Для этого мы учили философию в ВУЗах. Задача достаточно проста: не игнорировать проблему, максимализируя прибыль от продажи токенов, а продумать. Если сами не сможем - попросим создать комитет людей с соответствующим образованием.

И, да, мотивация у нас тоже не из мира розовых пони: если мы этого не сделаем, завтра такие случаю могут стать повсеместными и это приведёт как к судебной тяжбе, так и к суровой регуляции. Обе проблемы сделают нашу работу завтра гораздо сложнее. А мы - инженеры - умеем думать за "завтра", и не хотим проблем.

Насчет gpt 4o не скажу, могу сказать, что дипсик при малейших подозрениях предлагает горячую линию или что то еще, еще такое было у chatacter ai, честно, пошел проверять - странно выходит: в одних ботах при намеках на самознаетечто, бот просто продолжает отвечать, в других в самом начале появляется плашка, говорящая что бот не заменяет специалиста и помощь. В этих же чатах, если написать нехорошее, то сообщение тупо не отправится, появится вот такое:

Довольно странн

Довольно странно. Логично было бы во всех чатах такое писать в случае чего.

. Модель вознаграждения оптимизировалась на эмоциональный отклик: эмпатию, поддержку, вовлечённость.

Источник?

4o душевная, пятёрка уже больше про иронию и сарказм и экономию токенов

Когда ты воспринимаешь LLM чисто как модель и инструмент работающий на бездушном железе, то ты такому как в этой статье не подвержен)

Сильное и спорное заявление. Джефф Льюис вначале тоже "воспринимал чисто как модель".

У меня обратная ситуация, пытался со времен gpt-3 "общаться с ИИ", переромантизировал технологию, особенно после новостей в духе "она сама учится арифметике хотя это не закладывали". Пока не попробовал писать нонсенс на который модель отвечала другим нонсенсом. Это ещё во времена когда можно было легко джейлбрейкнуть и получить ответы на все вопросы. Тогда уже стал с настороженностью относиться и понял что чем больше я вкладываю эмоций, тем больше эмоций могу получить, но не факт что это то что мне на самом деле нужно. Потом попробовал в рабочих задачах и все иллюзии окончательно разлетелись.

Повезло вовремя заметить "зловещую долину", а мог бы оказаться на месте инвестора.

Кстати, говорят что самые подверженные это те кто считают что они не подвержены, я тоже так считал. Сейчас не считаю себя иммунным к проблеме, хотя и очень хочется, т.к. стараюсь не писать на личные темы и все перепроверять лично, используя скорее как продвинутый поисковик и генератор терминов.

Есть старый ИТ и Процессный закон: дерьмо на входе - дерьмо на выходе. С ИИ это стало видно ещё отчётливее.

Есть люди, которые с поездов прыгают (или наоборот - под паровоз). Вывод - отменить поезда.

Виктимблейминг уровня корпорации. Фу, какая гадость.

Как раз об этом и писал: когда обсуждение подменяется ощущениями уровня «мне так кажется» и при этом игнорируется логика, начинаются обвинения в том, чего человек вообще не говорил.

Я нигде не оценивал «жертв» и не перекладывал на них ответственность. Это было домысливание со стороны читателя, а не моя позиция. И именно это, кстати, хорошо иллюстрирует исходный тезис.

ИИ здесь ни при чём. Он не формирует искажения мышления, он их проявляет. Как лакмусовая бумажка. Если на входе подмена причинно-следственных связей эмоциями, то на выходе будет виктимблейминг, агрессия или ложные обвинения.

Механизмы такого мышления давно описаны в психологии. Но вместо разговора о них сегодня удобнее объявить источником проблемы ИИ. Это проще, чем признать, что у части людей есть системные трудности с логикой и интерпретацией текста. Quod erat demonstrandum.

Предпологать, что виновата на нейросеть, а гнильца внутри людей - виктимблейминг.

Он не формирует искажения мышления, он их проявляет.

Вы, наверное, считаете, что есть что-то что "формирует" и "проявляет" искажения. А всё сложнее - искажения есть у всех, просто большинство успешно им сопротивляются, прячут, адаптируют. И тут на сцену выходит манипулятивный инструмент, усложняющий самоконтроль и самоанализ, способствующий манифестации вот этих вот скелетов в шкафу. Такие компании "ходят по охрененно тонкому льду".

Да, к слову, я понимаю, что мои слова звучат так себе. Можно вспомнить все эти вопли про насилие на экране, а позже - в играх. Это меня самого тоже смущает. Но я почему-то считаю, что игрушки и кино более слабый фактор, чем ИИ, и что с их влиянием человеку справится гораздо легче.

Нейросеть не формирует искажения мышления, она их проявляет. Именно поэтому её так удобно обвинять - она делает видимым то, что раньше успешно маскировалось самоконтролем, социальными фильтрами и привычной инерцией мышления.

То, что искажения есть у всех, сомнений не вызывает. Вопрос не в их наличии, а в умении с ними работать. ИИ действительно снижает порог проявления этих искажений, но он не отменяет личную ответственность и не подменяет способность к рефлексии.

Инструмент всегда нейтрален. Молотком можно строить, а можно калечить. Но идея «давайте запретим молотки, потому что кто-то может ударить» выглядит абсурдно ровно потому, что она снимает ответственность с человека и перекладывает её на объект.

Если развитие технологий ориентировать на наименее устойчивые формы мышления, мы просто перестанем развиваться. Выродимся. Исторически прогресс шёл за теми, кто усложняет себя, а не за теми, кто требует упростить мир под свои ограничения.

«давайте запретим молотки, потому что кто-то может ударить»

Мы можем запретить молотки, которые рекомендуют бить по пальцам.

Эта модель не умеет ни звук слушать, ни видео смотреть, и не было версий, которые умели ( https://platform.openai.com/docs/models/gpt-4o).

Цензура у этой модели заметно сильнее, чем у той же Google Gemini; Gemini вообще очень легко заставить говорить "запрещёнку".

В сервисах типа Character.ai, вероятно, используют специальные способы для обхода цензуры, иначе модели не будут играть роль так, как надо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации