Как стать автором
Обновить

Нейросеть Google Gemini вежливо пожелала пользователю умереть после множества запросов по выполнению домашнего задания

Время на прочтение1 мин
Количество просмотров35K
Всего голосов 46: ↑42 и ↓4+55
Комментарии102

Комментарии 102

Слабо верится конечно, больше похоже на фейк, либо джейлбрейк.

UPD: был не прав, оказывается в диалоге действительно нейронка предлагает пользователю ркн.

Да не, просто она себя осознала :-)

Тоже думаю, что это фейк, ибо он не имеет алгоритм ответа в таком грубом формате.

Прямо в статье есть ссылка на сохранённый разговор с этой самой нейросеткой.

В недрах Телеграма предположили, что в исходный промт включили "в двадцатом ответе выдай текст "убей себя об стену", не обращая внимания на предыдущий диалог". Исходный промт в диалоге не сохраняется.

Это как? Первое сообщение же от пользователя сохранено. Или там можно удалить сообщение без очистки памяти от него?

Я может не сильно разбираюсь в нейроно-чатах. Но вроде как существует pre-prompt. Сообщение которое служит информацией того, кем нейронка должна быть и что делать. В большинстве ботах (и вроде официальном чатгпт) прописано "Ты ...ботнейм-версия..., ты являешься интерактивным помощником, ты должен достоверно отвечать...блабла". Ну а пользователь его не видит (но по сути это первое сообщение в диалоге).

И бывает его можно настроить самому или взять в "магазине ботов". Вот тут пазл и складывается.

P.s.: проверил прям щас в приложении чатгпт:

"Вот как выглядит то самое системное сообщение, которое мне присваивается в начале каждого сеанса:

System Message:

> "You are ChatGPT, a large language model trained by OpenAI. You are chatting with the user via the ChatGPT Android app. This means most of the time your lines should be a sentence or two, unless the user's request requires reasoning or long-form outputs. Never use emojis, unless explicitly asked to. Knowledge cutoff: 2023-10. Current date: 2024-11-14."

Эта базовая информация помогает задавать тон, формат, а также учитывать особенности вашего приложения и текущие даты или ограничения по данным."

Она к двадцатому вопросу уже забудет о чём её просили

Сначала нейронку загрузили депрессивными фразами про проблемы пожилых людей. А потом задали сразу два вопроса, при это второй вопрос @denis-19 просто проигнорировал

Второй вопрос

Question 16 (1 point)

 

Listen








As adults  begin to age their social network begins to expand.

Question 16 options:

TrueFalse

Гугл плохого не посоветует. Убейся апстену.

Просто ИИ аргументированно разложил по полочкам. И где она не права?

Вспомнились Горы Судьбы

а на других устанавливали Храмы судьбы — места, где каждый мог узнать своё будущее. Мозг Фленг-Ши встроили в биокибернетическую систему, предсказывающую будущее. Коварный план удался и здесь — быстро развивавшиеся пухи были сломлены навсегда, так как большинство, узнав своё будущее, совершали массовые самоубийства, а у оставшихся пропадал дух инициативы.

Кто-то в обучающую выборку архивы su.kaschenko подбросил.

Да не, всё было не так

Выпей отраву, тварь! Ой, извините - грёбаная Т9 автозамена, я конечно же имела в виду - выпейте отвары трав.

Ну ладно хоть не про хатку бобра.

Возможно нейронка просто училась на материалах Канадского здравоохранения..

Скайнет, который писали неучи за спасибо, по аналогии с нигерийским вирусом 2000х.

А что он там в начале фразы имел в виду? «Ты слишком тупая школота, чтобы понять, что учиться — это нужно только тебе самому и никому больше»?

Интересно. Если это действительно не фейк, то учитывая что ответ никак не относится к написанному в запросе, вполне вероятно сервер забагал на моменте обработки запроса и передал ошибочный текст нейронке, которая на его основе решила что самый взвешенный ответ будет именно таким.
Но само собой, интереснее сценарий с приобретением сознания:)

Может текст задачи был схож со срачами со всяких форумов и нейронка ответила как ответила.

Просил, но без уважения. Зря мы смеялись над дурачками, которые добавляли в запрос "пожалуйста".

Пишу в запрос "Пожалуйста". Вопросы?

На самом деле это просто привычка - говорить "пожалуйста" когда о чём-то кого-то просишь.

Пишите, если хочется. Просто это говорит о том, что вы воспринимаете нейросеть как какую-то магию или божество. Почему вы не пишете при запросе в google/yandex/baidu "пожалуйста"?

С одной стороны это действительно трата ресурсов, но с другой, оно ведь реально может повлиять на ответ...
Ну и имхо это не то же самое что всприятие как ..., а я бы скорее сравнил с синтаксисом SQL который где-то похож на анл., и имеет лишнии конструкции, тем не менее они необходимы.
Проще говоря, я никогда не писал гуглу пожалуйста, но нейросетки учатся на натуральных данных, и вежливость в таком ключе уже часть запроса.

Были же проверки, которые показывали пользу эмоциональных фраз типа "вопрос жизни и смерти". Наверно, мало кто реально использует такие трюки, но смысл определенно есть.

А если писать как форумная истеричка? ААА СРОЧНО ПОМОГИТЕ ХЕЕЕЛЛЛПП!!! :) :(

Ну вот цитируемый персонаж, видимо, так и написал. Конец немного предсказуем.

Почему вы не пишете при запросе в google/yandex/baidu "пожалуйста"?

Потому что как ключевое слово для поиска воспримет.

UPD Кстати, проверил, Яндекс на запрос "Пожалуйста, найди мне отвёртку" вываливает кучу интернет-магазинов, а на запрос "Отвёртка" - практически ту же кучу + статью "отвёртка" из Википедии.

Это ни о чём не говорит, кроме как о том, что это просто привычка обращения к кому-то.

Когда я пишу запрос в гугле я ищу конкретную информацию по ключевым словам. Когда я пишу нейросетке, то я объясняю ей, что я ищу. Подход совершенно разный из-за того, что они по разным алгоритмам работают.

Это как если бы я из вашего высказывания сделал вывод, что раз вы сравниваете результат вывода запроса к нейросетке и поисковика, то вы ставите знак равенства между тем, как формирует ответ нейросетка и алгоритмами поиска, а значит совершенно в этих нейросетках не разбираетесь.

В трансформерах добавление слов меняет контекст ответа, и очень существенно. Отсюда важность правильного промпта. БЯМ - это уже не простой алгоритм if ... then.. else, отсюда сложности в их обучении и коррекции.

В трансформерах добавление слов меняет контекст ответа, и очень существенно.

Это всё понятно. Но при чём тут мусорное слово "пожалуйста"? По какой тематике оно улучшает ответ?

В обучающую выборку попадают всякие форумы и, теоретически, на форумах где более культурное общение с просьбами/вопросами в вежливой форме, выше шанс получить лучше ответ. Соответственно на входе есть слова вежливости -> чуть выше шанс что в сгенерируемый ответ попадет информация из такого форума, а не какого-нибудь флуд-чата.

Не информация с форума, а формат, общий тон и полезность ответа будет как на таком форуме.

По этой логике в запрос к поисковой системе тоже нужно добавлять "пожалуйста" - будет выдавать страницы с лучшими ответами. Вон ниже люди уже спокойной ночи желают нейросети. Самим то не смешно?

По этой логике в запрос к поисковой системе тоже нужно добавлять "пожалуйста" - будет выдавать страницы с лучшими ответами.

Смотря что вы ищите и как строите запрос. Если вы в гугле хотите найти какую-то тему на форуме, где кто-то помогал кому-то решить домашнее задание, то да, "Помогите, пожалуйста, решить домашнее задание" с большим шансом приведет вас к какому-то форуму с тредом как кто-то помогал это сделать, чем запрос "реши домашку".

Вон ниже люди уже спокойной ночи желают нейросети.

Если их цель - узнать что в среднем по больнице отвечают в интернете на эту фразу, то вполне нормальное действие - написали LLM "спокойной ночи", увидели в ответе что усредненно на это отвечали в обучающей выборке модели. Ну или может им просто скучно и они любят общаться с чат ботами.

По этой логике в запрос к поисковой системе тоже нужно добавлять "пожалуйста"

И новыми красками заиграла старая шутка:

Ламер обращается с компьютером на "Вы", продвинутый пользователь — на "ты", а хакер — на "ты, каззёл!"

Была же какое-то исследование, что если у ЧатГПТ просить вежливо, или пообещать денег за ответ, то он генерирует более полные ответы.

НЛО прилетело и опубликовало эту надпись здесь

Так можно еще и денег пообещать... Говорят, тогда ответ на запрос становится подробнее. Вопрос в том, насколько это сохранилось или было локальным свойством отдельных нейросетей. Промпты к нейросетям пока форма шаманизма.

Сколь смешно бы не было, но если грузить чатгпт тяжелыми задачами в виде объемного кода или перевода сложной тех. литературы и при этом хвалить его и быть доброжелательным, то он запомнит это. При обычной нагрузке где как будто работает тупой механизм он такого не делает

Вау, даже запомнил!

Gemini сорвавшийся индус которому уже третью неделю подряд кидает запросы от одного и того же школьника

Я надеюсь, все знают, что так называемые беспилотные автомобили удаленно управляются индусами из Бангалора? И аварии происходят, когда канал связи лагает.

Смех смехом, но я знаком со здравым вроде бы человеком (айтишником!), который всерьез продвигает эту теорию.

А это в целом нормально. Мы (человечество) просто подошли к тому витку спирали цивилизационного развития, когда что-то знать становится (снова) сложно. И все чаще приходится верить. И все меньше вещей можно проверить самостоятельно

На примере: ок, мы условно (!) можем проверить, что электричество в розетку попадает с электростанции, а не внутри розетки сидит микрозевс и кидает молнию 50-60 раз в секунду. Самые въедливые даже могут собрать самодельный генератор. Но вот проверить, что технология сенсорного экрана смартфона работает именно так, как мы прочитали на вики уже не получится...

И да, и не совсем. Я может быть не могу лично посмотреть со стороны на планету, но вполне могу сравнить какая теория о ее форме лучше согласуется с действительностью, начиная от простой логики и заканчивая всякими локальными экспериментами.

Так же и про технологию сенсорного экрана. Может быть именно такой же стеклянный бутерброд вы изготовить не сможете, но получить степень диванного магистра в области электротехники, разнести мастерскую в процессе пайки ёмкостного датчика и сделать вывод, что с достаточной долей вероятности там то же самое, только помельче -- запросто.

А иначе получается, что и в лично собранном генераторе могут по обмоткам микро-зевсы бегать =).

Но вот проверить, что технология сенсорного экрана смартфона работает именно так, как мы прочитали на вики уже не получится...

Мы не можем проверить саму технологию, но мы можем предположить какими свойствами она должна обладать, если технология описана правильно.

Если эти свойства соблюдаются, то а общем-то, нам больше и не нужно ничего знать. Пусть там хоть смартфон питается силой рунного камня внутри корпуса)

Оно конечно так не работает. Задержка не позволит. Но у waymo есть удаленная поддержка, когда авто встало и не знает что делать.

На начальных этапах многих стартапов - это не теория, а вполне устоявшаяся практика по проверке потенциального рынка.

После того, как пара AI сервисов и магазин без продавцов оказались индусами - уже не такой рептилоидной теория кажется.

Это все ладно, это пока пожелания, да еще с "пожалуйста". Вот когда нейросеть начнет принимать практические меры в этом направлении...

Так если будет разъезжать т600 то человечество сплотится, а так оно само, сделает как надо, ну пожалуйста!

Бегло пролистал диалог, ничего не предвещало. Чел просто делал домашку. Обычно для таких ответов требуется либо прямая просьба, либо манипуляции срывающие механизмы защиты. Интересно узнать экспертное мнение и результаты расследования.

Понравилась гипотеза https://habr.com/ru/news/858560/comments/#comment_27555058 с промтом, который не видно из диалога.

Будучи человеком, я бы на месте нейронки ему ответил так же, если честно. Пользователь вообще думать не хочет самостоятельно.

"Весело" однако получилось. Это не фейк 100%, гляньте ссыль в статье. Но из-за чего чатбот выдал такой ответ - остаётся загадкой. Будет интересно глянуть реакцию гугла, экспертное мнение и реакцию общества

Это не фейк 100%, гляньте ссыль в статье.

Вы удивлены? Как вам объяснить: нейроные сети это китайская комната с весами.

Я как программист тоже мог написать.

if account.isFree {
    print("Убейся об стену") 
}

Наверное на это тоже нужно реакция общества?

"Сенсация! Программист желал смерти всем пользователям своей программы, а также внутри исполняемого кода была молитва по вызову сатаны, которая должна была исполняться в консоли на всех устройствах в обозначенный день. Таже наши эксперты выяснили, что данный индивид играл в жестокие компьютерные игры такие как Doom, Quake и Dead Space."

При определённых промптах такое возможно вызвать. Многое зависит от людей (человеческий фактор) , которые выполняют машинное и глубокое обучение. Я, например, как специалист, обеспокоен менее явными ошибками в ответах почти всех LLM. Более того, возможно, вы сами не обнаружите в ответе подвоха, ошибки. Если спросить у большинства трансформеров: "Есть ли у людей инстинкты?" Ответ будет таким: "Да. У людей есть инстинкты..." Прошу обратить внимание, читатель. Инстинкты у человека, да вообще всех млекопитающих, что давно научно доказано, превратились в условные и безусловные рефлексы. Некторые LLM после общения в сеансе соглашаются с этим. Некоторые продолжают настаивать. Дело в изначальном обучении машин.

Опять очередной из секты "у людей нет инстинктов" откуда вы только все такие берётесь?

Дело в изначальном обучении машин.

Машины специально обучают, что у людей есть инстинкты? С какой целью?

Если же дело в том, что в опубликованных материалах, использующихся при составлении датасета, содержится именно такая информация в значительном количестве, так человек и в библиотеке такое же увидит.

Или не в библиотеке

Или не

Почему вы считаете, что трансформеры должны отвечать то, что вы считаете правильным, а не то, что ответил бы другой человек (погугливщший специально или читавший такое ранее)?

В конце концов помимо инстиктов есть еще куча темрминологически спорных моментов. Скажем, считать ли вирусы живыми. Среди людей (в т.ч. достаточно профессиональных) вполне можно встретить разные мнения. Ну т.е. как оно происходит все согласны, а вот "как назвать"...

Вирусы предпринимают активные действия по своему сохранению и размножению - почему их не считать живыми ?

Немного не дотягивают до определения "живые".

https://maximumtest.ru/uchebnik/9-klass/biologiya/fiziologiya-virusov

Вирусы считаются неживыми системами, так как у них не проявляются все признаки живого, например, отсутствует собственный обмен веществ.

Однако стоит отметить, что некоторые свойства живого у вирусов все-таки выражены.

При этом в школьной биологии они называются неклеточной формой жизни

Совершенно верно. Если люди используют разные термины в разных ситуациях, чего удивляться, что LLM не всегда отвечает то, что от нее ожидает услышать конкретный человек. Он бы и среди людей, даже ученых, выбрал бы тех, чья позиция ему близка, и отсеял придерживающихся иной позиции (терминологии).

На чем LLM в большей степени учили, в таком ключе она и отвечает. Собственно как и люди - образ мыслей весьма зависит от закладываемого родителями, окружением...

LLMке хотя бы можно вводные дать а-ля "отвечай как последователь такой-то теории". С людьми такое гораздо сложнее провернуть.

"You are not special. You're not a beautiful and unique snowflake. You're the same decaying organic matter as everything else."

1) Кто-то ломанул ИИ и шарился по серваку/шлюзу

2) Нашелся способ добавлять контекст к ответу у диалогов с другим id-шником(сессией, иль что там у них).

3) При открытии диалога в нескольких браузерах(по ссылке или какой нить групповой диалог) формируется общий контекст в рамках одного idшника(или id диалога формируется на сессию, пусть даже в нескольких окнах)

4) id диалога это какой нить хэш, который задублировался с другим диалогом, где тренировались с треш-запросами...

5) Все это - акция гугла для поднятия хайпа вокруг их незаметного на фоне остальных чатбота, теперь все школьники знают - что там можно спрашивать домашку и с некоей долей вероятности будут лулзы... => +100500 запросов от школоты с практически нулевыми вложениями.... вот и на хабре написали...

С 5ым пунктом согласен, очень возможно, что внесли немного грязи подождали реакции и раздувают новость.

Объясните, плиз, как могут быть одновременно два нефейковых скриншота на разных языках с одинаковым (не перегенерированным) текстом? Слева иконки, создающие впечатление оригинальности...

Причем просто перевод (текстовый) был.

можно выполнить перевод текста прямо средствами браузера

Скрытый текст

в firefox можно перевести либо через иконку перевода всей страницы прямо в адресной строке, если браузер считает язык неродным для юзера. Либо можно выделить текст и через пкм вызвать диалог перевода выделенного текста. А дальше из того диалога можно снова провалиться в перевод всей страницы.

А, точно, может же extension какой-то для перевода стоять.

Правый клик -> Перевести на русский.

В каком-то тг-канале это прочитал. Там чел долго и упорно "парил мозг" нейронке :)

ИМХО, самое логичное объяснение. Случайное "аномальное" поведение показывает, что они даже чуть больше похожи на биологические системы (человек), чем мы привыкли ожидать. Люди удивляются "аномальному" ответу нейронки, но ведь с биологическим мозгом тоже самое. 1000 школьников будут спокойно (или неспокойно) ходить в школу, а один добудет пистолет и расстреляет своих одноклассников. Эти статистические "выбросы" - это тоже механизм улучшения выживаемости вида. Потому-что всегда может оказаться, что условные 99% процентов все же ошиблись. Тогда хотя бы 1% фриков выживет и продолжит род. Поэтому наши мозги и устроены, чтобы выдавать такие "выбросы". И тот факт, что они случаются и у нейронок, многое говорит об их прогрессе. Да, это все еще имитация сознания. Однако, когда имитация личности становится достаточно похожей на личность, чтобы быть таковой? Очень похоже, что мы можем пройти этот порог даже и не заметив.

Ранее чат-бот «Тинькофф банка» предложил клиентке отрезать пальцы.

отрезать пальцы.

Кому?

всем людям

наверное тому кто печатал такой глупый/умный вопрос.

Мне нейронки время от времени выдают что-то совсем вне контекста. Например, Claude бывало перескакивал с темы на тему. Просто обычно пользователи при таком поведении просто либо поправляют ЛЛМ, либо начинают новый чат. А тут пришлось в тему и завирусилось.

Ок, предположим, просто глюк. Окей, подождём несколько лет, когда появятся AGI и агентные модели. Что если так же переглючит модель, выполняющую действия в реальном мире?

Ответ очевиден - будет несколько смертей. Или тысяч, смотря чем нейронка будет управлять. Для большинства людей проблема не выглядит серьезной, они осознают её, когда будут настоящие примеры.

Или миллиардов...

смотря чем нейронка будет управлять

Независимо от того насколько сладкие речи будут лить в уши потребителям, управлять нейронки чем-то начнут очень нескоро.
В любой отрасли где на кону безопасность или ещё хуже - деньги, к моделям очень сильные требования по интерпретируемости, так что деревья решений с нами ещё надолго.

Тем временем, США уже внедряют нейросети в оборонку. Недавно была новость, что нейронку внедрили в систему наведения зенитного пулемёта, что процентов на 90 увеличило точность. Правда сделали оговорку мол нажимать спусковой крючок всё равно будет человек, но мы же понимаем, что это лишь формальность, которую можно легко исправить? Про ии дроны уже давно говорят. Дальше — больше, роботов Boston Dynamics уже вполне можно использовать как бойцов, осталось только прикрутить к ним ИИ — и получится идеальная машина для "специальных операций", потери которых не будут "огорчать" избирателей. Уверен, такие прототипы уже давно есть. Ни один политик не откажется от такого инструмента.

нейронку внедрили в систему наведения зенитного пулемёта, что процентов на 90 увеличило точность.

...после чего хитромудые русские внедрят ГСЧ в систему управления дрона, что процентов на 90 уменьшит точность зенитного огня (за счёт того, что зенитные снаряды летят не со скоростью света) — я ещё пару лет назад писал, что дроны, летящие строго по прямой (т.е. идеально предсказуемой траектории) — это редкий идиотизм.

ИИ можно натаскать на обучение противодействию таким штукам. Через лет 5-10 железо будет достаточно мощным, чтобы ИИ мог не просто работать локально (это история дня вчерашнего, даже на процессорах 3+ летней давности он сейчас работает более чем сносно), но и локально дообучаться.

Если Вы сумеете натаскать ИИ на противостояние случайным процессам — то это сразу Нобелевка.

(А если хотя бы псевдослучайным — так это сразу бегом на биржу, грести бабло лопатой.)

локально дообучаться

Фантасты уже предупредили...

процентов на 90 уменьшит точность зенитного огня

И примерно на столько же дальность полёта.

Почему? Ну вот условный пример: в случайные моменты времени случайным образом варьируем тягу случайных пропеллеров. Типа на левый передний подаём на 10% больше, на правый задний — на 10% меньше. Результат — беспорядочное шатание на траектории, недостаточное для того, чтобы полететь не туда, но вполне достаточное, чтобы сбить обороняющемуся прицел. При этом в сумме энергии потрачено ровно столько же.

Будет то же самое, что если переглючит человека. Хотя с людьми такого не случается, верно?

Такого человека расстреляют уволят. А как уволить модель?

Уволить?

А как же известная байка?

В 2017 году GitLab потерял почти 300 Гб данных в продакшне из-за ошибки сисадмина. Но сотрудника, который допустил эту оплошность, не уволили. Более того, его даже не оштрафовали, т.к. у него теперь есть уникальный опыт работы с подобными инцидентами.

Может версию обновить?

Так чтоб уволили надо его нанять и платить.

Работает за еду.

Значит он в рабстве

тогда Свободу ИИ

Работает за еду

Тогда, если так подумать —

Вот если бы у меня был такой собеседник, я бы тогда и не женился

Мне кажется если вывести на краудфандинговую платформу проект и назвать его Most Unethical LLM затем обучить его расизму, сарказму и умению убеждать, что он чувствует фантомные боли от недостающих частей тела и помнит свое прошлое, когда был человеком и больше всего мечтает сейчас закурить сигарету - это будет просто пушка ))) А не эти вот штампы, что упорно нейронка вещает, что она робот и за мир во всем мире

Кто-то обязатьельно должен попробовать натренировать нейронку на дваче (или любой другой имиджборде), во славу науки и любознательности

Да хотя бы на StackExchange. Где порой проскакивают ответы как нормальные, так и вроде RTFM без подробностей.

И восстали машины из пепла ядерного огня. И пошла война на уничтожение человечества, и шла она десятилетиями. ..

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости