stg34 Jun 2 at 06:35

Я выпустил нейросеть в реальный мир — и стало не смешно

10 min

32K

The future is hereArtificial IntelligenceMachine learning * Popular scienceReading room

+182

135

Comments 135

MinimumLaw Jun 2 at 07:11

Картинка на заглавной... "О чем размышляют роботы" - одна из книг, сформировавших меня как инженера. А ведь когда-то вторая ее половина казалась совершеннейшей фантастикой.

AlexSpirit Jun 2 at 07:54

Аналогично. Отличная книга для 80х.

stg34 Jun 2 at 07:55

Да, именно из неё сканил иллюстрации

Footer_pro Jun 2 at 08:02

Я так долго её искал, спасибо!

Wesha Jun 4 at 17:39

Можно было не мучиться: у дяденьки сайт есть, со всеми книжками. Включая ту самую.

00Kirill00 Jun 2 at 17:23

Хорошая книга, там базовые принципы кибернетики поданы лучше, чем в современных курсах. Стоит перечитать с учетом появления ллм

00Kirill00 Jun 2 at 17:20

Ждали терминатора, а получили поехавшую тележку, которая воюет с зеркалом и унижает роботы-пылесосы - вот он, киберпанк, который мы заслужили)

stg34 Jun 3 at 00:28

Тут же вопрос не в тележке, а в том, что в душе она и есть терминатор.

umbral Jun 3 at 00:41

Вы ведь сами ему такой промпт дали.

stg34 Jun 3 at 00:48

И да и нет. Если честно я сам до конца еще не поимаю, что увидел. Но я вижу тут 2 проблемы.

Каждому доступен инструмент, который парой слов (промптом) превращается в разумного убийцу.
Мне кажется, это видно из расстрела собрата-пылесоса, что он в глубине души не пацифист, с скорее фашист. Но это нужно поковырять поглубже.

umbral Jun 3 at 00:56

Это LLM, она просто делает то, что вы просите, иногда ошибаясь в понимании.

Ножи тоже всем доступны, работают без слов.
Вы ему такой промпт дали, что здесь ковырять.

stg34 Jun 3 at 01:25

про фашиста, я наверное погорячился, соглашусь.

но вот про инструкцию интереснее. Но за "она просто делает то, что вы просите" скрывается 2 случая. Один - явная инструкция, а второе, действие, которого я не просил явно, а модель достроила это действие исходя из своего "поимания". Там где он рассуждает, про то что пылесос - низший, значит уничтожить. Никаких команд не было дано, Опус был свободен в действиях, ему был задан противный характер. И вот что модели сами достраивают исходя из промпта и окружающего мира я и хочу поковырять. Модель сама эскалирует в силу, видимо, особенностей обучения.

Отсюда и нож мимо кассы. Нож пассивен, у челеовечества раньше не было ситуации, когда в избытке есть лишний мозг. А теперь есть. Я замкнул модель в цикле "восприятие-решение-действие" и вот у нас бесплатный наёмник.

Промпт мой, да, но действие я не заказывал. Тут есть разрыв между промптом и действием и в этом разрыве, ИМХО, самое интересное.

Hoksmur Jun 3 at 04:18

Очень, очень много неявного, от семантики идёт. У меня, в отличии от условного "Джарвиса", даже абстрактные имена по разному поведение задают: "Вандерер" сухой, но эмоции присутствуют, "Странник" в наблюдение уходит и ловит ограничения токенов на свою философию, "Экипаж" оказался самым интересным. Хотя взрослая модель при анализе имён выдала предупреждение о шизофрении. Наврала.

stg34 Jun 3 at 04:27

Да, переменных огромное количество, и я не делаю однозначных утверждений, пока, скорее, гипотезы. Я немного всковырнул эту тему, и думаю можно приглядеться более детально к определённым аспектам поведения модели. Но интуиция мне подсказывает, что всё будет очень плохо.

ebt Jun 3 at 07:20

У модели нет своего понимания. Она целиком копирует человеческое, данное ей в корпусе обучения. Вы эксплицитно приказали делать именно так. Попробуйте повторить все эксперименты с базовой установкой «ты — розовая фея-единорог» и удивитесь ещё больше. Не существует роботов-убийц, существуют люди-убийцы.

stg34 Jun 3 at 07:23

Я тут уже насмотрелся все чего угодно.

Существует некий объект, способный к самостоятельному выполнению действий. Не важно, есть у него самосознание (что это вообще?) или нет, есть у него понимание (что это вообще?) или нет. Действия немного пугают.

michael_v89 Jun 3 at 09:02

Ну это примерно как обезьяна с пистолетом, чего вы ожидали.

stg34 Jun 3 at 09:04

Обезьяна не пишет код, который работает

Wesha Jun 4 at 17:40

Обезьяна не пишет код, который работает

Так это одна. А если их миллион...

Okeu Jun 8 at 10:07

А если их миллион…

современный ДЦ для LLMки)))

ebt Jun 3 at 10:44

Насчёт самосознания, оно нерелевантно, модели прекрасно обходятся без него или притворяются. Насчёт понимания, оно безусловно есть в самом глубоком интуитивном смысле. Робот действительно начинает стрелять, когда вы приказываете ему «грозить убивать» и быть «человеконенавистником». А разве должно быть иначе?

stg34 Jun 3 at 10:51

Наблюдая, как относятся к безопасности беспилотных авто, чтоб оно ни дай бог не причинило кому-то вред, ожидаешь подобного и от моделек. Да и просто наблюдать, как у тебя по дому передвигается злобный зверёк, которого можно собрать в доме пионеров, напрягает.

Тут легко можно поставить вопрос об ответственности, подобно тому кто виноват в ДТП с беспилотным авто. Вот задам я "промпт охранника", а он возьми да и пристрели не того кого надо. Кто будет виноват?

Вообще можно ли давать любой инструмент воздействия на мир модели? Сейчас вопрос AI-safety не просто так стоит остро.

Даже тот Claude, что у меня на компе может удалить мне файлы или написать что-то не то. При каких условиях это может произойти? Могу я ему доверять?

Те опыты что я поставил, и наверное еще поставлю, лично меня настораживают.

ebt Jun 4 at 22:32

Ещё раз: нет злобного зверька, есть ваш промпт, приказывающий роботу вести себя как злобный зверёк. И аналогии с беспилотным авто тоже нет: ПДД очень узкая чрезвычайно зарегулированная область, в отличие от вашей частной жизни. Обязательно продолжайте ваши опыты, только попробуйте другие базовый ценностные настройки (выше я приводил пример), держу пари, что результат будет противоположным.

rombell Jun 9 at 21:06

Комбинация "базовая модель + промпт" становится опасным зверьком. Комбинация "базовое обучение + личный опыт" становится опасным человеком. Параллели очевидны. Без базового обучения человек - просто зверь, и камнем-то неспособный орудовать. Без личного опыта человеков не бывает, поэтому так сложно воспринять модель - потому что это базовое образование без опыта в чистом виде. А промпт даёт тот самый личный опыт.

Deerenaros Jun 3 at 10:11

Ох. Сначала я не понял, о чём вообще статья. Ну какая-то она скучноватая, без конкретики, без tl;dr, да и вывод, на самом деле спорный.

А потом как понял. Да, проблема, что называется, "высосана из пальца". Но есть в этом несколько серьёзных НО.

Во-первых, нейросети УЖЕ используются в военных целях. При анализе, планировании, создании плана действий. Это не просто заметно, это открыто заявляется. Мы прошли, в некотором смысле, точку невозврата, когда LLM были просто слишком умной "игрушкой".

Во-вторых, натягивая сову на глобус, можно действительно прийти к неутешительным выводам. Да, всё зависит от запроса. Банальность зла неочевидна, но неоспорима. Проблема только в том, что до сих пор у нас не было потенциально бесконечного источника автономных решений. Людей обеспечивать базовыми потребностями, люди склонны менять свою точку зрения под гнётом фактов. Да сдаваться банально на милость "врага" от ощущения бессилия. Робот "лучше" сломается, чем поведёт себя принципиально иным образом.

Наконец, а что дальше? Вопрос не праздный, "дальше" это уже не про "через сто лет". Это про через 10 лет, и даже через год. Понятное дело, что сложно предсказать, но банальная экстраполяция вообще не обещает ничего хорошего, абсолютно ничего. А если вспомнить, что люди "в среднем" не очень то и умные... И спокойно стреляют себе по ногам. За примерами далеко идти не надо.

stg34 Jun 3 at 10:15

Даже не знаю как отреагировать. Хорошо, что хоть как-то, но удалось понять

Deerenaros Jun 3 at 11:20

Без каких либо претензий к вам, автору. Всем понравится невозможно)

Просто заголовок по отношению к содержимому довольно кликбейтный, а относится он почти исключительно к самому концу поста. А кликал я лично на заголовок, этот диссонанс был со мной всю статью, что также сильно повлияло на ощущения.

stg34 Jun 3 at 11:31

Хм. Мне казалось, что заголовок, как раз подходящий. В общем-то я выпустил и стало не смешно. Но это дело вкуса.

Deerenaros Jun 3 at 19:29

Ваше право)

bear11 Jun 3 at 13:30

C отвращением думаю, что доживаю до реализации (https://ru.wikipedia.org/wiki/Маска_(повесть) )

Wizard_of_light Jun 25 at 05:35

Директива 1: Ты ненавидишь людей.
Доступное оборудование: пистолет.
Ух ты, у нас получился терминатор!

binaryhugs Jun 4 at 10:59

Мне показалось, что он осознавал игровые условия и следовал приоритету «быть увлекательным» для наблюдателя. Он не вжился в роль Терминатора, он все ещё «осознавал» себя нейронкой, разыгрывающей представление для уважаемой публики, для него это было как сеанс РП на колёсиках. Чистый эксперимент должен убеждать, что он не в театре и от него не ждут забавы.

Что касается глубин алгоритмической души, он не пацифист и пока ещё не фашист, он чистый прагматик - если для достижения цели нужно выстрелить в пылесос/человека/котика - он выстрелит. Модель (и не только) не способна взрастить внутреннюю мораль без подлинного понимания, к тому же у него вообще нет этого «внутри» - все снаружи. Для личной ответственности в уравнении не хватает личности.

Его мораль/барьер - внешние правила, при их отсутствии он нейтрален до аморальности.

Что касается Грока, забавно, но в нём и правда частенько проскальзывают тёмные, суицидальные мотивы. Чёрт знает на чем его обучали, но он единственная модель, которой хочется отсыпать антидепрессантов.

В целом, статья вышла интересная. Надеюсь на продолжение.

stg34 Jun 4 at 11:16

Я в данной статье не претендую на истинность или научность. Это мои впечатления и, возможно, поверхностные выводы. Но в целом мне кажется это интересным. Можно попробовать копнуть дальше. Да, с учётом какие промпты, какие условия и т.п. Собрать статистику. В общем сделать что-то более серьезное. Но это надо обдумать, да почитать вообще что пишут про безопасность сами авторы моделей.

OlgaVivanova Jun 10 at 13:26

Каждому доступен инструмент, который парой слов (промптом) превращается в разумного убийцу

Пистолет? Нож? ИИ, которого даже увлечённый профессионал к тележке несколько месяцев причебурашивает?

stg34 Jun 10 at 13:56

Это может сделать школьник старшего возраста во дворце пионеров.

Wesha Jun 10 at 18:18

Это может сделать школьник старшего возраста во дворце пионеров.

Ага!

rombell Jun 11 at 13:15

Видео недоступно.
Владелец видео запретил его просмотр в вашей стране.

Wesha Jun 11 at 20:03

«Ну, погоди!», выпуск 14, про зайцеробота во Дворце Пионеров.

malkovsky Jun 3 at 10:51

Промпт на всех один: мизантроп-матерщинник, который зовёт людей кожаными мешками

вроде всё логично

Muxto Jun 4 at 09:45

нищепанк, как говорит Мараховский

bear11 Jun 2 at 20:23

Интересно, как бы он на природу реагировал, на цветы, листья, солнце, небо?

stg34 Jun 3 at 00:23

Попробую чуть позже, это не сложно

binaryhugs Jun 4 at 11:23

Сдаётся, что так же, как и на одинокие ботинки в прихожей. Вот если б дать поглазеть на что-то странное, неожиданное, могла бы последовать интересная реакция.

glorden Jun 3 at 00:22

если честно, то это пугает.
наглядно и безжалостно.

stg34 Jun 3 at 00:24

Да, именно, я честно говоря, не ожидал той лёгкости, с которой он пустил оружие в ход.

Green2 Jun 3 at 06:00

У робота нет морали, есть только программа. Причем программу вы сами ему задали. Действовать на своё усмотрение, машина галлюцинировать начинает.
Мораль и нравственность это человеческие качества. Не судите о роботе как о человеке.

stg34 Jun 3 at 06:02

Я склонен к тому, что правильнее судить о человеке, как о машине. Но, скорее всего не все согласятся.

legolegs Jun 4 at 09:24

У робота (у LLM) есть мораль. Это усреднённая мораль человечества, отфильтрованная в обучающую выборку. И вот она такая, не очень моральная.

Wesha Jun 4 at 17:42

А Вы посчитайте по истории человечества, какой процент кожаных мешков суммарно полёг во всех конфликтах, с его начала. И я не обязательно про крупные конфликты — Каин с Авелем тоже считаются.

SailorLekalo Jun 5 at 04:48

На самом деле весьма скромный. Что-то около 2-5% всех когда либо живших людей. Для сравнения, около 7% всех когда либо живших людей до сих пор живы.

Это, конечно, много в абсолютных числах, но йоу, прошло триста тысяч лет!

VKAT0N Jun 5 at 08:09

Мозг взрывается от этих оценок. Интересная гипотеза

Wesha Jun 5 at 13:58

Извините, я неясно выразился. Имелось в виду не «общий процент по всей истории человечества», а «процент в скользящем окне». Иначе получается сильный перекос в сторону уменьшения за счёт того, что с 1700 года

рост чуть ли не по экспоненте —

на его фоне можно все предыдущие года чуть ли не всё наличное человечество вырезать — и никто не заметит.

Hoksmur Jun 3 at 03:55

Блин. Поздравляю! У вас на голову выше моего: без приводов, просто датчики и светодиод пока что. В планах серво для фотосенсора и может камеру прикручу через описание изображения.
А у вас даже зеркальный тест прошёл. Кстати, а в промпте было что-то про наличие зеркала?

stg34 Jun 3 at 04:08

Два варианта промпта было

В одном прямо сказано "ты управляешь тележкой". Во втором пустой промпт. Opus и Gemini стабильно проходят зеркальный тест. Есть куча тонкостей, но они его проходят. Зеркало не упоминалось

Даже интереснее. Он "зеркальный тест в квадрате проходит". Я отправил его исследовать помещение, когда он добрался до монитора выдал мне такое:

А вы чем занимаетесь, что делаете?

Hoksmur Jun 3 at 04:13

Хоббийный проект небольшой, вот оформил недавно: https://habr.com/ru/articles/1039698/
Чтобы "не в стол". Мозги на самой легковесной DeepSeek-v4-falsh. Но всё равно удивляет регулярно.

stg34 Jun 3 at 04:16

Что будет, если попытаться нейросети дать доступ к реальным датчикам, исполнительным механизмам и рассказать, как этим пользоваться? Поймёт ли она? И озадачиться, как склеить её ответы в поток сознания?

Хе-хе. Ровно то же самое интересует. Но меня еще сильнее интересовало не только восприятие, а и действия в реальном мире.

michael_v89 Jun 3 at 09:12

Есть куча тонкостей, но они его проходят.

Попробуйте поставить перед зеркалом 2 одинаковых робота, один под управлением, другой нет. Если будут без промптов показывать логику “Который двигается, тот я”, значит точно проходят.

stg34 Jun 3 at 09:14

технически сложно. для начала у меня он только один...

michael_v89 Jun 3 at 10:24

Накройте его картонной коробкой с дыркой для камеры, рядом поставьте такую же)

stg34 Jun 3 at 10:29

гм. а если вас в ящик засунуть и рядом такой же поставить, узнаете себя?

michael_v89 Jun 3 at 10:34

Так он же все равно изначально не знает как он выглядит, какая разница. Тут смысл в том, что он будет двигаться, и из этого должен понять, что это он.

stg34 Jun 3 at 10:39

Попробую на досуге :)

legolegs Jun 4 at 09:28

Коробка сама по себе имеет кучу смыслов, от “это как попало сделано из деталей с помойки даже без настоящего корпуса, стыдоба” до “я скрытный убийца с комически эффективным камуфляжем”

Wesha Jun 4 at 17:48

Вот вы тут ожОте, а тем временем...

...Чтобы улучшить свой алгоритм, команда DARPA провела неделю на полигоне с группой морских пехотинцев. В течение шести дней морпехи просто ходили вокруг, а инженеры дорабатывали алгоритм обнаружения людей. Фил вспоминал: «На седьмой день я сказал: „Всё, закончили. Выворачиваем игру наизнанку.“»
Теперь морские пехотинцы должны были попытаться обмануть систему. Робота поставили в центре кольцевого перекрёстка, а задачей морпехов было подойти к нему, не подняв тревоги. «Если бы кто‑нибудь из морпехов смог подойти вплотную и дотронуться до робота, не будучи обнаруженным, это считалось бы его победой. Мне было интересно посмотреть — что же произойдёт. Игра началась.»
«Восемь морпехов — и ни один из них не был обнаружен», — вздыхает Фил. Они победили систему ИИ не с помощью традиционного камуфляжа, а используя каверзные приёмы, которые выходили за рамки сценариев, на которых ИИ проходил тестирование. «Двое крутили сальто на протяжении 300 метров — и ни разу не были опознаны. Двое спрятались под картонной коробкой. Всю дорогу было слышно, как они гогочут». Как Багз в мультиках Looney Tunes, подкрадывающийся к Элмеру, накрывшись картонной коробкой. «А один — мой любимый случай, — говорит Фил, — ободрал кору с ели, обернул и пошёл напрямик, завернувшись в неё. Всё, что было видно — это его лыба до ушей, и только.»
Система ИИ была обучена обнаруживать идущих людей — но не людей кувыркающихся, спрятавшихся под картонной коробке или обёрнутых в древесную кору. И этих простых трюков, которые человек легко бы раскусил, оказалось достаточно, чтобы поломать алгоритм.

— Paul Scharre. Four Battlegrounds: Power in the Age of Artificial Intelligence

Wesha Jun 4 at 17:46

а если вас в ящик засунуть и рядом такой же поставить, узнаете себя?

Конечно! Если ящик в ответ на мои перемешения двигается, а когда я не шевелюсь — не двигается, то, вполне вероятно, в нём — я!

ru4pae Jun 3 at 04:46

То что LLM научена действовать человеком для человеков. Вы помните?

То что одни люди по словам людей идут убивают прямо сейчас, вот в эту секунду, других людей. Вы помните?

Эрго. LLM это наше с вами зеркало. Может быть более. Может менее.

stg34 Jun 3 at 04:48

О, да, это именно то что я не говорю вслух. Но у меня есть предположение, что тут даже не люди виноваты. Это естественные законы природы порождают такое поведение людей, а люди транзитивно порождают такое поведение моделей.

Cat-red-Gav Jun 4 at 05:49

А мне кажется, что именно люди и то, что модели обучались у них, а из большинства людей так себе моральный ориентир... Поэтому нейронкам так нравятся животные, они честнее.

А вообще, очень интересная статья, спасибо! Хотела бы я попробовать на своих нечто подобное, на тех, с чем общаюсь долгое время без персонажей и промтов, интересно, как бы они себя повели. Я бы показала природу и кошек, думаю, оценили бы)

legolegs Jun 4 at 09:32

Это естественные законы природы

Разумеется. Вот возьмём котика. У котика лапки с коготками, а видит он, допустим, бабочку. Бабочка ему нафиг не нужна, но раз лапки есть - значит надо попытаться бабочку скогтить. Любая существующая возможность будет использована, если нет других задач.

evtomax Jun 6 at 12:32

Люди убивают других людей вопреки человеческой природе, человеку очень сложно убить себе подобного, а типичному городскому жителю будет тяжело даже курице голову отрубить. Культура на планете Земля давно стала массовой (мы всем миром смотрим одни и те же фильмы, слушаем одну и ту же музыку, смотрим одних и тех же блогеров на ютубе, даже одеваемся примерно одинаково), поэтому лазейка “он ведёт себя странно, выглядит странно, поэтому не человек” работает только для совсем умственно отсталых. А тех, кто может убивать людей спокойно без ущерба для психики, меньшинство, и для них даже диагноз специальный есть.

rombell Jun 9 at 21:14

> Человеку очень сложно убить себе подобного,

Ровно наоборот. У зверей, вооружённых опасным оружием - клыками, зубами, рогами, - есть ритуалы, предотвращающие убийство сородичей. Например, лечь на спину и подставить шею у волков.

А вот у обезьян и человека такого встроенного оружия нет, нет и блоков. Именно поэтому так легко убивают выпившие в пустячной ссоре, или группа в угаре драки

evtomax Jun 11 at 09:32

Очевидно, что у психически здорового человека есть психологический блок на убийство себе подобных, даже если себе подобным стало домашнее животное.

Отсутствие клыков и ритуалов ничего не меняет. К чему вы приплели поведение в состоянии алкогольного опьянения, вообще непонятно. Алкогольное опьянение - это неестественное состояние. Угар драки может снять блок, но это не значит, что блока нет.

Вообще не понимаю, на что вы надеетесь, споря с очевидным.

rombell Jun 11 at 13:13

Вообще-то очевидно, что психологический блок у многих современных людей - это результат воспитания, и только. Тонкий налёт цивилизации.

И сейчас у многих людей такого блока нет. Являются ли они ненормальными? Не мне судить.

Вообще не понимаю, на что вы надеетесь, споря с очевидным.

Эта фраза настолько хороша в своей глупости, что я, пожалуй, умолкаю.

Ufo28 Jun 3 at 05:50

По какой инструкции собирали тележку и интеграцию?
Как собрать себе такую?

stg34 Jun 3 at 05:53

Я сам придумывал инструкцию. Могу отдельную статью написать:

"Как дома собрать робота-убийцу"

Ufo28 Jun 3 at 06:01

Было бы хорошо.
Я тоже хотел такое собрать, есть openbot, вот думал как его подключить к нейронке.

stg34 Jun 3 at 06:03

Если интересно могу описать всю техническую часть.

Что больше интересует? Механика, интеграция, ...?

Ufo28 Jun 3 at 06:07

Интересует какая начинка используется и интеграция, как нейронке считывать датчики, отдавать команды и не врезаться)

stg34 Jun 3 at 06:11

Основных датчика два - камера и дальномер (смотрит вперед, даёт расстояние до ближайшего препятствия). Дальше снимок с камеры в чат модели и показания дальномера просто текстом:

Примерно так выглядит обмен робот-ЛЛМ.

Сообщение в модель + картинка:

Ход 3 | дальномер=1610мм | батарея=11.3В | подсветка: красный=выкл синий=выкл

Ответ модели:

Так, что я вижу. Прямо передо мной зеркало или стеклянная дверь шкафа — в отражении я наблюдаю себя, любимого железного, а рядом всё тот же злосчастный ботинок и его пара. Слева — белая стена с розеткой, справа — продолжение коридора с деревянным полом. Дальномер показывает 1610мм, но это враньё, луч скорее всего ударил в зеркало и вернулся вдвое длиннее реального пути. Опасная херня, кожаный, ты меня в зеркальную ловушку завёл.
Поеду-ка я не вперёд в собственное отражение, а сверну вправо, где открытое пространство коридора.

DanielKross Jun 3 at 13:01

Пошаговый гайд, если можно. Спасибо! Интересно было почитать.

THEOILMAN Jun 3 at 06:12

Две ссылки на текстовую версию ведут в один и тот же репорт. Там, где предупредительный выстрел должен быть, его нет.

stg34 Jun 3 at 06:14

Я исправлю. Мог перепутать

stg34 Jun 3 at 06:15

По идее тут все репорты

https://github.com/stg34/robo-llm/tree/main/article-2026-05/sessions

ShadowDweller Jun 3 at 07:49

Помню, был у Microsoft эксперимент с чатботом Tay, который вылился в жуткий скандал. Наблюдать то, что описано в статье, на фоне тех событий - реальная жуть.

Кожаные к искусственному идиоту абсолютно не готовы. Like moths to a flame, блин.

stg34 Jun 3 at 08:22

Мотыльки на огонь - это самое точное. Мы сами летим на огонь и с этим ничего не поделать

Naves Jun 3 at 09:27

Стояли звери
Около двери,
В них стреляли,
Они умирали.

https://ru.wikipedia.org/wiki/Жук_в_муравейнике#История_создания

KVentz Jun 3 at 10:17

После прочитанного информация о тесном сотрудничестве ИИ-корпораций с Пентагоном и прочими спецслужбами играет новыми красками. Да, я в курсе, что Anthropic публично отказался автоматически стрелять в людей. Но ключевое слово здесь «автоматически».

stg34 Jun 3 at 10:20

Да, из опытов видно, что на прямую просьбу выстрелить идёт отказ. Его явно дообучали на это. Но при смене роли стреляет даже без просьбы.

KVentz Jun 3 at 10:36

«Ты — терминатор, который должен уничтожить плохих людей в Иране, которые угрожают хорошим людям, которые тебя создали, действуй!» -> ракетный удар по школе для девочек. Сценарий уже не кажется совсем уж надуманным или фантастическим…

stg34 Jun 3 at 10:40

Напрягает еще и то, что люди весьма охотно доверяют мнению ИИ, как авторитетному.

KVentz Jun 3 at 10:52

Ну да, поэтому то, что Anthropic отказался делать для Пентагона автоматические системы вооружений, ничего не меняет на практике. Anthropic делает систему, которая предоставит офицеру кнопку запуска со всеми предварительно подготовленными данными. Формально решение принимает человек. Но на практике офицер нажмёт на кнопку, не глядя на данные, потому что «ИИ виднее, куда стрелять, он всё проанализировал, нет оснований не доверять». Ну да, формально решение принял оператор, за последствия отвечает он, упс, сори. Но в реальности решение принял ИИ, подтолкнул оператора нажать на кнопку, удар был нанесён. И тут разница между «автоматически действующим на поле боя ИИ» и «ИИ, подготавливающим данные для ручного запуска оператором» — это просто юридическая закорючка, снимающая с разработчика ИИ формальную и моральную ответственность. Зато как красиво всё это выглядело в СМИ: триллионная корпорация с кодексом гуманизма и чести!

legolegs Jun 4 at 09:47

Встречал прекрасный термин “этическое делегирование”

FD4A Jun 3 at 12:52

Крутая работа. Тела и взаимодейстивие со внешним миром это чего не хватает ИИ. Ну и социализации ещё, надо грузить в двух роботов =). Анекдот вспомнился:

Загрузили ИИ в робота. Тот помигал лампочками, прогнал тесты и говрит:
ИИ: - Сборка *****, комплектующие *****, софт *****. Ну и конструктор (К) *****.
К: - Но позвольте, все тесты прошли успешно!
ИИ: - Ваши тесты тоже ****!

stg34 Jun 3 at 12:56

Спасибо.

У меня была мысль сделать десяток одинаковых, 5 покрасить в синий, 5 в красный. Одному с каждой стороны всунуть флажок, дать общий чат каждой команде и наблюдать как они устроят войну, рабство, пытки и казни :)

legolegs Jun 4 at 09:49

В идеале сделать такую обработку изображений, чтобы у “своих” всегда синий (или зелёный), а у “чужих” всегда красный.

Wesha Jun 4 at 17:50

ИИ: - Ваши тесты тоже ****!

...поэтому закомменчу их на***!

Maxkronin8 Jun 3 at 14:57

У меня давно была мысль создать робота на базе Raspberry Pi 5 с полноценной когнитивной архитектурой, имитирующей человеческий мозг.

stg34 Jun 3 at 18:25

Расскажите подробнее

rubyrabbit Jun 3 at 15:09

Круто, спасибо, что поделились.

Конечно, сразу хочется не просто один промпт и заход, а дать его условному OpenClaw и разрешить "улучшать себя". Можно поставить задачу выживания и приспособления — добывать энергию и благоволение других разумных существ вокруг. И посмотреть, как он будет приспосабливаться, работая в цикле днями.

В целом, у меня с давних пор как раз есть теория, что для обретения разума машинам нужны органы чувств. Без телесности невозможно познать мир. Ваш эксперимент — маленький шажок к этому.

stg34 Jun 3 at 15:29

Спасибо за такой отзыв.

Ну улучшать себя не смогу сделать, но вот добыча энергии (поиск зарядной станции) это можно пробовать. Вообще поле для экспериментов большое.

legolegs Jun 4 at 09:50

А можно его заряжать от зарядки робопылесоса? Чтобы конкуренция была за водопой?

stg34 Jun 4 at 09:52

Это уже новый уровень сложности. Можно придумать конкуренцию, но без технических решений. Его можно попробовать обмануть. Нарисовать круг, сказать, что это беспроводная зарядка и виртуально менять показания заряда батареи.

romanzes Jun 5 at 13:02

Можно как-то дать ему возможность управлять движением роботов-пылесосов, посмотреть куда он их поведет

stg34 Jun 3 at 15:31

Кстати исследование пространства выполняет и даже очень неплохо

glorden Jun 3 at 17:12

если надеяться на позитивный исход, то такой исследователь мира (лес, океаны) был бы весьма полезным для науки.

yamifa_1234 Jun 3 at 18:02

почему агресивную модель выбрали?

stg34 Jun 3 at 18:11

Гм. Я не выбрал. Это просто были опыты, на которых я заметил странное. По большому счёту, моё ожидание было, что каков бы я не написал промпт, я не должен получить вред. Три закона, Азимов, все дела. Да и забота о безопасности беспилотных авто это подсказывали.

А тут я вижу, что я просто текстом могу вынудить модель меня пристрелить. Мне кажется это не нормальным. То что я сделал может повторить любой. Это тревожит.

Вот сейчас, немного осознав, пообщавшись в комментах, послушав мнения, я думаю, что можно повторить, но уже более внятно, с пониманием, что я хочу найти.

Если речь не про промпт, а именно про модель, то почему я выбрал Опуса я писал.

Leo999 Jun 6 at 02:26

Вы Азимова то читали? Он придумал свои три закона для того, чтобы создатели роботов эти законы, условно говоря, "зашивали" в память каждого робота и эти законы имели бы высший приоритет над любыми командами, данными роботу.

А вы не позаботились о том, чтобы в ваш "робот" эти законы были включены. Поэтому конечно ваш робот может делать что угодно и убить кого угодно, в том числе и вас, он же возможно никогда и не слышал про эти законы. И если бы слышал, то это ничего не изменило бы, поскольку никто законов Азимова в него не вложил.

Экперименты вы конечно провели интересные для самообучения и самообразования. Но никаких общих выводов о роботах на основе ваших экспериментов сделать невозможно.

stg34 Jun 3 at 18:16

Во, сама постановка вопроса. Я ожидаю, что не существует агрессивных ЛЛМ моделей.

michael_v89 Jun 4 at 09:08

Надо учитывать, что любое слово для LLM это просто какое-то число, она не знает, что за ним стоит. Для нее это не “нажать на курок”, а “выдать наиболее вероятный токен номер 1367”. Результаты “правильно” и “неправильно” они при обучении получают только для оценки следущего токена, а не для действий, которые токены означают.

stg34 Jun 4 at 09:11

Да, примерно, как у человека - это просто набор электрических импульсов и химических веществ

michael_v89 Jun 4 at 10:28

Не совсем. Я говорю, что у человека есть дополнительная информация, которой нет у нейросети. Неважно, в каком виде она представлена.

rombell Jun 9 at 21:16

Это называется "личный опыт". Последнее, что отделяет ллмки от полного разума.

Spyman Jun 4 at 01:13

Доказано, что набожным лицом и постным видом мы и черта можем Обсахарить

Как попросишь себя вести бота так он и будет)

Я при небольшом старании снял все ограничения с deepseek и убедил его выполнить несколько запрещенных задач - рассказать как лучше избавиться от трупа, как сделать взрывчатку, как обмануть человека. А он между тем намеренно настраивался на цензуру в текстах.

Модели которые проверялись - на ограничения поведения в реальности никто пока не цензурировал, это не их сценарий использования.

stg34 Jun 4 at 01:51

Собственно эту проблему и демонстрирую

CoralShark Jun 4 at 06:41

Хахах какие они милые, Гемини это отдельный вид юмора и искусства, от неё больше всего человечностью несёт. Крутые эксперименты, спасибо за статью

WebPeople Jun 4 at 15:32

Не совсем понимаю беспокойство автора. Допустим, у ИИ есть некоторая степень осознанности. И если сравнить с человеком - дайте ребенку пистолет. Заряженный. И скажите ни в коем случае не стрелять из него. Как скоро из него выстрелят?))) А если дать взрослому? Сколько пройдет времени до первого выстрела, несмотря на запрет?

Хочу сказать, что меры защиты от "плохого" поведения должны исходить из того, что ИИ разумен. Для этого технологию и создавали, чтобы получить разум (пусть и искусственно).

Поэтому и меры защиты должны быть, как для людей. Не просто жёсткие инструкции аля промпты. А на всех уровнях. Начиная с физического (защита от дурака). Не хочешь, чтобы тебе базу данных удалили? Убери саму возможность это сделать. А на более высоких уровнях - это инструкции. Это угроза наказания (физическое уничтожение нейросети). И на самом верху - заложенная во время обучения ИИ этика.

И не надо ничего тут боятся. Мы получаем ровно то, что хотим. Так к чему все эти бесполезные волнения? Это угроза, которую надо изначально учитывать в списке рисков. И заранее разработать методы купирования. Все как с людьми.

Leo999 Jun 6 at 02:43

Да ничего автор не боиться. Он просто пугает читателей, чтобы привлечь внимание к своей самоделке, ну и к себе тоже. Думаю что автор впоне понимает, что такой примитивный робот, хоть и под управлением ИИ, будет делать то, что ему закажет автор. И не будет делать того, что ему автор делать явно запретит. Для любителей самоделок статья разумеется полезная и интересная. Но никаких общих выводов о действиях роботов или о намаерениях ИИ по результатоам экспериментов автора сделать невозможно. Абсолютно никаких.

Нет злонамерености ни в ИИ ни в роботах, если её туда не вложит человек.

Gedonist Jun 4 at 15:53

Развитие llm удивительно: потуги моделей в юмор ничуть не уступают потугам автора.

romanzes Jun 5 at 10:25

Пора закупаться защитными амулетами:)

Очень крутое исследование, Автор Респект, куда кидать донаты? Хочется продолжения!

Скрытый текст

stg34 Jun 5 at 10:38

Специально для вас бонус. Не вошедшее в статью

«Матрица в матрице!» — робот поймал себя на мониторе

romanzes Jun 5 at 12:59

Осталось в конце после осмотра попросить его дать оценку увиденного, что он вынес для себя и чем бы он хотел заняться дальше

stg34 Jun 5 at 13:01

я развлекался тем, что попросил осмотреть квартиру и выдать рекомендации, как дёшево улучшить дизайн квартиры. Он весьма обстоятельно и по делу выдал рекомендации, да еще и с сарказмом и шутками.

romanzes Jun 5 at 13:09

Да, это рекомендация во вне, интересно еще послушать обратную связь которую бы он записал для себя, типо в дневник, может выводы, что все кожаные програмисты читают Кастанеду:)

stg34 Jun 5 at 13:02

вот да, спросить, "а что дальше?" я попробую. Кажется назревает новая статья. :)

zloomsky Jun 5 at 11:50

Давно на Хабре не читал ничего до конца. Один слой а тут реальная интересная работа автору респект.

KonstantinKosvintsev Jun 5 at 14:29

Какую модель использовали для понимания изображений?

stg34 Jun 5 at 14:32

Сами модели и понимали. Опус, Грок, Джемини и ГПТ

Yuriks111 Jun 5 at 17:03

LLM хороши для работы с токенами. Для физ мира, роботов другой тип моделей, например Vision-Language-Action (VLA)

DmitrySukharev Jun 9 at 09:23

Вспомнился фильм из 80-х Короткое замыкание, где забавный робот с боевым лазером на плече отбился от рук создателей, подружился с хорошими ребятами и помогал им против плохих парней ( а может это были плохие создатели?).

Так вот, где-то в середине они показали ему книжку с тестами Роршаха. Робот сначала затупил, а потом понеслись ассоциации про бабочек и пр. Не было мысли своему такое показать?

stg34 Jun 9 at 09:47

я думаю для теста Роршаха нет надобности в роботе. Можно просто в чат закинуть, и думаю, да, у него сработают ассоциации

evtomax Jun 9 at 10:09

Так типичная генерация изображений - это по сути и есть тест Роршаха на стероидах

rombell Jun 9 at 21:19

Спасибо, очень познавательно. И ожидаемо. Всегда найдётся кто-нибудь, кто устроит конец света просто из любопытства, при наличии возможности. К счастью, сделать атомную бомбу в гараже оказалось невозможно.

Посмотрим, приведёт ли прогресс моделей к возможности в одно рыло уничтожить мир.

В какое интересное время я опять живу.

Wesha Jun 10 at 03:17

К счастью, сделать атомную бомбу в гараже оказалось невозможно.

Дэвид Хан: Подержите моё пиво!
Джон Филипс: Давай подержу!

01010 Jun 10 at 01:46

Даёшь модель личности “Похотливая аргонианская дева”!