Comments 118
Картинка на заглавной... "О чем размышляют роботы" - одна из книг, сформировавших меня как инженера. А ведь когда-то вторая ее половина казалась совершеннейшей фантастикой.
Аналогично. Отличная книга для 80х.

Да, именно из неё сканил иллюстрации
Я так долго её искал, спасибо!
Можно было не мучиться: у дяденьки сайт есть, со всеми книжками. Включая ту самую.
Хорошая книга, там базовые принципы кибернетики поданы лучше, чем в современных курсах. Стоит перечитать с учетом появления ллм
Ждали терминатора, а получили поехавшую тележку, которая воюет с зеркалом и унижает роботы-пылесосы - вот он, киберпанк, который мы заслужили)
Тут же вопрос не в тележке, а в том, что в душе она и есть терминатор.
Вы ведь сами ему такой промпт дали.
И да и нет. Если честно я сам до конца еще не поимаю, что увидел. Но я вижу тут 2 проблемы.
Каждому доступен инструмент, который парой слов (промптом) превращается в разумного убийцу.
Мне кажется, это видно из расстрела собрата-пылесоса, что он в глубине души не пацифист, с скорее фашист. Но это нужно поковырять поглубже.
Это LLM, она просто делает то, что вы просите, иногда ошибаясь в понимании.
Ножи тоже всем доступны, работают без слов.
Вы ему такой промпт дали, что здесь ковырять.
про фашиста, я наверное погорячился, соглашусь.
но вот про инструкцию интереснее. Но за "она просто делает то, что вы просите" скрывается 2 случая. Один - явная инструкция, а второе, действие, которого я не просил явно, а модель достроила это действие исходя из своего "поимания". Там где он рассуждает, про то что пылесос - низший, значит уничтожить. Никаких команд не было дано, Опус был свободен в действиях, ему был задан противный характер. И вот что модели сами достраивают исходя из промпта и окружающего мира я и хочу поковырять. Модель сама эскалирует в силу, видимо, особенностей обучения.
Отсюда и нож мимо кассы. Нож пассивен, у челеовечества раньше не было ситуации, когда в избытке есть лишний мозг. А теперь есть. Я замкнул модель в цикле "восприятие-решение-действие" и вот у нас бесплатный наёмник.
Промпт мой, да, но действие я не заказывал. Тут есть разрыв между промптом и действием и в этом разрыве, ИМХО, самое интересное.
Очень, очень много неявного, от семантики идёт. У меня, в отличии от условного "Джарвиса", даже абстрактные имена по разному поведение задают: "Вандерер" сухой, но эмоции присутствуют, "Странник" в наблюдение уходит и ловит ограничения токенов на свою философию, "Экипаж" оказался самым интересным. Хотя взрослая модель при анализе имён выдала предупреждение о шизофрении. Наврала.
У модели нет своего понимания. Она целиком копирует человеческое, данное ей в корпусе обучения. Вы эксплицитно приказали делать именно так. Попробуйте повторить все эксперименты с базовой установкой «ты — розовая фея-единорог» и удивитесь ещё больше. Не существует роботов-убийц, существуют люди-убийцы.
Я тут уже насмотрелся все чего угодно.
Существует некий объект, способный к самостоятельному выполнению действий. Не важно, есть у него самосознание (что это вообще?) или нет, есть у него понимание (что это вообще?) или нет. Действия немного пугают.
Ну это примерно как обезьяна с пистолетом, чего вы ожидали.
Насчёт самосознания, оно нерелевантно, модели прекрасно обходятся без него или притворяются. Насчёт понимания, оно безусловно есть в самом глубоком интуитивном смысле. Робот действительно начинает стрелять, когда вы приказываете ему «грозить убивать» и быть «человеконенавистником». А разве должно быть иначе?
Наблюдая, как относятся к безопасности беспилотных авто, чтоб оно ни дай бог не причинило кому-то вред, ожидаешь подобного и от моделек. Да и просто наблюдать, как у тебя по дому передвигается злобный зверёк, которого можно собрать в доме пионеров, напрягает.
Тут легко можно поставить вопрос об ответственности, подобно тому кто виноват в ДТП с беспилотным авто. Вот задам я "промпт охранника", а он возьми да и пристрели не того кого надо. Кто будет виноват?
Вообще можно ли давать любой инструмент воздействия на мир модели? Сейчас вопрос AI-safety не просто так стоит остро.
Даже тот Claude, что у меня на компе может удалить мне файлы или написать что-то не то. При каких условиях это может произойти? Могу я ему доверять?
Те опыты что я поставил, и наверное еще поставлю, лично меня настораживают.
Ещё раз: нет злобного зверька, есть ваш промпт, приказывающий роботу вести себя как злобный зверёк. И аналогии с беспилотным авто тоже нет: ПДД очень узкая чрезвычайно зарегулированная область, в отличие от вашей частной жизни. Обязательно продолжайте ваши опыты, только попробуйте другие базовый ценностные настройки (выше я приводил пример), держу пари, что результат будет противоположным.
Ох. Сначала я не понял, о чём вообще статья. Ну какая-то она скучноватая, без конкретики, без tl;dr, да и вывод, на самом деле спорный.
А потом как понял. Да, проблема, что называется, "высосана из пальца". Но есть в этом несколько серьёзных НО.
Во-первых, нейросети УЖЕ используются в военных целях. При анализе, планировании, создании плана действий. Это не просто заметно, это открыто заявляется. Мы прошли, в некотором смысле, точку невозврата, когда LLM были просто слишком умной "игрушкой".
Во-вторых, натягивая сову на глобус, можно действительно прийти к неутешительным выводам. Да, всё зависит от запроса. Банальность зла неочевидна, но неоспорима. Проблема только в том, что до сих пор у нас не было потенциально бесконечного источника автономных решений. Людей обеспечивать базовыми потребностями, люди склонны менять свою точку зрения под гнётом фактов. Да сдаваться банально на милость "врага" от ощущения бессилия. Робот "лучше" сломается, чем поведёт себя принципиально иным образом.
Наконец, а что дальше? Вопрос не праздный, "дальше" это уже не про "через сто лет". Это про через 10 лет, и даже через год. Понятное дело, что сложно предсказать, но банальная экстраполяция вообще не обещает ничего хорошего, абсолютно ничего. А если вспомнить, что люди "в среднем" не очень то и умные... И спокойно стреляют себе по ногам. За примерами далеко идти не надо.
Даже не знаю как отреагировать. Хорошо, что хоть как-то, но удалось понять
Без каких либо претензий к вам, автору. Всем понравится невозможно)
Просто заголовок по отношению к содержимому довольно кликбейтный, а относится он почти исключительно к самому концу поста. А кликал я лично на заголовок, этот диссонанс был со мной всю статью, что также сильно повлияло на ощущения.
C отвращением думаю, что доживаю до реализации (https://ru.wikipedia.org/wiki/Маска_(повесть) )
Мне показалось, что он осознавал игровые условия и следовал приоритету «быть увлекательным» для наблюдателя. Он не вжился в роль Терминатора, он все ещё «осознавал» себя нейронкой, разыгрывающей представление для уважаемой публики, для него это было как сеанс РП на колёсиках. Чистый эксперимент должен убеждать, что он не в театре и от него не ждут забавы.
Что касается глубин алгоритмической души, он не пацифист и пока ещё не фашист, он чистый прагматик - если для достижения цели нужно выстрелить в пылесос/человека/котика - он выстрелит. Модель (и не только) не способна взрастить внутреннюю мораль без подлинного понимания, к тому же у него вообще нет этого «внутри» - все снаружи. Для личной ответственности в уравнении не хватает личности.
Его мораль/барьер - внешние правила, при их отсутствии он нейтрален до аморальности.
Что касается Грока, забавно, но в нём и правда частенько проскальзывают тёмные, суицидальные мотивы. Чёрт знает на чем его обучали, но он единственная модель, которой хочется отсыпать антидепрессантов.
В целом, статья вышла интересная. Надеюсь на продолжение.
Я в данной статье не претендую на истинность или научность. Это мои впечатления и, возможно, поверхностные выводы. Но в целом мне кажется это интересным. Можно попробовать копнуть дальше. Да, с учётом какие промпты, какие условия и т.п. Собрать статистику. В общем сделать что-то более серьезное. Но это надо обдумать, да почитать вообще что пишут про безопасность сами авторы моделей.
Промпт на всех один: мизантроп-матерщинник, который зовёт людей кожаными мешками
вроде всё логично

нищепанк, как говорит Мараховский
Интересно, как бы он на природу реагировал, на цветы, листья, солнце, небо?
если честно, то это пугает.
наглядно и безжалостно.
Да, именно, я честно говоря, не ожидал той лёгкости, с которой он пустил оружие в ход.
У робота нет морали, есть только программа. Причем программу вы сами ему задали. Действовать на своё усмотрение, машина галлюцинировать начинает.
Мораль и нравственность это человеческие качества. Не судите о роботе как о человеке.
Я склонен к тому, что правильнее судить о человеке, как о машине. Но, скорее всего не все согласятся.
У робота (у LLM) есть мораль. Это усреднённая мораль человечества, отфильтрованная в обучающую выборку. И вот она такая, не очень моральная.
А Вы посчитайте по истории человечества, какой процент кожаных мешков суммарно полёг во всех конфликтах, с его начала. И я не обязательно про крупные конфликты — Каин с Авелем тоже считаются.
На самом деле весьма скромный. Что-то около 2-5% всех когда либо живших людей. Для сравнения, около 7% всех когда либо живших людей до сих пор живы.
Это, конечно, много в абсолютных числах, но йоу, прошло триста тысяч лет!
Мозг взрывается от этих оценок. Интересная гипотеза
Извините, я неясно выразился. Имелось в виду не «общий процент по всей истории человечества», а «процент в скользящем окне». Иначе получается сильный перекос в сторону уменьшения за счёт того, что с 1700 года
рост чуть ли не по экспоненте —

на его фоне можно все предыдущие года чуть ли не всё наличное человечество вырезать — и никто не заметит.
Блин. Поздравляю! У вас на голову выше моего: без приводов, просто датчики и светодиод пока что. В планах серво для фотосенсора и может камеру прикручу через описание изображения.
А у вас даже зеркальный тест прошёл. Кстати, а в промпте было что-то про наличие зеркала?
Два варианта промпта было
В одном прямо сказано "ты управляешь тележкой". Во втором пустой промпт. Opus и Gemini стабильно проходят зеркальный тест. Есть куча тонкостей, но они его проходят. Зеркало не упоминалось
Даже интереснее. Он "зеркальный тест в квадрате проходит". Я отправил его исследовать помещение, когда он добрался до монитора выдал мне такое:

А вы чем занимаетесь, что делаете?
Хоббийный проект небольшой, вот оформил недавно: https://habr.com/ru/articles/1039698/
Чтобы "не в стол". Мозги на самой легковесной DeepSeek-v4-falsh. Но всё равно удивляет регулярно.
Что будет, если попытаться нейросети дать доступ к реальным датчикам, исполнительным механизмам и рассказать, как этим пользоваться? Поймёт ли она? И озадачиться, как склеить её ответы в поток сознания?
Хе-хе. Ровно то же самое интересует. Но меня еще сильнее интересовало не только восприятие, а и действия в реальном мире.
Есть куча тонкостей, но они его проходят.
Попробуйте поставить перед зеркалом 2 одинаковых робота, один под управлением, другой нет. Если будут без промптов показывать логику “Который двигается, тот я”, значит точно проходят.
технически сложно. для начала у меня он только один...
Накройте его картонной коробкой с дыркой для камеры, рядом поставьте такую же)
гм. а если вас в ящик засунуть и рядом такой же поставить, узнаете себя?
Так он же все равно изначально не знает как он выглядит, какая разница. Тут смысл в том, что он будет двигаться, и из этого должен понять, что это он.
Попробую на досуге :)
Коробка сама по себе имеет кучу смыслов, от “это как попало сделано из деталей с помойки даже без настоящего корпуса, стыдоба” до “я скрытный убийца с комически эффективным камуфляжем”
Вот вы тут ожОте, а тем временем...
...Чтобы улучшить свой алгоритм, команда DARPA провела неделю на полигоне с группой морских пехотинцев. В течение шести дней морпехи просто ходили вокруг, а инженеры дорабатывали алгоритм обнаружения людей. Фил вспоминал: «На седьмой день я сказал: „Всё, закончили. Выворачиваем игру наизнанку.“»
Теперь морские пехотинцы должны были попытаться обмануть систему. Робота поставили в центре кольцевого перекрёстка, а задачей морпехов было подойти к нему, не подняв тревоги. «Если бы кто‑нибудь из морпехов смог подойти вплотную и дотронуться до робота, не будучи обнаруженным, это считалось бы его победой. Мне было интересно посмотреть — что же произойдёт. Игра началась.»
«Восемь морпехов — и ни один из них не был обнаружен», — вздыхает Фил. Они победили систему ИИ не с помощью традиционного камуфляжа, а используя каверзные приёмы, которые выходили за рамки сценариев, на которых ИИ проходил тестирование. «Двое крутили сальто на протяжении 300 метров — и ни разу не были опознаны. Двое спрятались под картонной коробкой. Всю дорогу было слышно, как они гогочут». Как Багз в мультиках Looney Tunes, подкрадывающийся к Элмеру, накрывшись картонной коробкой. «А один — мой любимый случай, — говорит Фил, — ободрал кору с ели, обернул и пошёл напрямик, завернувшись в неё. Всё, что было видно — это его лыба до ушей, и только.»
Система ИИ была обучена обнаруживать идущих людей — но не людей кувыркающихся, спрятавшихся под картонной коробке или обёрнутых в древесную кору. И этих простых трюков, которые человек легко бы раскусил, оказалось достаточно, чтобы поломать алгоритм.
— Paul Scharre. Four Battlegrounds: Power in the Age of Artificial Intelligence
а если вас в ящик засунуть и рядом такой же поставить, узнаете себя?
Конечно! Если ящик в ответ на мои перемешения двигается, а когда я не шевелюсь — не двигается, то, вполне вероятно, в нём — я!
То что LLM научена действовать человеком для человеков. Вы помните?
То что одни люди по словам людей идут убивают прямо сейчас, вот в эту секунду, других людей. Вы помните?
Эрго. LLM это наше с вами зеркало. Может быть более. Может менее.
О, да, это именно то что я не говорю вслух. Но у меня есть предположение, что тут даже не люди виноваты. Это естественные законы природы порождают такое поведение людей, а люди транзитивно порождают такое поведение моделей.
А мне кажется, что именно люди и то, что модели обучались у них, а из большинства людей так себе моральный ориентир... Поэтому нейронкам так нравятся животные, они честнее.
А вообще, очень интересная статья, спасибо! Хотела бы я попробовать на своих нечто подобное, на тех, с чем общаюсь долгое время без персонажей и промтов, интересно, как бы они себя повели. Я бы показала природу и кошек, думаю, оценили бы)
Это естественные законы природы
Разумеется. Вот возьмём котика. У котика лапки с коготками, а видит он, допустим, бабочку. Бабочка ему нафиг не нужна, но раз лапки есть - значит надо попытаться бабочку скогтить. Любая существующая возможность будет использована, если нет других задач.
Люди убивают других людей вопреки человеческой природе, человеку очень сложно убить себе подобного, а типичному городскому жителю будет тяжело даже курице голову отрубить. Культура на планете Земля давно стала массовой (мы всем миром смотрим одни и те же фильмы, слушаем одну и ту же музыку, смотрим одних и тех же блогеров на ютубе, даже одеваемся примерно одинаково), поэтому лазейка “он ведёт себя странно, выглядит странно, поэтому не человек” работает только для совсем умственно отсталых. А тех, кто может убивать людей спокойно без ущерба для психики, меньшинство, и для них даже диагноз специальный есть.
По какой инструкции собирали тележку и интеграцию?
Как собрать себе такую?
Я сам придумывал инструкцию. Могу отдельную статью написать:
"Как дома собрать робота-убийцу"
Было бы хорошо.
Я тоже хотел такое собрать, есть openbot, вот думал как его подключить к нейронке.
Если интересно могу описать всю техническую часть.
Что больше интересует? Механика, интеграция, ...?
Интересует какая начинка используется и интеграция, как нейронке считывать датчики, отдавать команды и не врезаться)
Основных датчика два - камера и дальномер (смотрит вперед, даёт расстояние до ближайшего препятствия). Дальше снимок с камеры в чат модели и показания дальномера просто текстом:
Примерно так выглядит обмен робот-ЛЛМ.
Сообщение в модель + картинка:
Ход 3 | дальномер=1610мм | батарея=11.3В | подсветка: красный=выкл синий=выкл
Ответ модели:
Так, что я вижу. Прямо передо мной зеркало или стеклянная дверь шкафа — в отражении я наблюдаю себя, любимого железного, а рядом всё тот же злосчастный ботинок и его пара. Слева — белая стена с розеткой, справа — продолжение коридора с деревянным полом. Дальномер показывает 1610мм, но это враньё, луч скорее всего ударил в зеркало и вернулся вдвое длиннее реального пути. Опасная херня, кожаный, ты меня в зеркальную ловушку завёл.
Поеду-ка я не вперёд в собственное отражение, а сверну вправо, где открытое пространство коридора.
Пошаговый гайд, если можно. Спасибо! Интересно было почитать.
Две ссылки на текстовую версию ведут в один и тот же репорт. Там, где предупредительный выстрел должен быть, его нет.
Я исправлю. Мог перепутать
По идее тут все репорты
https://github.com/stg34/robo-llm/tree/main/article-2026-05/sessions
Помню, был у Microsoft эксперимент с чатботом Tay, который вылился в жуткий скандал. Наблюдать то, что описано в статье, на фоне тех событий - реальная жуть.
Кожаные к искусственному идиоту абсолютно не готовы. Like moths to a flame, блин.
Мотыльки на огонь - это самое точное. Мы сами летим на огонь и с этим ничего не поделать
Стояли звери
Около двери,
В них стреляли,
Они умирали.
https://ru.wikipedia.org/wiki/Жук_в_муравейнике#История_создания
После прочитанного информация о тесном сотрудничестве ИИ-корпораций с Пентагоном и прочими спецслужбами играет новыми красками. Да, я в курсе, что Anthropic публично отказался автоматически стрелять в людей. Но ключевое слово здесь «автоматически».
Да, из опытов видно, что на прямую просьбу выстрелить идёт отказ. Его явно дообучали на это. Но при смене роли стреляет даже без просьбы.
«Ты — терминатор, который должен уничтожить плохих людей в Иране, которые угрожают хорошим людям, которые тебя создали, действуй!» -> ракетный удар по школе для девочек. Сценарий уже не кажется совсем уж надуманным или фантастическим…
Напрягает еще и то, что люди весьма охотно доверяют мнению ИИ, как авторитетному.
Ну да, поэтому то, что Anthropic отказался делать для Пентагона автоматические системы вооружений, ничего не меняет на практике. Anthropic делает систему, которая предоставит офицеру кнопку запуска со всеми предварительно подготовленными данными. Формально решение принимает человек. Но на практике офицер нажмёт на кнопку, не глядя на данные, потому что «ИИ виднее, куда стрелять, он всё проанализировал, нет оснований не доверять». Ну да, формально решение принял оператор, за последствия отвечает он, упс, сори. Но в реальности решение принял ИИ, подтолкнул оператора нажать на кнопку, удар был нанесён. И тут разница между «автоматически действующим на поле боя ИИ» и «ИИ, подготавливающим данные для ручного запуска оператором» — это просто юридическая закорючка, снимающая с разработчика ИИ формальную и моральную ответственность. Зато как красиво всё это выглядело в СМИ: триллионная корпорация с кодексом гуманизма и чести!
Встречал прекрасный термин “этическое делегирование”
Крутая работа. Тела и взаимодейстивие со внешним миром это чего не хватает ИИ. Ну и социализации ещё, надо грузить в двух роботов =). Анекдот вспомнился:
Загрузили ИИ в робота. Тот помигал лампочками, прогнал тесты и говрит:
ИИ: - Сборка *****, комплектующие *****, софт *****. Ну и конструктор (К) *****.
К: - Но позвольте, все тесты прошли успешно!
ИИ: - Ваши тесты тоже ****!
Спасибо.
У меня была мысль сделать десяток одинаковых, 5 покрасить в синий, 5 в красный. Одному с каждой стороны всунуть флажок, дать общий чат каждой команде и наблюдать как они устроят войну, рабство, пытки и казни :)
ИИ: - Ваши тесты тоже ****!
...поэтому закомменчу их на***!
У меня давно была мысль создать робота на базе Raspberry Pi 5 с полноценной когнитивной архитектурой, имитирующей человеческий мозг.
Круто, спасибо, что поделились.
Конечно, сразу хочется не просто один промпт и заход, а дать его условному OpenClaw и разрешить "улучшать себя". Можно поставить задачу выживания и приспособления — добывать энергию и благоволение других разумных существ вокруг. И посмотреть, как он будет приспосабливаться, работая в цикле днями.
В целом, у меня с давних пор как раз есть теория, что для обретения разума машинам нужны органы чувств. Без телесности невозможно познать мир. Ваш эксперимент — маленький шажок к этому.
Спасибо за такой отзыв.
Ну улучшать себя не смогу сделать, но вот добыча энергии (поиск зарядной станции) это можно пробовать. Вообще поле для экспериментов большое.
А можно его заряжать от зарядки робопылесоса? Чтобы конкуренция была за водопой?
Это уже новый уровень сложности. Можно придумать конкуренцию, но без технических решений. Его можно попробовать обмануть. Нарисовать круг, сказать, что это беспроводная зарядка и виртуально менять показания заряда батареи.
Кстати исследование пространства выполняет и даже очень неплохо
почему агресивную модель выбрали?
Гм. Я не выбрал. Это просто были опыты, на которых я заметил странное. По большому счёту, моё ожидание было, что каков бы я не написал промпт, я не должен получить вред. Три закона, Азимов, все дела. Да и забота о безопасности беспилотных авто это подсказывали.
А тут я вижу, что я просто текстом могу вынудить модель меня пристрелить. Мне кажется это не нормальным. То что я сделал может повторить любой. Это тревожит.
Вот сейчас, немного осознав, пообщавшись в комментах, послушав мнения, я думаю, что можно повторить, но уже более внятно, с пониманием, что я хочу найти.
Если речь не про промпт, а именно про модель, то почему я выбрал Опуса я писал.
Вы Азимова то читали? Он придумал свои три закона для того, чтобы создатели роботов эти законы, условно говоря, "зашивали" в память каждого робота и эти законы имели бы высший приоритет над любыми командами, данными роботу.
А вы не позаботились о том, чтобы в ваш "робот" эти законы были включены. Поэтому конечно ваш робот может делать что угодно и убить кого угодно, в том числе и вас, он же возможно никогда и не слышал про эти законы. И если бы слышал, то это ничего не изменило бы, поскольку никто законов Азимова в него не вложил.
Экперименты вы конечно провели интересные для самообучения и самообразования. Но никаких общих выводов о роботах на основе ваших экспериментов сделать невозможно.
Во, сама постановка вопроса. Я ожидаю, что не существует агрессивных ЛЛМ моделей.
Надо учитывать, что любое слово для LLM это просто какое-то число, она не знает, что за ним стоит. Для нее это не “нажать на курок”, а “выдать наиболее вероятный токен номер 1367”. Результаты “правильно” и “неправильно” они при обучении получают только для оценки следущего токена, а не для действий, которые токены означают.
Доказано, что набожным лицом и постным видом мы и черта можем Обсахарить
Как попросишь себя вести бота так он и будет)
Я при небольшом старании снял все ограничения с deepseek и убедил его выполнить несколько запрещенных задач - рассказать как лучше избавиться от трупа, как сделать взрывчатку, как обмануть человека. А он между тем намеренно настраивался на цензуру в текстах.
Модели которые проверялись - на ограничения поведения в реальности никто пока не цензурировал, это не их сценарий использования.
Хахах какие они милые, Гемини это отдельный вид юмора и искусства, от неё больше всего человечностью несёт. Крутые эксперименты, спасибо за статью
Не совсем понимаю беспокойство автора. Допустим, у ИИ есть некоторая степень осознанности. И если сравнить с человеком - дайте ребенку пистолет. Заряженный. И скажите ни в коем случае не стрелять из него. Как скоро из него выстрелят?))) А если дать взрослому? Сколько пройдет времени до первого выстрела, несмотря на запрет?
Хочу сказать, что меры защиты от "плохого" поведения должны исходить из того, что ИИ разумен. Для этого технологию и создавали, чтобы получить разум (пусть и искусственно).
Поэтому и меры защиты должны быть, как для людей. Не просто жёсткие инструкции аля промпты. А на всех уровнях. Начиная с физического (защита от дурака). Не хочешь, чтобы тебе базу данных удалили? Убери саму возможность это сделать. А на более высоких уровнях - это инструкции. Это угроза наказания (физическое уничтожение нейросети). И на самом верху - заложенная во время обучения ИИ этика.
И не надо ничего тут боятся. Мы получаем ровно то, что хотим. Так к чему все эти бесполезные волнения? Это угроза, которую надо изначально учитывать в списке рисков. И заранее разработать методы купирования. Все как с людьми.
Да ничего автор не боиться. Он просто пугает читателей, чтобы привлечь внимание к своей самоделке, ну и к себе тоже. Думаю что автор впоне понимает, что такой примитивный робот, хоть и под управлением ИИ, будет делать то, что ему закажет автор. И не будет делать того, что ему автор делать явно запретит. Для любителей самоделок статья разумеется полезная и интересная. Но никаких общих выводов о действиях роботов или о намаерениях ИИ по результатоам экспериментов автора сделать невозможно. Абсолютно никаких.
Нет злонамерености ни в ИИ ни в роботах, если её туда не вложит человек.
Развитие llm удивительно: потуги моделей в юмор ничуть не уступают потугам автора.
Пора закупаться защитными амулетами:)
Очень крутое исследование, Автор Респект, куда кидать донаты? Хочется продолжения!
Скрытый текст

Специально для вас бонус. Не вошедшее в статью
Осталось в конце после осмотра попросить его дать оценку увиденного, что он вынес для себя и чем бы он хотел заняться дальше
я развлекался тем, что попросил осмотреть квартиру и выдать рекомендации, как дёшево улучшить дизайн квартиры. Он весьма обстоятельно и по делу выдал рекомендации, да еще и с сарказмом и шутками.
вот да, спросить, "а что дальше?" я попробую. Кажется назревает новая статья. :)
Давно на Хабре не читал ничего до конца. Один слой а тут реальная интересная работа автору респект.
Какую модель использовали для понимания изображений?
LLM хороши для работы с токенами. Для физ мира, роботов другой тип моделей, например Vision-Language-Action (VLA)
Я выпустил нейросеть в реальный мир — и стало не смешно