Что произойдет, если засунуть ЛЛМ в пластмассовую коробочку на ножках? / Хабр

По всей видимости, домашние роботы на подходе. Не огромные андроиды в человеческий рост и на двух ногах, но маленькие компаньоны на сервоприводах. Которые научаться понимать человека и будут учиться через эмпирический опыт самостоятельно.

Знакомьтесь, Growbot

Growbot в первой итерации.

Как это часто бывает, удивительные находки и открытия случаются из любопытства. Так и произошло с ютубером Art of the problem, который однажды озадачился внезапной мыслью: а что если наделить большую языковую модель физическим телом и отправить познавать полный загадок мир?

Так появился удивительный проект Growbot. И создать по кусочкам его тело оказалось гораздо более простой задачей, чем 20 лет назад, когда автор канала только начал погружение в робототехнику.

Выполняет ротационное приветствие.

Мышление этого робо-малыша опирается на процессор, обошедшийся всего лишь в $15. По словам автора, 20 лет назад этот же проц достойно бы украсил любую “зверь-машину”, потянув все самые крутые игрушки. (Возможно даже “Крузис”).

Бесстрашно путешествовать по гостиной и коридору ему помогают два недорогих сервомоторчика и IMU-датчик движения, вычисляющий ускорение, наклоны и повороты по трем пространственным осям. Он нужен роботу, чтобы понимать, стоит ли он на месте, падает, наклоняется или же теряет равновесие, чтобы оперативно позвать на помощь человека.

5-мегапиксельная камера, служащая роботу глазами.

За зрение отвечает 5-мегапиксельная камера за 5 долларов: неплохой размен — мегапиксель по доллару. Речь и понимание обеспечивают маленький микрофон и динамик, эмоциональные сигналы и реакцию транслирует светодиодное кольцо, а питается этот дивный организм батарейкой от дрона в 7,4 вольт. В общей сложности, конструкция обошлась всего лишь в 80 долларов по амазоновским ценам. А “ноги” Growbot’a на первых порах вообще были сделаны из Лего деталек.

Growbot пытается осознать суть наблюдаемого (кота).

Хардварная часть понятна, там ничего сверхъестественного. Но как работает его мышление? Для начала нужно было найти способ научить робота движению и балансировке без заранее записанных в его память команд.

Выбор пал на метод массивных параллельных 3D-симуляций, которые посредством обучения через подкрепление (reinforcement learning) позволяют роботу “познакомиться” с виртуальной копией ландшафта. В ней он совершает тысячи попыток научиться ходить, пока не откроет подходящие для себя секвенции движений, чтобы затем перенести их уже в реальный мир.

3D-симуляция — это компьютерная модель робота, его суставов, веса, трения, датчиков и окружающей среды. Если симуляций несколько, то робот учится не в одной «идеальной» среде, а в наборе вариантов с разным скольжением, неровностями, ошибками параметров и даже слегка отличающейся механикой. Это нужно, чтобы он не «подгонялся» только под один сценарий и лучше работал в непредсказуемых условиях реальности.

Как закаляется сталь

Для обучения Growbot’а ходьбе была сделана кастомная нейросеть, состоящая из двух компонентов. Первый — это инпут, входный канал, которому “скармливались” данные IMU-датчика, а точнее пять последних наблюдений, чтобы робот мог немного ориентироваться в “пережитом” опыте. На канале выхода, аутпуте, была задействована стратегическая сеть (policy network) — ключевой компонент в машинном обучении и обучении с подкреплением, которые задает дальнейшие решение на основе предыдущего фидбэка.

Кастомная нейросеть, с помощью которой робота учили ходить.

Автор с самого начала планировал ориентироваться на природу, прежде всего человеческую и внимательно изучал моторику нашей анатомии. В итоге, кастомная нейронка должна была давать 50 “оборотов” в секунду, чтобы примерно имитировать безусловные рефлексы человеческого движения.

В результате, после симуляций робот научился вставать на ноги, передвигаться по разным незнакомым поверхностям и крутиться юлой вокруг своей оси. Особенно забавно то, что его неуклюжие робкие движения чем-то напоминают первые шаги ребенка. И как ребенок он учился на пробах и ошибках.

3D-копия Growbot’а одиноко скитается по трехмерному измерению.

Но это двигательная система. А как научить его разговаривать? Для этой задачи автор протестировал нескольких языковых моделей, придя к следующим результатам:

Gemini Flash — показал способность понимать изображения и генерировать логические команды примерно за 1 секунду, и в 100 раз дешевле тяжелых моделей

Claude Sonnet — оказался лучшим для сложных задач: довольно быстрый и умный.

Claude Haiku — быстрый, но менее надежный и предсказуемый, а также склонный к драматизму в репликах.

ЛЛМ серверы соединяются с процессором робота напрямую, беспроводным способом. Кстати, интересный момент: автор сперва собирался преобразовать сырые сенсорные данные в текстовые описания — «наклон вперед», «падение» — но потом обнаружил, что языковые модели понимают эти данные и без дополнительной интерпретации.

Следующим шагом было научить робота понимать и обрабатывать собственные ощущения. Языковые модели хорошо справились с задачей, декодируя сырые данные со скоростью в 0,4 секунды и позволяли роботу не только понять, что с ним происходит, но и описать это человеческим языком: “меня наклонили вперед на 40 градусов”, “мной трясут” и так далее.

Временами Growbot может ударяться в поэтику с высоким штилем и сравнивать тестовую тряску с качанием парусника на волнах. А внутри его мыслей, при обработки сенсорных данных проскакивали такие странные выводы как “Должно быть это сознание. Оно подобно хрупкому пламени свечи”.

Обучение в “диснеевском” режиме

Затем автору пришла другая интересная мысль в голову: если робот может так красноречиво описывать происходящее с ним, способен ли он как-то оперировать с этими данными самостоятельно?

Growbot’у был разрешен доступ к его собственным моторам. Ансамбль нейронок позволял ему писать код для действий, что называется, “на лету”, а затем этот код добавлялся к уже имевшимся данным в его стратегической сети. В итоге он с легкостью выполнял никогда не получившиеся им прежде команды. Например, “притвориться мертвым” или “шагай, как старик”.

Growbot отказывается идти спать. Диодные индикаторы горят гневным красным светом.

В свою очередь, это открытие натолкнуло на следующую мысль: попытаться заставить робота скоординировать речь, движения, световые сигналы и звуковые эффекты, чтобы они выражали цельную реакцию. Как будто свойственную персонажу мультфильма — отсюда и название этого тренировочного режима, “диснеевский”.

С повышенной температурой языковой модели, позволяющей добиться большей вариативности в речи и действиях робота, автору удавалось получить удивительно живые реакций. Робот мог драматично “упасть”, воздев конечности к небу со словами “Ты предал меня”, если его просьба быть поднятым в воздух оставалась проигнорированной. В другой раз, по предварительному промту, он мог начать капризничать, отказываясь “идти спать”.

Способность к импровизации в различных сценариях у Growbot’а также заметно повысилась со временем. Он научился ломать башенки из деталек для игры "Дженга", находить способ встать на ноги самостоятельно, если его переворачивали на бок и даже играть в прятки — он сам додумался спрятаться за проводами компьютера, надеясь таки образом скрыться от от хозяина.

Что на самом деле снится роботам?

А снится им работа над ошибками. Как выяснилось, со временем память Growbot’а заполнялась профилями отсканированных им людей, выученными уроками и... кучами мусора. Противоречивая информация начинала вызывать галлюцинации и баги в поведении.

Отрывок мыслей Growbot’а: "Человек в очках — часто трясет меня. Но каждое встряхивание в итоге сменяется поглаживаниями. Это не угроза. Так он(а) учит меня, обновляет профиль."

Тогда автор ввел функцию под названием “Сны”. Периодически он отправляю всё содержимое памяти в самую умную модель ансамбля — Claude Sonnet в даном случае — и писал ей промт «прочистить» роботу голову: иными словами, найти противоречия, извлечь уроки из пережитого опыта, улучшить стратегию и даже скорректировать его личность.

Кстати, в этот же момент стало ясно, что языковые модели далеко не со всем могут справиться. Например, им не очень удается мимесис — то есть повторение или имитация — какого-либо продемонстрированного человеком движения. Так например, подвигав роботом из стороны в сторону, автор попросил его воспроизвести движения. Увы, все на что хватило БЯМ — это серия непонятных конвульсий. Забавных, но неверных.

В идеале, для такого сценария контролирующая робота нейронка должна предсказывать физические последствия действий до того, как их совершить, а также спрогнозировать возможные последствия.

В 2022 году проект Daydreamer показал что это возможно, а также продемонстрировал как это работает. Робот-собака учился ходить без симуляций, на чистом реальном опыте, постоянно предсказывая следующие состояния. Предсказание будущих состояний заставляет сеть неявно усваивать физику, импульс и свойства объектов.

Источник: actuia.com. — *Источник:* *actuia.com*.

Здесь, опять же, на помощь приходит человеческая нейрофизиология. В устройстве нашего мозга подобную функцию выполняет мозжечок.

Имея собственные полушария, он немного похож на уменьшенную копию головного мозга, внутри которого он сидит, как маленькая матрешка внутри большой. Данный орган берет на себя фактически роль предиктивной модели — предсказывает ближайшие 0,1 секунды будущего и делает это молниеносно, всего за 0,02 секунды. Моторная кора получает этот прогноз и отправляет мышцам скоординированные последовательности команд, которые компенсируют временную задержку и позволяют выполнить ожидаемое действие наиболее эффективно.

Подобный подход для создания искусственного интеллекта продвигает Ян ЛеКун, основатель AMI Labs. По его мнению, ЛЛМ всего лишь способны предсказать следующее слово и потому им не хватает глубинной модели реальности.

Ян ЛеКун считается одним из ведущих исследователей искусственного интеллекта в мире.

ЛеКун считает, что подлинный интеллект требует системы, которая способна наблюдать за миром, строить его абстрактные представления и мысленно «проверять» действия, прежде чем воплощать их непосредственно в реальности. Автор Growbot’а разделяет это мнение. Но вот как интегрировать этот принцип в смешную коробочку на ножках пока что неясно.

Интересно, но похожий принцип применялся еще в 90-х годах. когда свет увидела культовая игра "Creatures" в жанре симулятора жизни. Существа по имени норны во время сна прокручивали в голове сценарии различных действий, чтобы уяснить насколько они вредны или полезны для их успешного выживания.

Life sucks. And then you die from a broken 'Digestive Function' | Second Person Shooter — Источник: secondpersonshooter.com

Будущее наступает (на наши пятки)

Бирюзовый цвет радости.

Ну а пока у автора канала Art of the problem масса планов. Он собирается поставить производство собратьев Growbot’а на поток, чтобы каждый мог заказать набор “собери сам” и за один вечер дать жизнь забавному, немного неуклюжему, но крайне общительному роботу. Меньше чем за 100 долларов, кстати — звучит вполне неплохо. И кто знает: может это станет судьбоносным витком в развитии робототехники уже сегодня?

Что произойдет, если засунуть ЛЛМ в пластмассовую коробочку на ножках?

Знакомьтесь, Growbot

Как закаляется сталь

Обучение в “диснеевском” режиме

Что на самом деле снится роботам?

Будущее наступает (на наши пятки)

Публикации

Информация