
Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями.
Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и �� итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами.
Содержание
Дороговизна данных как вызов
Современные ИИ-агенты уже достаточно хорошо работают автономно: строят логические выводы, раскладывают задачи на этапы, итеративно используют инструменты. Но перенести все эти прекрасные возможности в дивный физический мир оказалось гораздо сложнее. Роботам нужно привязывать рассуждение к восприятию окружающей среды и физике — как собственной, так и мира вокруг.
Для когнитивной робототехники требуются данные, которые ОЧЕНЬ дорого стоят, а без них обучение невозможно.
Существующие подходы (RT-1/RT-2, OpenVLA, Isaac-GR00t и др.) используют модели vision-language-action (VLA), требующие дообучения под конкретного робота и задачи. Они эффективны в рамках обучающего распределения, но плохо переносятся на другие платформы, объекты и операции. Аналогично существующие модели для генерации действий показывают впечатляющие результаты, но требуют специально подготовленных датасетов «робот — сцена».
Один из самых больших open-source-датасетов для обучения когнитивных роботов — OpenX Embodiment. Он состоит почти из миллиона траекторий. Сложность в том, что датасет собран на манипуляторах. Это значит, что использовать его для роботов-гуманоидов практически невозможно.
Расскажу, как эти данные еще недавно собирали в Tesla и NVIDIA. Представьте помещение размером с футбольный стадион. В нем огромное количество столов, за каждым — робот. Рядом стоят два человека: один с пультом, второй с ноутбуком, чтобы собрать данные, зафиксировать траектории и так далее. Всего получаем миллион записанных сцен. Каждая длительностью по 15 секунд.
Только представьте этот масштаб! Если мы будем запускать все эти семплы по очереди, нам понадобится полгода, чтобы они прошли все траектории. И даже этих данных не хватит, чтобы робот научился делать абсолютно всё и в любой среде.
Где взять дешевые данные?
Один из путей решения — использовать синтетические данные. Но между ними и реальным миром есть серьезный разрыв: мы можем классно обучить модель в симуляции, но получим плохой результат в настоящем мире.
Недавно появилась ИИ-модель Nvidia Cosmos Transfer, которая делает данные из симуляции более реалистичными. Такое преобразование обходится гораздо дешевле. NVIDIA заявляет, что за три дня с помощью этого метода они получили столько данных, сколько раньше собирали за три месяца.
Такие данные дали возможность частично решить проблему нехватки данны�� для VLA-моделей (Vision Language Action, «зрение — язык — действие»). Это продвинутые системы ИИ для робототехники, которые объединяют понимание изображений (Vision), естественного языка (Language) и генерацию физических действий (Action).
Преимущество VLA-моделей — в скорости. Мы подаем на вход картинку и задачу на естественном языке, а на выходе получаем действия робота. Но для этого нужны огромные мощности, которые не каждая компания может себе позволить.

NVIDIA вообще серьезно вкладывается в развитие когнитивной робототехники. В этом году они выложили в Open Source собственную модель для гуманоидов Gr00t. Она показывает высокие результаты — их не так просто воспроизвести в условиях других лабораторий, но мы склонны верить публичной информации о ней. Однако NVIDIA выложили в открытый доступ саму модель, но не данные для обучения.

Классно видеть, как мы продвигаемся вперед, но мне все же хотелось бы, чтобы когда-нибудь робот смог как человек: посмотрел в Википедии или на видеохостинге инструкцию, как что-то делать, — и так обучался. Но пока сковородка летит на пол вместе с содержимым. Реальный мир — не симуляция:

Что мы можем сделать, если инструкция с YouTube не подходит? Обучить модель на видеоимитации реального мира. Снова есть решение от NVIDIA — Cosmos, включающее в себя передовые модели мира виде диффузионных моделей генерации видео. Cosmos используют для более быстрой разработки физического ИИ у автономных транспортных средств (AV), роботов и агентов видеоаналитики. Именно она позволяет взять данные из симуляции и превратить их в реалистичные.
Чтобы обучить робота действию, мы можем сгенерировать видео, как он выполняет задачу в виртуальном мире. NVIDIA реализовала такой подход в Cosmos Predict. Видео генерируется моделью, которую специально обучили на большом количестве записей конкретного робота. В результате физика робота в видео точно повторяет его реальную физику в жизни: у него не появляется лишних пальцев или траекторий движения.
Еще в этом подходе используют модель, извлекающую данные из сгенерированного видео. Она тоже есть в открытом доступе. Но чтобы ее задействовать, нужно получить доступ к данным, на которых она обучена. Тогда появится возможность добавить туда свои данные и кастомизировать под собственного робота. Увы, применить это мы не можем, поэтому предлагаю просто порадоваться за NVIDIA — что такое они придумали и у них получилось.
Что нам остается? Либо собирать горы данных для обучения модели, либо изобрести другое решение. И мы смогли.
Альтернативный путь — физические агенты

Ранние интеграции LLM показали, что модели могут связывать инструкции с исполняемыми навыками, используя оценки сцены. Но такие системы создают монолитные политики, где высокоуровневое рассуждение смешано с низкоуровневым контролем, что делает их трудными для переноса, требовательными к данным, зависимыми от конкретного робота.
Но идея сгенерировать видео действий робота — без преуменьшения классная. Только зачем использовать для этого именно Cosmos, подумали мы…
Существует огромное количество моделей генерации видео, и многие из них доступны в Open Source и с публичным API. Мы задумались, а почему бы нам не применить агентную архитектуру и не использовать эти модели как есть, без обучения? Естественно, это снизит продуктивность, неизбежно будут появляться галлюцинации. Но и при работе с агентами мы можем запускать инструмент множество раз, прежде чем получим нужный результат.
Разработанная нами архитектура PhysicalAgent следует модульной философии, разделяя цикл Perceive → Plan → Reason → Act на этапы. Это повышает переносимость и позволяет отслеживать ход выполнения и своевременно планировать задачи — ключевое свойство для длинных манипуляций.
Мы использовали четыре агента:
генерации видео будущего действия,
мониторинга видео для проверки качества,
извлечения данных о движении робота,
выполнения навыка на реальном роботе.
После каждого этапа мы запускали агент мониторинга, так как прекращали создание видео дальше, если оно получилось плохое, — например, в нем нарушена физика мира. Вместо этого генерировали снова и снова, добавляя инструкции от агента мониторинга, чтобы избежать галлюцинаций.
После извлечения действия из робота в видео, проводили его в реальном мире. Если что-то шло не так (например, мы уронили объект, или переместили его не туда, или не смогли выполнить действие), возвращались на шаг назад и пробовали всё заново. Такой подход позволил нам вообще отказаться от сбора данных.
В результате наш агент функционирует на разных типах платформ: манипуляторе, роботе-гуманоиде, симуляторах. Нам больше не требуется обучать их на подготовленных заранее записях. Единственное, что нужно — обучить модели распознаванию движения на видео, что гораздо проще, чем обучить собственную модель с нуля.
Мы используем мультимодельные модели вроде Gemini Pro Flash, но можно подключить что угодно — GPT-4o, Claude 3.5, QwenVL и другие. Наши результаты — 80% успеха за третью и четвертую итерации выполнения действий.
Преимущества подхода
Видео работы
Как вы видите, мы смогли разобраться с физикой жидкостей, тканей, сложных объектов. Даже научили робота разрезать яблоко пополам — сначала на видео, а затем он смог это повторить в реальной жизни.
Фишка в том, что открытые модели для генерации видео уже обучены на огромном количестве данных из сети — фильмах, демонстрациях и так далее. Все это есть в доступе, нам не надо ничего дополнительно объяснять ей об устройстве реального мира. Единственное, нам нужно добиться, чтобы модель реалистично представляла, как бы это сделал ро��от. И она справляется довольно неплохо.
Получили такие преимущества:
Универсальность. Подход работает на разных типах роботов. Нам не нужно обучать большие модели заново для переноса на другую платформу.
Экономичность. Агентный подход обходится дешевле, чем сбор данных с нуля.
Надежность. Итеративное планирование и исправление собственных ошибок обеспечивает результативность в 80%.
Масштабируемость подхода и его открытость. Мы можем добавлять другие инструменты или агентов при необходимости.
Память. Совершая действие, робот запоминает это и учится.
Ключевой результат: все, что связано с восприятием и рассуждением, не зависит от типа робота. Нужен только адаптер, преобразующий видео в моторные команды.