Привет, Хабр! Меня зовут Артем Лыков, я руководитель направления Physical AI в МТС Web Services. В начале июня я побывал на ICRA 2026 в Вене — одной из главных мировых конференций по робототехнике и автоматизации.

В этом году мероприятие проходило с 1 по 5 июня на площадке Messe Wien. Конференция собрала исследователей, инженеров, стартапы, промышленные команды и крупные компании, которые работают с роботами, автономными системами и физическим ИИ.

Ниже — репортаж с конференции и мой разбор главного тренда: робототехника уходит от идеи одной универсальной end-to-end-модели и собирает более практичный стек из нескольких уровней. Внизу — моторика и управление телом. Посередине — VLA, модели мира и связь восприятия с действием. Наверху — агентное планирование и проверка решений.

Масштаб конференции: Китай, гуманоиды и промышленная плотность

Первый день начался в привычном для большой инженерной конференции режиме: регистрация, бейджи, стартовые наборы, первые встречи в коридорах и плотный поток участников у входа. Уже по масштабу было понятно, что ближайшие дни будут насыщенными: доклады, постеры, демонстрации, соревнования, выставка и разговоры с командами, которые делают роботов не для красивых роликов, а для реальных задач.

Выставочная зона еще готовилась к открытию, но масштаб был заметен даже по закрытым стендам и монтажу. Для робототехнической конференции это важная часть программы. Многие разработки нельзя оценить только по статье или слайдам: робота нужно видеть в движении.

На стенде сразу становится понятно, как платформа держит равновесие, насколько плавно работает моторика, есть ли задержки в управлении, как система ведет себя вне идеальных условий и насколько аккуратно железо связано с программным стеком.

После церемонии открытия стала понятнее и география ICRA 2026. Организаторы показали статистику по академическому треку, выставке и ключевым темам года. В статейном треке лидируют Китай и США, причем Китай заметно оторвался по числу принятых работ. Следом идут Германия, Южная Корея, Великобритания и Япония. Россия тоже попала в основной график: у российских участников в этом году 7 принятых статей.

ICRA остается одной из главных площадок, где академическая робототехника проходит проверку международной конкуренцией. В официальных материалах конференции указано 4947 поданных работ из 86 стран и 1882 принятые статьи. Acceptance rate — около 38%. Для робототехнической конференции это огромный объем: за каждой работой стоят команды, стенды, симуляции, железо и месяцы экспериментов.

Сильнее всего разрыв виден в expo-треке. На слайде организаторов Китай оказался заметно впереди: стендов китайских компаний было больше, чем у США, Великобритании и Австрии вместе взятых. Это уже настоящая промышленная плотность. Китайские компании привезли платформы, манипуляторы, гуманоидов, компоненты, сенсоры, роботизированные кисти, SDK, софт и готовые продукты для интеграторов.

Официальный дайджест ICRA 2026 подтверждает масштаб выставки: Hall B занял 30 тыс. кв. м, в программе заявлено 196 стендов. Организаторы также ожидали крупнейшее число гуманоидных роботов за всю историю ICRA.

Отдельный слой выставки — роботизированные кисти и захваты. После IROS этот тренд стал еще заметнее: многопалые кисти для тонкой манипуляции превратились из эффектного демо в массовый класс стендов. Команды показывали более сложную механику, точное управление, работу с предметами разной формы и попытки связать захват с обучаемыми моделями восприятия и планирования.

Главная рамка: Physical AI распадается на три слоя

Утренняя постерная сессия хорошо показала главный сдвиг в Physical AI: вместо одной универсальной end-to-end-модели индустрия собирает стек из нескольких уровней.

System 2 — агентный уровень. Здесь робот понимает задачу, выбирает стратегию и разбивает ее на шаги: что нужно сделать, в каком порядке и с какими ограничениями.

System 1 — уровень связи восприятия с действием. Сюда попадают VLA-модели, модели мира и world action models. Они работают уже ближе к физике задачи: видят сцену, понимают объект, выбирают способ действия и формируют целевое движение. Например, как подвести руку, как согнуть пальцы, как взять предмет или как переместить его в нужное место.

System 0 — уровень исполнения. Он не рассуждает о задаче и не выбирает стратегию. Его роль — привести тело робота в целевое состояние: выдать команды моторам, удержать баланс, не упасть, не столкнуться с окружением, компенсировать толчок, скольжение, нагрузку или смещение центра масс.

Эта схема ближе к инженерной реальности, чем идея одной модели для всего. Верхние уровни могут понимать задачу и строить действие, но без System 0 робот не сможет надежно воспроизвести его на физическом теле. Поэтому full-body control снова стал одной из центральных тем конференции.

System 0: гуманоиду сначала нужно научиться управлять телом

System 0 — это слой, который превращает целевое действие в движение физического робота. Верхние уровни могут решить, что нужно взять коробку, дотянуться до объекта или перенести предмет. System 0 отвечает за то, чтобы робот дошел до нужного положения, сохранил баланс, не упал, не задел человека рядом и скомпенсировал внешние возмущения.

В full-body control это особенно сложно. Гуманоид должен одновременно управлять корпусом, ногами, стопами, руками, кистями и центром масс. Если его толкнули, он несет тяжелый предмет или ставит ногу на скользкую поверхность, контроллер должен удержать тело в рабочем состоянии.

Базовый рецепт у многих работ похож: ретаргетинг человеческих движений, обучение с подкреплением, симуляция и перенос на железо. Разница в том, как авторы задают целевые движения, упаковывают навыки и добиваются устойчивости за пределами демо.

Один из показательных примеров — Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space от Tsinghua и Galbot. В манипуляции и навигации мы уже пришли к латентному пространству признаков. Авторы показывают, что и в full-body control пора сделать то же самое. Они упаковывают двигательные примитивы в непрерывное латентное пространство (CVAE). Это делает высокоуровневое планирование действий для гуманоидов гораздо удобнее — однозначно шаг в правильном направлении.

Ближе к прикладному сценарию выглядит Opt2Skill от Georgia Tech. Это аналог нашумевших Sonic и Hover, но с четким фокусом на прикладные задачи — работу с объектами и коробками на складе. Отсюда и выбор платформы: всё тестируют на роботе Digit (именно их использует Amazon). В планах у них прикрутить сверху VLA и получить идеального и робастного складского рабочего.

Еще одна линия — попытка собрать более общий фундамент поведения. Behavior Foundation Model for Humanoid Robots — еще одна вариация на тему Sonic/Hover, с последним они напрямую сравнивают метрики. Пайплайн обучения близок, но здесь авторы пытаются выучить единое распределение всех паттернов поведения гуманоида (goal-conditioned pretraining), то есть отвязать саму моторику от конкретных режимов управления. Посмотрим, насколько это станет фундаментом.

Отдельно запомнилась работа Learning Humanoid Arm Motion via Centroidal Momentum Regularized Multi-Agent Reinforcement Learning: интересное исследование, где руки и ноги робота обучаются как отдельные агенты. Робот учится размахивать руками для баланса. Идея красивая, однако практически это будет применимо, когда к поддержанию равновесия добавятся реальные манипуляции — руки все-таки нужны для работы. Но ругать работу не будем, шаг интересный.

Еще один интересный подход упомянут в работе Switch: Learning Agile Skills Switching for Humanoid Robots от The Hong Kong University of Science and Technology — фреймворк для плавного переключения между динамическими whole-body-скиллами (прыжки, удары, падения, вставания и т. д.). Вводят Skill Graph и RL-политику, которая умеет безопасно переходить между состояниями без необходимости собирать отдельные данные для всех пар переходов.

Про падения также говорили в Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors от The University of Hong Kong — одна RL-политика, которая объединяет ходьбу, бег и восстановление после падения. Используют state-dependent AMP: разные дискриминаторы для локомоции и recovery, без явного переключения режимов на уровне FSM.

System 1: VLA и главный дефицит данных

System 1 связывает восприятие с физическим действием. Здесь робот уже не просто получает картинку и команду. Модель должна понять сцену, объект, контекст и способ манипуляции: как подвести руку, как согнуть пальцы, где ожидать контакт и какое целевое движение передать нижнему уровню.

В этот слой попадают VLA-модели, модели мира и world action models. Они не управляют моторами напрямую, но формируют действие, которое System 0 должен воспроизвести на теле робота.

Узкое место этого уровня — данные. Роботов нельзя обучать так же дешево, как языковые модели. Тексты и изображения уже есть в Интернете, а демонстрации для роботов приходится собирать через лабораторные стенды, симуляторы и реальные прогоны. Это дорого, медленно и плохо масштабируется.

Одна из сильных работ в этом блоке — Latent Action Diffusion for Cross-Embodiment Manipulation от University of Washington и AI2. Одна из самых сильных работ, что я видел! Авторы смогли перенести действия с человеческой руки на роборуки совершенно разного типа (и на многопалые dextrous, и на простые двупалые). Всё работает через диффузию в латентном пространстве. Это потенциально решает фундаментальную проблему нехватки данных: открывается огромный источник для обучения прямо из видеодемонстраций человека.

Работа Developing Vision-Language-Action Model from Egocentric Videos от Kyoto University, NII и Sony Interactive Entertainment делает ставку на видео от первого лица. Эта японская работа особенно зацепила. Они обучают VLA на эгоцентрических видео вообще без разметки действий, извлекая траектории объектов прямо из RGB-потока. Это доказательство того, что тренд на дешевое массовое обучение из human videos без дорогих auxiliary labels набирает критическую массу.

Самый масштабный пример в этом блоке — RynnVLA-001 от Alibaba DAMO. Пайплайн обучили на 12 млн эгоцентрических видео с последующим дообучением на роботе. Авторы утверждают, что решили проблему cross-embodiment переноса скиллов. Результаты выглядят очень сильными, но для того, чтобы окончательно поверить в такие метрики при переносе на новые платформы, я бы посоветовал дождаться независимой валидации.

Отдельно стоит упомянуть Audio-VLA: Adding Contact Audio Perception to Vision-Language-Action Model for Robotic Manipulation. Удивительно, что на это мало обращали внимание раньше. Аудио — самая дешевая модальность, лежащая на поверхности. Вместо сложных тактильных датчиков авторы добавили в VLA звук контактов и трения через микрофон — в реальном мире success rate вырос в 3 раза в незнакомых условиях. Очень умная и практичная мысль.

Сюжет про данные продолжился на вечерней сессии. VITRA от Microsoft Research и Tsinghua превращает неразмеченные видео от первого лица в данные для VLA. Новизна: построен полностью автоматизированный пайплайн, извлекающий 3D позы рук и сегментирующий действия. Человеческие руки моделируются как end-effectors робота. Польза: собран датасет VITRA-1M (1 млн эпизодов). Это позволяет делать масштабный pretrain на видео с людьми, а затем быстро дообучать модель под конкретных реальных роботов.

Еще один пример — X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations от Cornell Bowers, др. Авторы рассматривают проблему, что человеческие действия и действия роботов лежат в разных распределениях. Их идея: добавлять диффузионный шум к действиям и обучать классификатор, который отличает human от robot. Человеческие данные используются для обучения диффузионной политике только на тех шагах, где зашумленные действия становятся неотличимыми от действий роботов. Это аккуратный способ интеграции human demos без прямого смешения распределений.

Конечно, работ было гораздо больше, и все примечательные. Это самые запомнившиеся лично мне. Прочитать про другие можно в моем телеграм-канале.

Общий смысл этих работ один: робототехника ищет способ получить данные дешевле, чем через бесконечную телеоперацию. Человеческие видео становятся сырьем для предварительного обучения, синтетика — способом расширить редкие демонстрации, а траектории — языком переноса между телами.

System 2: планирование и проверка действий

System 2 — верхний агентный слой Physical AI. Он отвечает не за моторику, а за смысл задачи: что нужно сделать, в каком порядке, какие ограничения учесть и когда проверить результат.

В end-to-end VLA это часто смешано в одной модели: на вход подаются изображение и инструкция, на выходе — действие. Для бенчмарков такой подход удобен, но ошибки в нем трудно разбирать. Робот промахнулся из-за моторики, неверно понял инструкцию, потерял объект или не учел контакт? В монолитной модели ответ найти сложно.

Работы из этого блока возвращают инженерную декомпозицию. Логика отделяется от исполнения: модель сначала строит план, визуальный след или последовательность шагов, System 1 превращает это в физически осмысленное действие, а System 0 доводит движение до моторов.

MolmoAct от AI2 и University of Washington — хороший пример такой декомпозиции. Здесь задачу разбивают надвое: понимание и физическое исполнение. Модель выдает траекторию в виде 2D-линии поверх 3D карт глубины, что делает подход очень практичным. Для многих задач нарисовать визуальный трейс нужного действия надежнее и дешевле, чем гонять тяжелую World Model. Я верю в этот подход.

Еще одна интересная работа посвящена навигации. Это COMPASS: Cross-Embodiment Mobility Policy via Residual RL and Skill Synthesis от Wei Liu и др., NVIDIA, UC Berkeley, UT Austin: трехстадийный pipeline для кросс-роботной навигации: imitation learning на базе world model, residual RL для конкретных embodiment’ов и последующая дистилляция в общий policy. Политики тренируют в Isaac Lab и переносят на реальные платформы (Carter, Unitree G1 и др.) без дообучения на железе, при этом достигая более высокой успешности и скорости прохождения маршрутов по сравнению с чистым IL.

ActionReasoning: Robot Action Reasoning in 3D Space with LLM for Robotic Brick Stacking от Cambridge развивает похожую идею, но через LLM-оркестратора. Модель анализирует 3D-сцену и логически разбивает задачу на шаги (поднять, проверить контакт, опустить). Опять же: разделение логики и моторики дает предсказуемость, которой так не хватает чистым end-to-end-сеткам.

VLA-Reasoner от NTU и Tsinghua работает с другой слабостью VLA — близорукостью в длинных (long-horizon) задачах. Новизна: объединение замороженной VLA с поиском Monte Carlo Tree Search (MCTS) и моделью мира. VLA предлагает кандидаты действий, а модель мира симулирует их последствия и оценивает через функцию награды. Польза: ошибки не накапливаются с течением времени. Робот получает возможность оценивать свои действия на несколько шагов вперед без переобучения самой VLA.

Еще один полезный пример — LLM Trainer: Automated Data Generation от CMU. Эта работа отлично показывает, насколько иногда простые решения могут быть удобными. Из одной демонстрации с помощью LLM-разметки генерируются новые данные для обучения агента. Пару лет назад LLM пихали везде для улучшения действий, сейчас все ушли в end-to-end. Но эта работа доказывает, что прозрачные пайплайн-подходы — это не всегда плохо. Иногда проще значит лучше.

Почему у робототехники еще не случился GPT-момент

Одним из самых сильных выступлений ICRA 2026 стал пленарный доклад Кена Голдберга — профессора UC Berkeley и Chief Scientist в Ambi Robotics. Он разбирал главный вопрос Physical AI: почему робототехника до сих пор не повторила скачок, который уже произошел в языковых моделях и компьютерном зрении.

Голдберг показал это через простую инженерную метафору. Компьютерное зрение он сравнил с 2D пространством состояний, язык — с 1D, робототехнику — с пространством порядка 50D. Изображения можно учить на огромных массивах картинок, язык — на текстах. Робот должен одновременно учитывать зрение, геометрию, контакт, силу, движение, задержки, трение, кинематику, безопасность, объект, среду и цель действия.

Поэтому у робототехники пока не было своего GPT-момента. Генерализация ломается из-за нехватки многомодальных данных в пространстве с огромным числом факторов. Роботу нужны данные не только о том, как выглядит предмет, но и о том, что происходит при контакте с ним.

Один из самых показательных тезисов был про VLA. Такие модели часто заявляют универсальность на сотнях тысяч задач. В одном из примеров речь шла о 160 тыс. задач, но основная масса данных все равно сводилась к узкому действию: взять объект O0 и положить его в O1. На графиках это выглядит как универсальность, но фактически остается масштабированием вокруг одного класса манипуляций.

Голдберг также показал контраст между инвестициями и реальной полезной работой. В робототехнику идут большие деньги, в Китае растет число производителей гуманоидов, в США новые робототехнические компании получают высокие оценки. Но объем реально выполненной полезной работы пока близок к статистической погрешности.

Робототехника уже умеет впечатлять на демо, но хуже справляется с главным критерием индустрии — стабильной полезной работой.

Вместо спора «классическая робототехника против VLA» Голдберг предложил смотреть на две инженерные культуры. Первая — GOFE, good old-fashioned engineering: модульность, алгоритмы, контроллеры, интерпретируемость, проверяемые ограничения и надежность. Вторая — VLA и GenAI: больше общности и гибкости, сильнее перенос между задачами, но ниже предсказуемость.

Его таблица Variational Automation хорошо описывает этот разрыв. Классическая инженерия менее универсальна, зато надежнее. VLA обещают универсальность, но в реальном роботе часто ведут себя нестабильно. Для продакшен это ключевой конфликт. Заказчику не нужен робот, который иногда блестяще решает задачу. Ему нужен робот, который десять тысяч раз подряд делает нужное действие с приемлемой ошибкой и понятным восстановлением после сбоя.

Главная мысль доклада — классический инженерный подход не нужно отбрасывать. Его нужно соединять с новыми моделями. Здесь появляется Code-as-Policy и более широкий подход к agentic coding.

Идея Code-as-Policy проста. Большая языковая модель не управляет моторами напрямую и не заменяет весь стек робота. Она генерирует код политики: вызывает готовые функции восприятия, планирования и управления, задает параметры, собирает последовательность действий, использует проверяемые API. Нейросеть отвечает за гибкость и композицию, инженерные модули — за исполнение, ограничения и надежность.

Такой подход выглядит менее эффектно, но лучше подходит к реальному железу. Код можно читать, тестировать, логировать, ограничивать, запускать в песочнице, откатывать и улучшать. Ошибку проще локализовать: проблема в восприятии, планировании, параметрах, контроллере или в самом сгенерированном коде.

Для нашей работы над CognitiveOS в MWS это важное подтверждение выбранной архитектуры: reasoning, восприятие, планирование и физическое исполнение должны быть разделены. Такую систему проще отлаживать, проверять и переносить между задачами.

Выставка: гуманоиды уже ходят, но автономность еще буксует

После технических сессий удалось спокойно пройтись по выставочной зоне. Это полезная смена оптики. Постеры показывают, что может доехать до продукта через несколько лет. Стенды показывают, что индустрия умеет продавать и демонстрировать прямо сейчас.

Первое впечатление простое: гуманоидов очень много. ICRA 2026 выглядела как место, где гуманоидная робототехника перешла в стадию массового сравнения платформ, рук, телеоперации, SDK и первых автономных сценариев.

Автономная ходьба и баланс стали почти стандартным ожиданием. Продуктовый full-body control у многих производителей выглядит уверенно: роботы стоят, идут, разворачиваются, держат корпус и не требуют постоянной страховки на каждом шаге.

Коммерческая телеоперация тоже выглядит зрелой. Перчатки, камеры, VR-интерфейсы, трекинг рук, удаленное управление корпусом и манипуляторами — все это уже продается и показывается стабильно. Для рынка это важный слой: телеоперация позволяет выполнять задачи сейчас и одновременно собирать данные для будущей автономии.

С автономным выполнением задач картина сложнее. На стендах только начинают появляться живые демо VLA-моделей. По ним видна закономерность: чем надежнее работает система, тем проще задача. Базовый pick-and-place, заранее подготовленный объект, понятная зона действия, ограниченное число вариантов, аккуратно выставленная сцена — в таком контуре автономия уже выглядит рабочей.

По стендовым демо видно: чем ближе задача к реальным индустриальным условиям, тем чаще требуется страховка оператора или упрощение сценария. Ткань складывается не так, робот промахивается, объект уезжает из поля зрения. VLA-модель может правильно понять задачу, но исполнительный слой не всегда доводит действие до стабильного результата. Или наоборот: моторика готова, но модель теряет смысл сцены после одного сбоя.

Самое сильное коммерческое демо из слоя System 1 на выставке показал Astribot: робот складывал футболку. Это хороший выбор задачи. Сложенная футболка понятна зрителю, но технически ткань сложна: она деформируется, не имеет жесткой формы, захват нужно постоянно корректировать, результат зависит от последовательности мелких движений.

Даже в этом демо рядом был оператор, который периодически перехватывал управление через телеоперацию и страховал процесс. Это не делает демонстрацию «обманом», скорее честно показывает текущую стадию технологии: автономия уже пробует сложные задачи, но человек пока остается в контуре надежности.

Вторая важная часть expo — роботизированные кисти. Их на стендах было много. Для System 1, VLA и телеоперации рука становится одним из главных ограничителей. Модель может хорошо понимать сцену и правильно выбирать действие, но если исполнительный орган не способен точно повторить движение, полезность всей системы быстро упирается в потолок.

Рынок роборук выглядит живым: многопалые кисти, разные схемы приводов, трекинг, телеоперация, плавные жесты, работа с мелкими объектами. Заметно, что фокус смещается не только к точности, но и к более естественной динамике. Движения становятся мягче, меньше похожи на жесткую промышленную механику и ближе к человеческой моторике.

Компромиссы остаются жесткими. Кисть с большим числом степеней свободы часто получается крупной, тяжелой или требует массивного запястья, куда вынесены приводы. Это усложняет интеграцию в существующих гуманоидов. Компактные кисти легче, быстрее и дешевле, но спектр задач у них уже. Простые захваты, переносы и нажатия работают лучше, чем тонкая манипуляция, гибкие объекты, инструменты, мягкая упаковка и двуручные задачи.

NVIDIA и Yuke Zhu: модульный стек становится стандартом

Одной из ключевых сессий третьего дня стал доклад Yuke Zhu — Senior Research Scientist в NVIDIA, профессора UT Austin и одного из руководителей GEAR Lab. Это была одна из самых ожидаемых презентаций по манипуляции, гуманоидным роботам и Physical AI.

Для тех, кто следит за GEAR Lab, глобальных сюрпризов не было. Ценность доклада была в другом: NVIDIA собрала в одну индустриальную схему то, что постепенно стало общим направлением отрасли.

Yuke Zhu фактически описал тот же стек: reasoning наверху, VLA или World Action Model в середине, full-body control внизу. Нижний слой закрывает то, чего VLA не умеет делать напрямую: перенос веса, баланс, координацию корпуса, рук и ног, безопасный контакт.

NVIDIA показывает такой подход через GEAR-SONIC. SONIC — это политика управления всем телом гуманоида, обученная на больших массивах человеческих движений. Практический смысл SONIC — дать гуманоиду базовый слой естественных и устойчивых движений. Это не «разум» робота и не VLA, а моторный фундамент, без которого верхние модели остаются надстройкой над хрупким телом.

Второй тезис доклада — данные. Physical AI не сможет выехать только на телеоперации или только на симуляции. Телеоперация дает ценные действия на реальном железе, но плохо масштабируется. Симуляция дешевая и управляемая, но требует переноса в реальный мир и часто теряет контактные детали. Человеческие видео дают масштаб, но не содержат прямых команд роботу.

Хорошая метафора из доклада — модели мира как губки. Они должны впитать как можно больше паттернов физического мира: как двигаются руки, как деформируется ткань, как предмет скользит по столу, как меняется сцена после контакта, как выглядит правильный результат действия. Потом этот опыт должен передаваться исполнительному слою.

Линия GEAR Lab хорошо показывает этот подход. DreamDojo обучается на десятках тысяч часов эгоцентрических human videos и использует их для построения generalist robot world model. DreamZero идет дальше и связывает модель мира с действиями робота.

DreamZero построен на видеодиффузионной модели. В открытой статье авторы описывают 14B-параметровую модель, которая за один проход моделирует будущее видео и action trajectory. Идея простая: если модель понимает, как должна измениться сцена, она получает более плотный физический сигнал, чем просто «следующее действие».

На сессии показали демо, где робот под управлением DreamZero собирает игрушку-конструктор. Выглядело впечатляюще: задача требует последовательности, контакта, проверки результата и аккуратной манипуляции. Важно, что это было не живое демо, а записанное видео. Такой формат не доказывает промышленную надежность, но хорошо показывает направление.

NVIDIA фактически закрепляет архитектурные решения, которые уже становятся стандартом Physical AI. Наиболее реалистичная архитектура сегодня выглядит не как одна end-to-end-сеть, а как система из уровней: верхний понимает задачу, средний прогнозирует действие в физическом мире, нижний надежно двигает тело.

Что в итоге

ICRA 2026 не открыла идею модульности — это давно стало практикой в сильных командах, включая MWS. Но конференция зафиксировала более важный сдвиг: многоуровневый стек Physical AI оформился как де-факто стандарт как в науке, так и в индустрии.

Подход с единой end-to-end-моделью, закрывающей весь цикл, от задачи до моторики, пока не показывает устойчивости. Реальный мир требует одновременно учитывать слишком разнородные факторы: геометрию сцены, контакты, динамику, задержки, ограничения кинематики, безопасность и обработку сбоев.

В результате складывается устойчивая архитектурная декомпозиция:

  • System 2 — отвечает за смысл, декомпозицию задач и планирование;

  • System 1 — за привязку плана к физическому контексту и генерацию реализуемых действий;

  • System 0 — за управление телом, устойчивость и выполнение на уровне моторов.

При таком подходе объектом проектирования становится не отдельный робот или модель, а когнитивная архитектура, способная обобщаться между различными воплощениями. В MWS мы изначально двигаемся именно в этом направлении: разрабатываем архитектуру когнитивного робота, где тело — это лишь один из уровней исполнения.

Цель остается прежней — универсальные роботы вне демосценариев. Но путь к ней теперь очевидно проходит через иерархический стек — данные, модели мира, VLA, агентное планирование и низкоуровневое управление, а не через единую универсальную модель.

Р. S. Если вам интересна тема когнитивной робототехники и Physical AI, у меня есть телеграм-канал cognitive_robotics. Я публиковал там более полные обзоры других релевантных работ с ICRA, а еще делюсь тем, что делаю сам: научными исследованиями, индустриальными кейсами, историями из жизни и трендами в мире робототехники. Про то, что двигает науку и технологии вперед.