Привет Хабр! Меня зовут Александр Панов, и я руковожу научной группой «Нейросимвольная интеграция» в AIRI, работаю в ФИЦ ИУ РАН и преподаю ИИ и RL в МФТИ. К числу научных интересов нашей группы относится обучение с подкреплением (мультиагентное, с моделями мира, память, трансформерами), планирование поведения и фундаментальные модели для роботизированных платформ.
Совсем недавно мы с коллегами вернулись из Йокогамы, где проходила ведущая конференция по робототехнике — IEEE International Conference on Robotics and Automation или просто ICRA2024. В этом посте я подробно расскажу о том, что интересного, на мой взгляд, было представлено в этом году (лишь небольшая доля всего того, что там было, так как конференция большая), поделюсь впечатлениями и фотографиями (сделанными на телефон — не судите строго!), а также кратко изложу, с чем там выступала наша команда.
Что за мероприятие?
Название конференции говорит само за себя — робототехника и автоматизация. В этом году акцент был заявлен на взаимодействие этой области науки и техники с другими аспектами человеческой деятельности.
Мероприятие с большой историей — первая конференция состоялась ещё в 1984 году и с тех пор проходит ежегодно по всему миру. С каждым годом рос и статус конференции: в прошлом десятилетии ICRA получила ранг A в компьютерных науках по рейтингу CORE, то сейчас она имеет ранг A* и считается главным событием в области, во всяком случае, по критерию цитируемости.
13 мая. Воркшопы
Мы с коллегами — Алексеем Староверовым и Константином Мироновым — были в Йокогаме уже 13 мая и успели к самому началу.
Пакет участника я бы оценил так: скромно, но со вкусом. Платочек для местных ванн (фурошики) с традиционными японскими мотивами показался мне очень милым. Кстати, покормить тут норовят каждый день.
ICRA2024 началась с воркшопов. Один из них как раз по актуальной для нас теме мобильной манипуляции — 2nd Workshop on Mobile Manipulation and Embodied Intelligence (MOMA.v2). Из пленарных докладчиков была Keerthana Gopalakrishnan из DeepMind, участница известных проектов SayCan, RT-1, RT-2, RT-X. Акцентировала внимание на двух проблемах в эпоху VLM в робототехнике: как учить эффективные стратегии и что делать с данными. Для стратегий рекомендует последнюю работу её группы, улучшающую DT с помощью негативных примеров — Q-transformer. Ну а с данными один выход — нужно всем коллаборироваться 🙌 и генерировать их больше и больше, как в проекте Open x-embodiment.
Второй докладчик — Tetsuya Ogata из Японии, как истинный робототехник, показывал много видео и рассказывал мало деталей. Упирал на глубокое предиктивное обучение и whole-body (всем телом робота) управление. Сейчас в тренде двурукая манипуляция и он тоже не отставал с примерами открытия женской сумки и готовки еды (зачем же еще нужны роботы?😀).
Выступала и известная своим планировщиком PRM Lydia Kavraki. Говорила, что сейчас всем важна универсальная мобильная манипуляция. Рекламировала новый датасет для планировщиков Motion BenchMaker.
В конце порадовал Tamim Asfour докладом про повседневные задачи с мобильной манипуляцией и уже 15 лет как с разными версиями робота ARMAR решающий задачу готовки ужина на двоих роботом на кухне. Спустя столько лет тоже сделали датасет, выпустили уже 7 версию своего двурукого робота и начали решать задачу помощи людям в ремонте (наконец-то обои можно будет клеить не одному!).
14 мая. Основная часть
Первый день докладов конференции начался, как обычно, со статистики. Статей с каждым годом все больше, в 2024 почти 4К отправок — это в 7 раз больше чем в далеком 1994 году (помните, я говорил: конференция старая). Уровень принятия — 44%. Самые активные, как, впрочем, и везде, — США и Китай, но подтягиваются Германия и Великобритания.
На ICRA почти четверть статей перенаправляются с RA‑L и кто‑то даже предлагает сделать как в ARR — все рецензировать только через RA‑L. Сама конференция очень большая — 285 сессий (!), 70 воркшопов, 11 соревнований и 80 роботов на экспо, которое заслуживает отдельного рассказа.
Кейноут в первый день был от Yoky Matsuoka и снова про жизненный путь, тернистый и, конечно, успешный. Много хвалилась, что уже 10 лет как не публикуется и делает только полезные робо-продукты. Основной посыл — границы между индустрией и академией постепенно стираются и теперь куда свободнее, чем раньше можно двигаться туда-обратно, а свежие научные результаты, с пылу жару, уже через несколько месяцев начинают быть доступны всем желающим (как с GenAI). Ну и быть explorer’ом (исследователем) в индустрии теперь — так же интересно, как и в науке😉.
Из устных статей отмечу списком на любимые темы про LLM в робототехнике (кстати, здесь это идет под названием AI-enabled или AI-based robotics) и RL (в основном с safety — для робототехники сейчас это важно). Первый блок про LLM и VLM:
Vision‑Language Interpreter for Robot Task Planning — VLM как интерпретатор PDDL — удобно валидириовать план;
Kinematic‑Aware Prompting for Generalizable Articulated Object Manipulation with LLMs — давайте языковой модели с иерархическим CoT больше расскажем про то, какие кинематические ограничения есть у робота, хороший PartNet датасет;
ISR‑LLM: Iterative Self‑Refined Large Language Model for Long‑Horizon Sequential Task Planning — подаем PDDL описание на входе модели как транслятора и еще валидируем и поправляем план на ошибки;
Vision‑Language Frontier Maps for Zero‑Shot Semantic Navigation — VLM для семантической навигации с генерацией целевых точек на границе исследованной области;
Resolving Loop Closure Confusion in Repetitive Environments for Visual SLAM through AI Foundation Models Assistance — как определять местоположение в повторяющихся местах с BLIP-2 и ChatGPT;
Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models — пайплайн по выстраиванию генеративного симулятора (нынче тренд!) с генерацией задач и вознаграждений с LLM;
FLTRNN: Faithful Long‑Horizon Task Planning for Robotics with Large Language Models — симпатичная работа по долгосрочному планированию с LLM и некоей LLM‑based рекуррентной сеткой на графе памяти🤔;
AutoTAMP: Autoregressive Task and Motion Planning with LLMs As Translators and Checkers — семантический и синтактический чекеры для LLM с STL логикой;
ASC: Adaptive Skill Coordination for Robotic Mobile Manipulation — без LLM, но очень для нас знакомая задача — координация разных умений для поиска и переноса объектов, крутые видео со спотом;
Forgetting in Robotic Episodic Long‑Term Memory — как правильно фильтровать эпизодическую память для эффектвивного запоминания событий в модели мира (прям как наш ForgER).
И блок статей по RL:
Subequivariant Reinforcement Learning Framework for Coordinated Motion Control — мультиагентный подход для скоординированного управления роботом;
Offline Goal‑Conditioned Reinforcement Learning for Safety‑Critical Tasks with Recovery Policy — без автономного обучения никуда, здесь про то, как безопасно достигать подцелей со стратегией возврата;
Reinforcement Learning in a Safety‑Embedded MDP with Trajectory Optimization — специальный MDP со встроенный ограничениями на безопасность и оптимизацией траекторий;
Distributional Reinforcement Learning with Sample‑Set Bellman Update — RL на распределения жив! здесь побили Dreamer и Rainbow на Atari (а где же роботы? 😀) с оператором семлирования;
Learning Adaptive Safety for Multi‑Agent Systems — тоже симпатичная работа с адаптивными ограничениями на стратегию на средах гонок и безопасных частиц;
Contrastive Initial State Buffer for Reinforcement Learning — как правильно организовывать и кластеризовать память прецедентов;
Safety Optimized Reinforcement Learning Via Multi‑Objective Policy Optimization — просто переназначение вознаграждений😳;
Differentially Encoded Observation Spaces for Perceptive Reinforcement Learning — давайте хранить не все наблюдения, а только разницу между ними😱;
Projected Task‑Specific Layers for Multi‑Task Reinforcement Learning — как правильно делать нейросетевые бэкбоны для мультизадачной постановки RL
When to Replan? an Adaptive Replanning Strategy for Autonomous Navigation Using Deep Reinforcement Learning — умный переключатель для перепланирования в навигационных задачах
Drive Anywhere: Generalizable End‑To‑End Autonomous Driving with Multi‑Modal Foundation Models — больше рекламная статья без деталей, что с мультимодальными моделями с одной демонстрации можно научить машину ездить где угодно.
15 мая. Основная часть
В этот день на конференции наконец-то был действительно хороший пленарный доклад по делу и с подробностями. Sami Haddadin, TUM, рассказывал про свой взгляд на робототехнику и ее будущее. Начал с функционального определения робота robot=f (embodiment, intelligence) и прошёлся по обоим его составляющим — воплощению и интеллекту.
По его мнению, оправдываются три гипотезы: zero-shot learning, cooperative AI, collective learning. Воплощение сильно проэволюционировало за последние годы, и такие важные задачи для промышленности, как вставка одних объектов в другие и точная манипуляция с инструментами теперь работают хорошо на таких роботах как Franka.
В области интеллекта, на его взгляд, будущее за интеграцией классического управления и RL (в том числе перспективно DMP — dynamic motion primitives). Упирал на коллективное обучение умения сразу на целой фабрике роботов, и в Европе запускается целый проект по этой теме — AI.Factory🤖🤖🤖. В плане железа перспективным считает дизайн хороших форм роботов с помощью самих же роботов (вспоминал и Неймана с его самовоспроизводящимися автоматами). Человек лишь будет контролировать этот процесс.
Был сегодня и наш устный доклад и постер NPField, посвященные нейросетевым представлениям карты и препятствий для эффективного избегания столкновений, с которой мы перебили все SOTA. С открытым кодом и демо на реальном роботе, между прочим 🤖.
Коллег очень заинтересовала наша техника интеграции сеток прямо в процесс обсчета MPC через L4Casadi. В ряду бесконечных вариантов collision avoidance с разными эвристиками наш подход выглядит куда более универсальным.
Десятка избранных статей этого дня, которую я хотел бы отметить, в основном по тематике обучения планирования:
1. Human‑Robot Gym: Benchmarking Reinforcement Learning in Human‑Robot Collaboration — полезный бенчмарк и среда для отработки коллаборации роботов и людей;
2. Projection‑Based Fast and Safe Policy Optimization for Reinforcement Learning — безопасное расширение TRPO с адаптивными проекторами;
3. Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration — безопасная дистилляция стратегии, полученной по демонстрациям с IQL;
4. Active Neural Topological Mapping for Multi‑Agent Exploration — эффективное исследлование среды в мульти‑агентной постановке на данных Gibson и H3M;
5. DiPPeR: Diffusion‑Based 2D Path Planner Applied on Legged Robots — диффузионки для построения плана перемещения собак с тестами на Go1 и Spot;
6. PathRL: An End‑To‑End Path Generation Method for Collision Avoidance Via Deep Reinforcement Learning — похожая на нашу работа, но на RL, генераци траектории избегания столкновений и тоже с costmap;
7. ZAPP! Zonotope Agreement of Prediction and Planning for Continuous‑Time Collision Avoidance with Discrete‑Time Dynamics — формально безопасное планирование с нейросетевым предсказанием траекторий;
8. Planning with Learned Subgoals Selected by Temporal Information — планирование траекторий для манипулятора с подцелями и с AIT*;
9. Unconstrained Model Predictive Control for Robot Navigation under Uncertainty — MPC на редком в нынешнее время роботе Astra от Amazone;
10. Weighting Online Decision Transformer with Episodic Memory for Offline‑To‑Online Reinforcement Learning — двухфазное обучение DT в онлайне и автономно.
И еще пара интересных работ:
1. AdaptAUG: Adaptive Data Augmentation Framework for Multi‑Agent Reinforcement Learning — разные варианты аугментации для MARL;
2. HyperPPO: A Scalable Method for Finding Small Policies for Robotic Control — автоматический подбор архитектуры энкодера для PPO;
3. Grow Your Limits: Continuous Improvement with Real‑World RL for Robotic Locomotion — одна из статей Левайна про RL на реальном роботе с правильным исследованием пространства состояний робота;
4. IQL‑TD‑MPC: Implicit Q‑Learning for Hierarchical Model Predictive Control — интеграция MPC и автономного IQL на базе TD‑MPC;
5. SLIM: Skill Learning with Multiple Critics — безопасное обучение умений с несколькими критиками;
6. TWIST: Teacher‑Student World Model Distillation for Efficient Sim‑To‑Real Transfer — дистилляция модели мира для эффективного переноса модели.
16 мая. Основная часть
Заключительный день основной программы начался с пленарного доклада Sunil Agrawal по реабилитационной робототехнике. Правда, назвать роботами используемые там устройства, например, для восстановления навыков хождения сложно, но автоматизацией — уж точно. Товарищ в своей лаборатории проводит большую работу по помощи людям, удачи ему.
Также я в этот день послушал и так называемый keynote, которых тут идет несколько в параллель, от Kensuke Harada про манипуляцию в промышленности. Докладчик — управленец старой закалки, без всяких генеративок и диффузионок — только внешние базы знаний об объектах. Показывал много видео с довольно смешными примерами задач по распутыванию проводов (важно в автомобилестроении) и вытаскиванию объектов с полок (важно в логистике).
И кстати, в Японии никто не переживает про то, что роботы отнимут работу у людей. Наоборот, наглядно показывают, что рабочая сила с каждым годом выпадает естественным образом (население стареет), а роботов наоборот не хватает, чтобы ее заменить🤖. Так что нужно больше автоматизации и внедрений на разные процессы типа приготовления еды и сборки телефонов.
Традиционная десятка статей с устных выступлений этого дня. Разбавим немного бесконечные LLM многоагентностью:
1. ERRA: An Embodied Representation and Reasoning Architecture for Long‑Horizon Language‑Conditioned Manipulation Tasks — одна из первых работ по LLM для манипуляции c RA‑L 2022 еще с T5 и CLIP;
2. Grasp‑Anything: Large‑Scale Grasp Dataset from Foundation Models — отличный синтетический датасет для хватания очень разных предметов, который тоже сделали с помощью LLM;
3. Anticipate & Act: Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments — еще одна интеграции PDDL планирования и LLM;
4. Conditionally Combining Robot Skills Using Large Language Models — как правильно делать переключатель умений на LLM;
5. Interactive Planning Using Large Language Models for Partially Observable Robotic Tasks — что‑то боле оригинальное: как заставить LLM узнать больше о задаче, если информации не хватает;
6. Optimal Scene Graph Planning with Large Language Model Guidance — планирование с LTL проверкой получающего автомата на действиях, без A* не обошлось, используют 3DSceneGraph dataset;
7. CAPE: Corrective Actions from Precondition Errors Using Large Language Models — на Spot и в VirtualHome расширяют SayCan на проверки предусловий действий;
8. GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task‑Oriented Grasping — так называемое целеориентированное хватание, когда это хватание нужно сделать для выполнения задачи (например, вылить воду из крушки, а не просто ее поднять)
9. Benchmarking Multi‑Robot Coordination in Realistic, Unstructured Human‑Shared Environments — еще один бенчмарк для мульти‑агентного планирования от Koenig;
10. Conflict Area Prediction for Boosting Search‑Based Multi‑Agent Pathfinding Algorithms — предсказание областей конфликта агентов с помощью нейросетки.
Еще парочка:
1. Conflict‑Based Model Predictive Control for Scalable Multi‑Robot Motion Planning — симпатичная работа по интеграции эвристического CCBS и MPC для более реалистичных роботов;
2. ALPHA Attention‑Based Long‑Horizon Pathfinding in Highly‑Structured Areas — а вот и MARL с графовым трансформером, кучей хендкрафт признаков и только для сильно структурированных сред;
3. Sim‑To‑Real Learning for Humanoid Box Loco‑Manipulation — неплохой sim2real на роботе Digit при переносе грузов, но без зрения;
4. Hamiltonian Dynamics Learning from Point Cloud Observations for Nonholonomic Mobile Robot Control — развитие нейросетевых ODE для восстановления динамики мобильного Jakal;
5. Deep Model Predictive Optimization — хорошая работа по использованию MPC как модели для PPO;
6. SERL: A Software Suite for Sample‑Efficient Robotic Reinforcement Learning — фреймворк от команды Левайна с супер эффективным обучением на реальном роботе, используют DRQ‑SAC и RLPD;
7. Robotic Offline RL from Internet Videos Via Value‑Function Learning — трехфазовый подход обучения по видео без дорогой разметки действий экспертами;
8. Safe Reinforcement Learning with Dead‑Ends Avoidance and Recovery — безопасный RL с детекцией циклов.
14-16 мая. Выставка роботов
Про выставку здесь можно говорить много — роботов действительно хватает на любой вкус и цвет. Просто покажу несколько первых попавшихся:
От китайских разработчиков выбор большой, но вот все как-то нет в них уверенности, хоть выглядит все достойно. Unitree, на который тут большой ажиотаж, в этом смысле положительно выделяется. Компания, раскрученная благодаря красивым видео (любят все-таки робототехники впечатляющие ролики) и их демо, хоть и простенькие в стиле постоять-потолкать, собирают большую толпу, ведь на конференции уже есть возможность посмотреть его в живую!
17 мая. Заключительный день
Прощаемся с ведущей конференцией по робототехнике. ICRA по праву считается самой большой и почетной, даже салют на прощальном банкете могут себе позволить 😁.
В последний день воркшопов нельзя было пройти мимо Vision-Language Models for Navigation and Manipulation (VLMNM), хотя от обилия языковых моделей и костылей, с которыми их прикручивают к всяким разным роботам уже начало рябить в глазах🧐. Но здесь был великолепный Subbarao Kambhampati, которого я слушал еще в феврале в Ванкувере с теми же мыслями: сами по себе LLM планировать не могут и их нужно помещать в более сложные архитектуры (типа их Modulo), чтобы извлекать какую-то пользу.
Он придумал некий тест (PlanBench) по типу мира кубиков для тестирования планировочных возможностей и из нового протестировал нашумевшую GPT4o. И классикам все еще нечего бояться 😉 — где-то она оказалась даже хуже старой версии.
Еще из докладов воркшопа отмечу Chuchu Fan с их AutoTAMP на темпоральной логике и Jeannette Bohg, которая рассказывала, как они дальше развивают своего нашумевшего в свое время TidyBot — уже делают мультиробот постановку задачи и критикуют обучение по демонстрациям из-за болей со сбором данных и нестабильными стратегиями.
Были еще пару докладчиков попроще: David Hsu про то, как правильно токенизировать наблюдения для LLM и Yuke Zhu с пирамидой Маслоу сбора данных для робототехники от веб данных до все-таки данных из реального мира, без которых в робототехнике все-таки не обойтись.
Бонус. Парад роботов
На сладкое: парад роботов с конференции, кто как мог шел, ехал и полз
Кстати, на ICRA2024 мы прилетели сразу, как только закончилась другая знаковая конференция по обучению представлениям — ICLR2024, но о ней как-нибудь в другой раз. Если же не терпится узнать, что происходило и там тоже, читайте в моём канале в телеграме: t.me/ai_panov. Я там рассказываю и скидываю ещё больше фото со всех мероприятий, которые посещаю.