Обновить

Комментарии 1

Коротко: сильная работа про Embodied-R1 и “язык указаний” — точки и визуальные траектории как промежуточное представление между пониманием сцены и движением. Плюсы: компактная 3B-VLM, обучение через RFT/GRPO, переносимость между роботами и устойчивость к шумам; в реальных экспериментах на XArm заявлено ~87,5% успеха zero-shot, в симуляторе ~56,2%. Это удобно встраивать поверх существующих планировщиков (пример — CuRobo), получая прозрачную цепочку “рассуждение → команда”. Минусы: 2D-след всё ещё требует аккуратного восстановления 3D; слабее с мягкими/деформируемыми объектами и силовым контролем; для длинных задач нужен иерархический план. Что бы я попробовала дальше: RGB-D/воксельные траектории, on-policy дообучение на реальных роллаутах и тактильную обратную связь для силовых контактов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации