SberDevices, Москва - Создаём умные устройства / Статьи / Хабр

ПрофильСтатьи159Посты1Новости26Подписчики

Sber 15 апр в 11:42

Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение

Сложный

10 мин

7.6K

Блог компании SberDevicesБлог компании СберМашинное обучение * Искусственный интеллектРобототехника

Обзор

VLA, или Vision-Language-Action models, сегодня становятся одной из основных парадигм в робототехнике. Идея выглядит естественно: если большие визуально-языковые модели уже умеют связывать изображение, текст и высокоуровневое понимание сцены, то следующий шаг состоит в том, чтобы добавить к этому действия робота. Так появляется единый контур, в котором модель видит сцену, понимает инструкцию на естественном языке и выдаёт осмысленное управление.

Но в робототехнике недостаточно просто взять VLM, добавить выход на действия и масштабировать обучение, как это делается в чисто языковых задачах. Роботу приходится работать с дальним горизонтом планирования, с новыми объектами, с активным физическим контактом, с разными скоростями движения и с разными воплощениями: от одноруких манипуляторов до двуруких платформ и антропоморфов. В такой постановке поведение нельзя надёжно прописать в коде, а одной только имитации демонстраций быстро становится недостаточно.

В Green-VLA мы исходили именно из этого. Для нас это история не про «ещё один большой датасет», а про сочетание трёх вещей: quality alignment данных, unified action space и RL-фазы поверх behavior cloning (BC), то есть обучения на прямом копировании поведения из демонстраций. В результате мы получили поэтапно обученную VLA-модель для антропоморфного робота Green, которая при этом сохраняет способность к zero-shot переносу на другие воплощения.