Команда GenRobot выпустила крупное обновление RealOmni OpenData, одного из самых амбициозных датасетов для обучения embodied моделей. Это не набор стерильных роликов из лаборатории, а масштабная мультимодальная база данных, собранная в реальных домах и ориентированная на сложные бытовые задачи.

RealOmni включает синхронизированные данные сразу с нескольких типов сенсоров. Используются изображения с fisheye камер, данные IMU, энкодеры суставов и тактильные датчики с разрешением до 1 мм. Такой набор позволяет моделям учить не только визуальное восприятие, но и координацию движений, контакт с объектами и динамику манипуляций.

Сценарии съемки максимально далеки от лабораторных условий. Данные собирались в более чем 3000 реальных домов. В датасете есть складывание одежды, завязывание шнурков, разбор посуды, сортировка предметов и работа с хаотичными кучами объектов. Почти все задачи двурукие, что делает RealOmni особенно ценным для обучения бимануальной манипуляции.

Отдельный акцент сделан на long horizon задачах. Медианная длина одного клипа около 210 секунд. Это не короткие эпизоды формата «взял и положил», а полноценные процессы из нескольких этапов, где важно удерживать цель, состояние окружения и последовательность действий.

В свежем апдейте добавили 35 тысяч новых клипов, сфокусированных на разгребании куч разнородных предметов. Именно такие сцены считаются одними из самых сложных для embodied моделей и часто становятся точкой отказа при переносе в реальный мир.

В перспективе проект должен вырасти до 10 тысяч часов видео и объема около 95 ТБ. На данный момент загружены Stage 1 и Stage 2, это примерно 1600 часов и около 5.4 ТБ данных. Остальной объем обещают выложить позже. Видео идут в разрешении 1600×1296 при 30 fps, формат mcap, стандартный для ROS, внутри используется H.264.

Есть и важные ограничения. Данные собирались с использованием специфического гриппера GenDAS. Если у вас другое железо или иной сенсорный стек, перенос знаний может оказаться непростым. Кроме того, все взаимодействия записаны в режиме телеоперации. Модель учится копировать движения человека, включая неточности и дрожание рук оператора.

Несмотря на это, RealOmni остается одним из самых ценных open source ресурсов для команд, которые работают над домашними роботами. Данные по завязыванию шнурков, сортировке и работе с беспорядком в открытом доступе встречаются крайне редко.

Датасет распространяется по лицензии CC BY NC SA 4.0. Для исследований и некоммерческих проектов это очень сильный и редкий источник данных.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник