Привычные нам роботы заточены под выполнение определённых задач. Но не зря же последние годы ИИ будоражит воображение всех, кто хоть немного знаком с темой. Развитие нейросетей способно привести к созданию многофункциональных роботов, которые будут учиться выполнять всё новые и новые действия.

Примером такого развития технологий можно назвать RoboCat — самоулучшающийся "умный" механизм, который учится выполнять множество задач с помощью робо-манипуляторов, а затем самостоятельно генерирует новые обучающие данные для улучшения своих способностей.
Процесс обучения RoboCat происходит намного быстрее, чем у других схожих моделей. Он может освоить новую задачу, изучив всего 100 демонстраций, поскольку использует большой и разнообразный набор данных. Это поможет ускорить исследования в области робототехники, поскольку пропадает необходимость обучения под присмотром человека.
Как RoboCat самоулучшается
RoboCat основан на мультимодальной модели Gato (по-испански «кошка»), которая может обрабатывать текст, изображения и действия как в моделируемой, так и в физической среде. Архитектуру Gato объединили с большим обучающим набором последовательностей изображений и действий различных манипуляторов, решающих сотни разнообразных задач.
После первого раунда обучения RoboCat запустили в цикл обучения «самосовершенствованию» с набором ранее неизвестных ему задач. Изучение каждой новой задачи проходило в пять этапов:
Собрали 100-1000 демонстраций новой задачи с использованием роботизированной руки, управляемой человеком.
Настроили RoboCat на эту новую задачу, создав дополнительный интеллектуальный агент.
Модель практиковалась с новой задачей в среднем 10 000 раз, генерируя больше обучающих данных.
Демонстрационные данные и самостоятельно сгенерированные данные включили в существующий набор обучающих данных RoboCat.
Обучили новую версию RoboCat на новом обучающем наборе данных.

RoboCat основан на наборе данных из миллионов траекторий как реальных, так и смоделированных роботизированных рук, включая данные, сгенерированные самостоятельно. Для сбора данных на основе компьютерного зрения используются четыре разных типа роботов и множество роботов-манипуляторов

Управление роботами-манипуляторами и решение сложных задач
Благодаря разнообразию обучающих данных RoboCat научился управлять различными манипуляторами за несколько часов. Хотя он был обучен работе с манипуляторам с двумя захватами, он смог адаптироваться к более сложному манипулятору с тремя захватами.

Посмотрев 1000 демонстраций, где манипулятором управлял человек, RoboCat научился управлять этой новой рукой достаточно ловко, чтобы успешно поднимать деталь в 86% случаев. При том же количестве демонстраций он научился решать задачи, сочетающие точность и правильную оценку. Например, извлечение нужного фрукта из миски или решение головоломок на соответствие формы, которые необходимы для более сложного управления.

Самосовершенствующийся универсал
У RoboCat есть закономерность в обучении: чем больше новых задач он усваивает, тем лучше он усваивает дополнительные задачи. Первоначальная версия RoboCat успешно выполняла ранее неизвестные задачи только в 36% случаев после изучения 500 демонстраций каждой задачи. Но новая версия RoboCat, обученная более разнообразным задачам, удвоил этот показатель успеха при выполнении одних и тех же задач.

Эти улучшения связаны с растущим опытом RoboCat, это похоже на то, как люди развивают более широкий спектр навыков по мере углубления своего обучения в определённой области. Способность RoboCat самостоятельно осваивать навыки и быстро самосовершенствоваться поможет проложить путь к новому поколению более полезных роботов-агентов общего назначения.