Команда робототехники DeepMind представила три новых достижения, которые помогут роботам принимать решения быстрее и лучше. Одно из них включает в себя систему сбора обучающих данных с помощью «Конституции робота», которая будет гарантировать безопасность действий робота для человека.
Система сбора данных Google, AutoRT, может использовать модель визуального языка (VLM) и модель большого языка (LLM), чтобы понять окружающую среду, адаптироваться к незнакомым настройкам и принять решение о соответствующих задачах. «Конституция робота», вдохновленная «Тремя законами робототехники» Айзека Азимова, описывается как набор «подсказок, ориентированных на безопасность», предписывающих LLM избегать выбора задач, в которых участвуют люди, животные, острые предметы и даже электроприборы.
В целях дополнительной безопасности DeepMind запрограммировала роботов на автоматическую остановку, если давление на подвижные шарниры превышает определённый порог. Также компания предложила задействовать физический аварийный выключатель, который люди-операторы могут использовать в экстренных ситуациях.
За семь месяцев Google развернула парк из 53 роботов AutoRT в четырёх различных офисных зданиях и провела более 77 тысяч испытаний. Некоторыми роботами управляли удалённо люди-операторы, в то время как другие действовали либо на основе сценария, либо полностью автономно с использованием модели обучения искусственного интеллекта Robotic Transformer (RT-2). Роботы были оснащены только камерой, манипулятором и мобильной базой. «Для каждого робота система использует VLM, чтобы понять окружающую среду и объекты в пределах видимости. Затем LLM предлагает список творческих задач, которые может выполнить робот, например “Положите закуску на столешницу”, и играет роль лица, принимающего решения, выбирая подходящую задачу», — отметили в компании.
Другая новая технология DeepMind включает SARA-RT, архитектуру нейронной сети, разработанную для того, чтобы сделать существующий робот-трансформер RT-2 более точным и быстрым. Компания также анонсировала RT-Trajectory, которая добавляет 2D-контуры, чтобы помочь роботам лучше выполнять определённые физические задачи, такие как протирание стола.
DeepMind в 2022 году представила систему Robotics Transformer (RT-1), а в 2023 году вышла RT-2. RT-1 использовалась для обучения Everyday Robot более чем 700 задачам. Система включала базу данных из 130 тысяч демонстраций, что, по словам команды DeepMind, привело к успешному выполнению заданий в 97% случаев. RT-2 же позволяет роботам эффективно переносить концепции, изученные на относительно небольших наборах данных, в различные сценарии.