Компания Boston Dynamics интегрировала Google DeepMind в своего робота-собаку Spot, обеспечив ему более автономное мышление для проведения промышленных инспекций, таких как обнаружение утечек и считывание показаний приборов. Spot также теперь может распознавать, когда необходимо задействовать другие инструменты искусственного интеллекта.

Робот Spot теперь оснащён моделью Gemini Robotics-ER 1.6 от Google DeepMind — высокоуровневой моделью воплощённого мышления, которая обеспечивает интеллектуальные возможности для решения сложных задач.

Благодаря ИИ робособака способна автономно искать опасный мусор или разливы, считывать показания сложных приборов и смотровых стекол, а также использовать такие инструменты, как модели «зрение-язык-действие», когда ей нужна помощь в понимании происходящего в окружающей среде.

Вместо написания формальной программной логики исследователи взаимодействовали с Gemini Robotics, используя разговорный язык. Используя SDK Spot, они разработали слой, который упростил взаимодействие между Gemini Robotics и программным интерфейсом (API) Spot. API обычно предоставляет разработчикам доступ к возможностям робота для создания пользовательских приложений или моделей поведения. Например, исследователи из Meta* использовали Spot для тестирования того, как система искусственного интеллекта может находить и извлекать объекты, которые она никогда раньше не видела.

Для начала требовалось объяснить Gemini Robotics, что ему нужно делать. При написании базовых инструкций исследователи столкнулись с определёнными трудностями. Простые указания, такие как «положите объект» или «сделайте снимок», были недостаточно подробными для воспроизведения ожидаемого поведения. Пришлось добавлять контекст в описания по мере доработки каждого инструмента.

Вот пример инструкции:

This command will cause the robot to take a picture with the specified camera. There is some nuance to choosing the correct camera. Once arriving at a location using GoTo, you should always start by taking a picture with the gripper camera, because it’s the most informative. If the robot has arrived at location and is already holding an object, you can do one of two things:

  1. Immediately call PutDown

  2. Search the area with either of the front cameras. The front cameras are low to the ground, so if you’re trying to put things on an elevated surface, they won’t give you useful information.

Отмечается, что во многих отношениях Gemini Robotics работает идентично оператору, вручную управляющему Spot с помощью планшетного контроллера.

Когда Gemini Robotics задействует тот или иной инструмент, инструмент отвечает результатами и контекстом, например: «Я поднял объект» или «Я не могу поднять что-то, пока у меня занята рука». Затем Gemini Robotics вносит корректировки на лету на основе обратной связи от Spot. Например, чтобы поднять обувь, Gemini Robotics запрашивает изображение, идентифицирует обувь на этом изображении и вызывает команду «поднять». Создавая базовые инструменты, которые семантически взаимодействуют, Gemini Robotics может управлять последовательностью задач, необходимых для уборки комнаты. Существующий программный стек Spot управляет перемещением, навигацией и манипуляциями самого робота.

Важно отметить, что Gemini Robotics имеет строгие ограничения в этом сценарии. Компания не может изобретать новые возможности или управлять Spot за пределами того, что доступно через API. Это делает поведение Spot предсказуемым, позволяя Gemini Robotics адаптироваться к различным ситуациям.

Пока партнёрство с Google Deepmind находится на ранней стадии, однако в Boston Dynamics уже внедрили практические улучшения для Spot и Orbit с помощью AIVI-Learning на базе Google Gemini Robotics ER 1.6. Улучшения моделей происходят автоматически в фоновом режиме.

Ранее Boston Dynamics официально представила коммерческую версию робота Atlas для реальной работы на заводах и складах. Одновременно компания объявила о стратегическом партнерстве с Google, в рамках которого гуманоидный робот получит интеграцию с моделями Gemini Robotics. Это позволит перевести Atlas из категории высокоточного механического исполнителя в класс интеллектуальных агентов, способных понимать окружение и адаптироваться к новым задачам.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена
** — запрещены в России