В Google представили робота, который воспринимает естественную речь и создаёт машинный код самостоятельно. Проект Code as Policies (CaP) основан на алгоритме искусственного интеллекта Google Pathways Language Model (PaLM), который преобразует команды на естественном языке в исполняемый код.
Систему обучали на примерах команд и коде с комментариями. Теперь робот может при получении новых команд «автономно генерировать новый код, в котором заново распределены вызовы API, синтезированы новые функции и созданы циклы обратной связи для запуска новых действий во время работы».
CaP производит арифметические операции и использует логику определённых языков — например, циклы «if/else» и «for/while» для Python или подключает сторонние библиотеки для реализации дополнительных функций. Также он способен интерпретировать неоднозначные команды вроде «быстрее» и «левее», превращая их в конкретные показатели для выполнения задачи. Центральное место в этом подходе занимает иерархическая генерация кода, которая побуждает языковые модели рекурсивно определять новые функции, со временем накапливать собственные библиотеки и самостоятельно создавать динамическую кодовую базу. Сгенерированный код может вызывать существующие API действий, сторонние библиотеки или позволять писать новые функции во время выполнения.
Однако языковая модель предполагает некоторые ограничения: так, робот даёт сбой, если не видит смысла в команде, а иногда пытается работать с неизвестными параметрами. Он пока не может выполнять сложных последовательностей действий, таким образом, операции с несколькими десятками параметров для него недоступны.
CaP испытали на нескольких робототехнических системах, включая робота от Everyday Robots. Ранее Google вместе с Everyday Robots создала роботов-официантов, которые способны реагировать на сложные запросы. Они работают с использованием метода PaLM-SayCan, который объединяет языковые ИИ-модели с алгоритмами обучения роботов.
В мае DeepMind выпустила систему искусственного интеллекта «общего назначения», которую можно научить выполнять множество различных типов задач. Исследователи обучили систему под названием Gato выполнять 604 задания, в том числе добавлять подписи к изображениям, участвовать в диалогах, складывать блоки с помощью роборуки и играть в игры Atari.