Исследователи Microsoft сравнили AI-агенты на основе API и GUI и пришли к выводу, что каждый подход имеет свои сильные стороны и что они могут хорошо работать вместе. Агенты API взаимодействуют с программным обеспечением через программируемые интерфейсы. Агенты GUI, напротив, имитируют то, как люди используют программное обеспечение, перемещаясь по меню и нажимая кнопки на экране.

Например, чтобы запланировать событие, агент API может инициировать один вызов функции, в то время как агент GUI откроет приложение календаря, найдет нужный экран и заполнит форму вручную.

Исследователи оценили оба типа агентов по девяти категориям. Одним из ключевых отличий является то, как они взаимодействуют с программным обеспечением: агенты API используют вызовы функций, тогда как агенты GUI полагаются на визуальный контент экрана. В результате агенты API, как правило, более стабильны и менее подвержены ошибкам.
Они также более эффективны: сложные задачи часто можно выполнить за один шаг. Агенты GUI, с другой стороны, должны выполнять несколько действий для достижения одной и той же цели. Но эти дополнительные усилия сопровождаются большей универсальностью: агенты GUI могут управлять практически любым программным обеспечением, имеющим видимый интерфейс, независимо от того, предлагает ли оно API.

Эта гибкость становится особенно полезной при работе с новыми или часто обновляемыми функциями. Агенты GUI могут легче адаптироваться к изменениям интерфейса, в то время как агенты API полагаются на стабильные спецификации. Однако безопасность благоприятствует агентам API. Доступ может быть ограничен на уровне функций. Напротив, агенты GUI часто взаимодействуют со всем интерфейсом одновременно.
Обслуживание также проще с API, которые выигрывают от контроля версий. Агенты GUI более хрупкие. Небольшие визуальные изменения могут сломать их. Но прозрачность выше с агентами GUI, поскольку пользователи могут видеть каждое действие, воспроизводимое визуально, что упрощает их аудит.
По словам исследователей, агенты GUI особенно полезны для задач, требующих визуального подтверждения. В одном примере агент GUI генерирует финансовый отчет, вручную перемещаясь по меню и устанавливая параметры, как это сделал бы человек.
Microsoft описывает три стратегии объединения обоих типов агентов в гибридные системы. Первый подход использует API-оболочки для сокрытия действий GUI за программируемым интерфейсом. Например, многошаговый процесс, такой как генерация финансового отчета, можно превратить в одну функцию GenerateReport(). За кулисами оболочка по-прежнему выполняет все действия GUI, но разработчики видят только чистый API.
Вторая стратегия использует инструменты оркестровки для координации шагов API и GUI в рабочем процессе. В сценарии кредитной заявки API используются для запросов к базе данных и проверки кредитоспособности, в то время как действия GUI обрабатывают такие задачи, как отправка электронных писем. Экспериментальный инструмент Microsoft UFO следует этой модели . Он предпочитает API, но возвращается к взаимодействиям GUI при необходимости.

Третий подход включает платформы с низким кодом и без кода. Эти инструменты позволяют нетехническим пользователям создавать автоматизацию с помощью интерфейсов перетаскивания. Под капотом система решает, использовать ли API или действия GUI, в зависимости от того, что доступно.
Microsoft рассматривает недавние достижения в области мультимодального AI как ключевой фактор для этих гибридных систем. Улучшения в визуальном AI и моделях преобразователей могут сделать агентов GUI более надежными. В то же время новые инструменты упрощают разработку API. Вместе эти тенденции могут привести к более гибким формам автоматизации, которые стирают грань между интеграцией front-end и back-end.
В исследовании изложены четкие рекомендации относительно того, когда использовать тот или иной тип агента. Агенты API лучше всего подходят для задач, критичных к производительности, где важны скорость и надежность, особенно при работе с хорошо документированными интерфейсами.
Они также идеально подходят для сред, чувствительных к безопасности, где доступ должен строго контролироваться. Microsoft рекомендует использовать API-агенты для внутренних операций и доступа к базам данных, где прямая и эффективная связь имеет важное значение.
Агенты GUI лучше подходят для устаревших систем, в которых отсутствуют API. Microsoft также выделяет мобильные приложения как сильный вариант использования, поскольку они часто ограничивают внешний доступ к API. Агенты GUI особенно полезны для задач, требующих визуального контроля, таких как тестирование пользовательского интерфейса.

Когда доступные API охватывают только часть системы, гибридный подход имеет наибольший смысл. Организации могут начать с агентов GUI, а затем постепенно переходить на API по мере их доступности. По данным Microsoft, выбор правильной архитектуры с самого начала имеет решающее значение для долгосрочного успеха автоматизации.
Другие компании также работают над способами оптимизации взаимодействия AI с программным обеспечением. Недавно Anthropic представила фреймворк с открытым исходным кодом под названием Model Context Protocol (MCP), который действует как универсальный переводчик между системами AI и источниками данных. Он уже используется для управления такими приложениями, как Blender, которые ранее требовали индивидуальной интеграции для каждой задачи.
В то же время агенты GUI набирают обороты на стороне потребителя. Этот сдвиг имеет смысл. Эти агенты, в теории, могут выполнять широкий спектр задач, просто управляя программным обеспечением так же, как это делает человек. Новые агенты, такие как ChatGPT Operator и китайский помощник на основе искусственного интеллекта Manus, уже используют визуальные интерфейсы для завершения рабочих процессов, которые раньше требовали ручного ввода.