Исследователи из Tongyi Lab (Alibaba Group) представили MAI-UI — модификацию Qwen3-VL, которая способна автономно управлять графическими интерфейсами смартфонов. На бенчмарке AndroidWorld, где агенты выполняют реальные задачи в эмуляторе Android, MAI-UI-235B-A22B достиг 76.7% успешных выполнений — это лучший результат среди всех протестированных систем. Для сравнения: UI-Tars-2 от ByteDance показал 73.3%, Gemini-2.5-Pro — 69.7%, Seed1.8 — 70.7%. Код проекта опубликован на GitHub.

GUI-агенты — это системы, которые воспринимают экран устройства, интерпретируют инструкции на естественном языке и выполняют действия: клики, свайпы, ввод текста, навигацию между приложениями. MAI-UI обучен на задачах визуального grounding (определение координат нужного элемента по описанию) и многошаговой навигации. Модель поддерживает стандартные мобильные действия вроде кликов, свайпов, перетаскивания элементов и т. д., а также системные команды вроде "назад" или "домой".

Авторы выделяют три возможности, отличающие MAI-UI от конкурентов. Первая — взаимодействие с пользователем: если инструкция неполная или двусмысленная, агент задает уточняющий вопрос вместо того, чтобы угадывать. Вторая — интеграция с внешними инструментами через протокол MCP (Model Context Protocol). Вместо длинной цепочки UI-действий агент может вызвать API — например, получить маршрут через сервис карт или информацию о коммитах из GitHub. Третья — комбинированная система запуска: легкая модель (2B параметров) работает на устройстве, отслеживает выполнение задачи и при отклонении от цели передает управление мощой облачной модели. При этом конфиденциальные данные (пароли, личная информация) остаются на устройстве и не отправляются в облако.

Для обучения навигации команда использовала онлайн-обучение с подкреплением в динамических средах. Исследователи развернули до 512 параллельных Android-эмуляторов в Docker-контейнерах, где агент взаимодействовал с более чем 35 приложениями — от системных утилит до клонов Slack и Twitter. Такой подход позволил модели адаптироваться к неожиданным ситуациям: всплывающим окнам, запросам разрешений, изменениям интерфейса.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.