Как ИИ учится пользоваться компьютером, просто глядя на видео / Habr

Что, если бы искусственный интеллект мог сам научиться работать с любым приложением — без API, без скриптов и без инструкций — просто наблюдая, как это делает человек на YouTube?

Недавняя исследовательская работа «Watch & Learn: Learning to Use Computers from Online Videos» (Song et al., 2025) предлагает именно это. Учёные из Стэнфорда и Google разработали систему, которая способна извлекать действия пользователя из обычных обучающих видео и превращать их в исполняемые сценарии взаимодействия с интерфейсом.

Если раньше мы вручную создавали тесты, макросы и RPA-ботов для автоматизации рутинных операций, то теперь ИИ может сам “подсмотреть” за пользователем, понять, куда он кликает, что вводит и зачем, — и воспроизвести эти действия на новой системе.\

Почему это важно

Современные RPA-инструменты и автоматизированное тестирование сталкиваются с одной и той же проблемой — хрупкость сценариев. Интерфейс изменился, кнопка переехала, текст поменялся — и всё ломается. Каждое обновление требует ручного редактирования тестов или скриптов.

Исследователи предлагают радикально иной путь: обучить модель видеть интерфейс глазами человека и выводить последовательность действий из наблюдения. Такой подход потенциально делает автоматизацию масштабируемой и независимой от конкретных API и DOM-структур.

Как это работает

В основе метода лежит идея инверсной динамики: система видит два кадра экрана — «до» и «после» действия — и пытается предсказать, что сделал пользователь, чтобы перейти из одного состояния в другое.
��обрав сотни тысяч таких переходов (из обучающих видео и синтетических данных), авторы обучили модель, которая понимает, какие действия соответствуют визуальным изменениям интерфейса: клики, ввод текста, прокрутка, переключения вкладок и т. д.

Результат — ИИ, который не просто “видит экран”, а понимает последовательность действий, и способен воспроизводить её на другом устройстве или в тестовой среде.

Зачем это бизнесу

Если этот подход развить до промышленного уровня, он способен:

Снять большую часть ручной работы QA-инженеров.
Автоматически генерировать тестовые сценарии из пользовательских видео.
Заменить значительную долю RPA-ботов, которые требуют сложной настройки.
Обеспечить самообучающуюся систему тестирования, адаптирующуюся к новым версиям интерфейса.

TL;DR

ИИ наконец-то начинает учиться пользоваться компьютером как человек — через наблюдение и повторение.
И хотя технология пока экспериментальна, она уже открывает путь к новому поколению инструментов тестирования и автоматизации, где код не пишут — его смотрят.

Подробнее по тексту статьи

Авторы представляют фреймворк W&L (Watch & Learn), который преобразует обычные обучающие видео (например, YouTube-туториалы) в исполняемые UI-траектории — то есть последовательности действий пользователя (клик, ввод текста, прокрутка и др.). arXiv+1
Ключевой технический ход: вместо попыток напрямую распознавать весь сценарий, они формулируют задачу как инверсную динамику — то есть: «по двум последовательным состояниям экрана (скриншоты) предсказать действие, которое перешло из первого в второе». arXiv+1
Такой подход упрощает аннотирование и уменьшает необходимость ручных правил или жёстких эвристик.
Они строят большой корпус переходов (state, action, next_state): ~630 000 примеров (500 000 синтетических + 132 000 из человеческих данных) arXiv+1
Потом обучают модель (Inverse Dynamics Model, IDM) предсказывать действие между кадрами, и применяют её к обучающим видео, чтобы автоматически получать UI-траектории без ручной аннотации. arXiv+2arXiv+2
Затем полученные траектории используются в двух режимах:
1. In-context learning (ICL) — во время выполнения задачи агент получает в качестве примеров эти траектории, чтобы направлять себя.
2. Supervised fine-tuning (SFT) — использовать как обучающие данные для дообучения моделей. arXiv+1
На бенчмарке OSWorld (среда эмуляции десктопных задач) они показывают:
- Для ICL: улучшения +1.6…+3.0 процентных пункта относительно базовых моделей. arXiv
- Для SFT: особенно для открытых моделей, сильный прирост — например, для Qwen 2.5-VL рост с ~1.9 % до ~13.0 % успеха. arXiv+1
- Их модель точнее предсказывает действия, чем альтернативные методы (например, подходы, основанные на генерации через LLM) — они превосходят в точности классификации действий (например, клик, прокрутка) и аргументов (координаты) arXiv+1
Авторы также обсуждают ограничения: пока не поддерживаются сложные действия как drag-and-drop, есть слабости с обширным вводом текста, и траектории иногда недостаточно детализированы. arXiv+1

Может ли это заменить ручное тестирование и RPA?

Я оцениваю, что подход W&L обладает потенциалом для значительного частичного замещения, особенно в контексте автоматического тестирования интерфейсов и автоматизации (RPA), но не полным — по следующим причинам:

Плюсы и возможности замещения

Масштабируемая генерация сценариев
— Вместо того чтобы вручную прописывать сценарии тестов для каждого UI, система может автоматически извлекать реальные сценарии из обучающих видео. Это может покрыть множество вариаций интерфейса, которые человек мог пропустить.
Обучение на живых демонстрациях
— Видео отражают реальные пользовательские действия, включая скрытые особенности интерфейса, переходы, ошибки, нестабильности. Это даёт более реалистичные сценарии тестирования и автоматизации, чем синтетика или сильно абстрагированные скрипты.
Гибкость и адаптация
— Подход vision-only (работа с пикселями экрана) делает систему менее зависимой от внутренней структуры приложения: она может работать с произвольными приложениями, где RPA-инструменты с API-интеграциями не справляются.
Поддержка изменений интерфейса
— Когда интерфейс меняется, вручную обновлять тесты и скрипты — дорого. Система, обученная на многих траекториях, может быть более устойчивой к изменениям и обобщать поведение.

Ограничения и причины, почему полная замена пока невозможна

Покрытие действий и сложных сценариев
— Текущая система пока не поддерживает все типы взаимодействий (например, drag-and-drop, жесткие жесты, расширенные мультифинальные сценарии). РPA часто требует глубоких взаимодействий, специфичных для конкретных интерфейсов. Авторы это признают как будущее направление. arXiv
Точность и гарантия корректности
— Для критичных тестов и бизнес-процессов необходима почти стопроцентная надёжность. Любая ошибка или недопокрытие приводят к дефектам. Видео-траектории могут быть шумными или не полностью отражать желаемое поведение.
Ограничения текстового ввода и контекстов
— Сценарии с обширным вводом текста, сложной логикой на стороне сервера, условиями, разветвлениями — это слабая зона текущего метода.
Верификация и отладка
— RPA и ручное тестирование часто предусматривают системы отслеживания результатов, проверку состояний, assertions, проверки граничных случаев. Метод W&L сам по себе выдаёт действия, но не встроен в систему проверок бизнес-логики.
Зависимость от качества видео и покрытия доменов
— В доменах, где видео туториалов мало или они неспецифичны, метод будет уступать. Авторы показывают, что выгоды меньше там, где нет подходящих учебных видео. arXiv

При поддержке канала Слайдер Данные