Комментарии 5
Почти все интерфейсные задачи из примеров можно заменить скриптовыми.
Я вот пока не понимаю, как грамотно агентно решать следующий коасс залач: ходить в 1с через 2 vpn/rdp и там что-то ещё делать/код писать/интерфейс кликать. Имхо, проще настроить какие-то базовые "кирпичики" действий через n8n, а потом уже генерировать саму конфигурацию workspace n8n
Очень интересен ваш опыт, но мне не удалось понять, какую задачу вы решаете? Несомненно, сам вызов "Научить машину понимать интерфейс быстро и чётко" очень соблазнителен с инженерной точки зрения. Но если вы считаете, что сразу после этого наступит сингулярность, то мне кажется вас ожидает большое разочарование. К сожалению, это не пустые умозаключения, а реальный опыт. Следующее, с чем вы столкнётесь - это понимание машиной предметной области, и пусть сто раз описанный в интернете и мозгах модели, почти последовательный процесс установки линукса не даст вам ложных надежд.
Посидите рядом с реальными офисными пользователями, посмотрите как вводится информация, какие и на основании чего принимаются решения. К примеру, попробуйте обучить машину, что нужно делать при отсутствии кредит-лимита клиента, или попытке внести данные в закрытом периоде, или выбрать позицию из справочника максимально близкую к той, что указана в документе и многое другое, очень ситуационное, которое так просто не опишешь Given-When-Then.
Универсальный GUI-агент, который всё делает, как человек, - это очень сложно. Осенью 2024 Anthropic выпустили какую-то поделку под названием Computer Use: тыкнуть мышкой, сделать скриншот, прочитать скриншот, подумать. Медленно, дорого, криво. Были ещё поделки, но большого прогресса не видно.
На практике я замечал, что модельки видят графику очень приблизительно. "размыто", но тут есть некоторые трюки. Могут рассказать подробней о своём опыте.
А иконки даже человек часто не понимает (и OCR не поможет), но он может прочитать тултип к иконке. И если агент работает с человеком одновременно в одном рабочем столе и будет дёргать GUI-элементы, это будет мешать человеку.
Есть вариант обучать агента работать с конкретными GUI-программами через системные вызовы: либо отправлять хоткеи, если они есть, либо сначала вытащить адреса/внутренние идентификаторы элементов меню и иконок, большинство программ и так ведь на стандартных компонентах работают. Видел списки таких идентификаторов на форумах тулов-кликалок. Но тут тоже непросто, а самый важный вопрос - как всё равно ЧИТАТЬ информацию из программы - либо опять расковыривать память, либо OCR. Помнится, Lingvo умела делать так: навёл на слово в любой программе мышкой, Lingvo дала перевод. Там чисто OCR был, не знаете?
Ну т.е. если коротко, можно научить агента работать с конкретной программой и потом пользоваться. Лучше, чем ничего.
Да, сложно и медленно (по сравнению со мной), но пока прогресс есть - OCR работает, иконки распознаются и даже решения ищутся (например, когда он не смог найти форму входа на сайте, сначала прокликал все ссылки, потом пошел искать в гугле, а потом еще и поиском по странице в хроме воспользовался - и уж тогда сдался, сказав об этом мне). Также интересно наблюдать, как он ищет решения, если не получается сразу. У меня пока простые задачки типа "открой веб телеграмм, зайди с номером, найди человека, напиши ему", "поставь хром и сделай его дефолным браузером", "поставь adguard в хром", "добавь user в sudoers без пароля, узнай ip адрес и подключись по ssh"... сегодня вот наконец-то прошел radio-button тест, настроил макось и также включил на ней SSH. Интересно за этим наблюдать. Если хотите, давайте спишемся в телеге (ник такой же) и поговорим!

Попытка в сингулярность (GUI агенты)