ZonD8022 фев в 19:20

Попытка в сингулярность (GUI агенты)

Средний

6 мин

9.4K

Искусственный интеллектИнформационная безопасность *

Кейс

Комментарии 6

sunnybear 22 фев в 19:33

Почти все интерфейсные задачи из примеров можно заменить скриптовыми.

Я вот пока не понимаю, как грамотно агентно решать следующий коасс залач: ходить в 1с через 2 vpn/rdp и там что-то ещё делать/код писать/интерфейс кликать. Имхо, проще настроить какие-то базовые "кирпичики" действий через n8n, а потом уже генерировать саму конфигурацию workspace n8n

ZonD80 23 фев в 07:32

Хороший кейс, обязательно проверю что-то типа такого, спасибо за пример

grumegargler 23 фев в 03:27

Очень интересен ваш опыт, но мне не удалось понять, какую задачу вы решаете? Несомненно, сам вызов "Научить машину понимать интерфейс быстро и чётко" очень соблазнителен с инженерной точки зрения. Но если вы считаете, что сразу после этого наступит сингулярность, то мне кажется вас ожидает большое разочарование. К сожалению, это не пустые умозаключения, а реальный опыт. Следующее, с чем вы столкнётесь - это понимание машиной предметной области, и пусть сто раз описанный в интернете и мозгах модели, почти последовательный процесс установки линукса не даст вам ложных надежд.

Посидите рядом с реальными офисными пользователями, посмотрите как вводится информация, какие и на основании чего принимаются решения. К примеру, попробуйте обучить машину, что нужно делать при отсутствии кредит-лимита клиента, или попытке внести данные в закрытом периоде, или выбрать позицию из справочника максимально близкую к той, что указана в документе и многое другое, очень ситуационное, которое так просто не опишешь Given-When-Then.

optims 23 фев в 18:05

Универсальный GUI-агент, который всё делает, как человек, - это очень сложно. Осенью 2024 Anthropic выпустили какую-то поделку под названием Computer Use: тыкнуть мышкой, сделать скриншот, прочитать скриншот, подумать. Медленно, дорого, криво. Были ещё поделки, но большого прогресса не видно.
На практике я замечал, что модельки видят графику очень приблизительно. "размыто", но тут есть некоторые трюки. Могут рассказать подробней о своём опыте.
А иконки даже человек часто не понимает (и OCR не поможет), но он может прочитать тултип к иконке. И если агент работает с человеком одновременно в одном рабочем столе и будет дёргать GUI-элементы, это будет мешать человеку.
Есть вариант обучать агента работать с конкретными GUI-программами через системные вызовы: либо отправлять хоткеи, если они есть, либо сначала вытащить адреса/внутренние идентификаторы элементов меню и иконок, большинство программ и так ведь на стандартных компонентах работают. Видел списки таких идентификаторов на форумах тулов-кликалок. Но тут тоже непросто, а самый важный вопрос - как всё равно ЧИТАТЬ информацию из программы - либо опять расковыривать память, либо OCR. Помнится, Lingvo умела делать так: навёл на слово в любой программе мышкой, Lingvo дала перевод. Там чисто OCR был, не знаете?
Ну т.е. если коротко, можно научить агента работать с конкретной программой и потом пользоваться. Лучше, чем ничего.

ZonD80 23 фев в 18:09

Да, сложно и медленно (по сравнению со мной), но пока прогресс есть - OCR работает, иконки распознаются и даже решения ищутся (например, когда он не смог найти форму входа на сайте, сначала прокликал все ссылки, потом пошел искать в гугле, а потом еще и поиском по странице в хроме воспользовался - и уж тогда сдался, сказав об этом мне). Также интересно наблюдать, как он ищет решения, если не получается сразу. У меня пока простые задачки типа "открой веб телеграмм, зайди с номером, найди человека, напиши ему", "поставь хром и сделай его дефолным браузером", "поставь adguard в хром", "добавь user в sudoers без пароля, узнай ip адрес и подключись по ssh"... сегодня вот наконец-то прошел radio-button тест, настроил макось и также включил на ней SSH. Интересно за этим наблюдать. Если хотите, давайте спишемся в телеге (ник такой же) и поговорим!

Sfinx88 24 фев в 05:02

Кнопки, радиокнопки, чекбоксы, прочие элементы интерфейса разрабатывались для того, чтобы человек взаимодействовал с программой. Глупо заставлять программу взаимодействовать с программой с использованием UI. Потому что нейросеть - не юзер, она программа ( в широком смысле). И взаимодействовать с другими программами она должна так, как принято взаимодействовать между программами: API, события, jSON, наконец. То есть нужно доработать оконный менеджер (в линуксе это очевидно реалистичнее) так, чтобы помимо самого окна он предоставлял еще API для взаимодействия с нейросетями.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий