Pull to refresh
1
0
Send message

Универсальный GUI-агент, который всё делает, как человек, - это очень сложно. Осенью 2024 Anthropic выпустили какую-то поделку под названием Computer Use: тыкнуть мышкой, сделать скриншот, прочитать скриншот, подумать. Медленно, дорого, криво. Были ещё поделки, но большого прогресса не видно.
На практике я замечал, что модельки видят графику очень приблизительно. "размыто", но тут есть некоторые трюки. Могут рассказать подробней о своём опыте.
А иконки даже человек часто не понимает (и OCR не поможет), но он может прочитать тултип к иконке. И если агент работает с человеком одновременно в одном рабочем столе и будет дёргать GUI-элементы, это будет мешать человеку.
Есть вариант обучать агента работать с конкретными GUI-программами через системные вызовы: либо отправлять хоткеи, если они есть, либо сначала вытащить адреса/внутренние идентификаторы элементов меню и иконок, большинство программ и так ведь на стандартных компонентах работают. Видел списки таких идентификаторов на форумах тулов-кликалок. Но тут тоже непросто, а самый важный вопрос - как всё равно ЧИТАТЬ информацию из программы - либо опять расковыривать память, либо OCR. Помнится, Lingvo умела делать так: навёл на слово в любой программе мышкой, Lingvo дала перевод. Там чисто OCR был, не знаете?
Ну т.е. если коротко, можно научить агента работать с конкретной программой и потом пользоваться. Лучше, чем ничего.

Information

Rating
Does not participate
Registered
Activity

Specialization

Разработчик баз данных
Средний