Fara-7B - компактная система искусственного интеллекта, предназначенная для автоматизации пользовательских интерфейсов исключительно на основе визуального ввода. Несмотря на скромные размеры, модель способна конкурировать с более сложными системами, работая полностью локально на потребительских устройствах.

Разработанная на базе Qwen2.5-VL-7B от Alibaba, Fara-7B, по данным Microsoft, использует исключительно визуальную информацию. Вместо анализа DOM-дерева или HTML-кода модель работает напрямую со скриншотами интерфейса по принципу «наблюдай-думай-действуй»: она прогнозирует координаты кликов и генерирует нажатия клавиш. Для принятия решений система использует три последних скриншота, историю действий и пользовательский ввод.

Обладая всего 7 миллиардами параметров, Fara-7B достаточно легка для работы непосредственно на устройстве пользователя. Microsoft утверждает, что такой подход не только снижает задержки, но и повышает конфиденциальность, поскольку все данные обрабатываются локально.

Ключевой прорыв команды Microsoft — решение проблемы нехватки обучающих данных. Вместо трудоёмкого ручного сценария записи действий компания использовала синтетический конвейер генерации данных на собственной мультиагентной платформе Magentic-One. В этой системе агент-оркестратор составлял пошаговые планы, а агент WebSurfer их выполнял. В результате было собрано около 145 000 успешных сценариев общей сложностью в миллион шагов, которые затем были использованы для обучения компактной Fara-7B.

Команда использовала собственную мультиагентную платформу Magentic-One для автоматического создания решений задач. Агент Orchestrator составляет пошаговые планы, а агент WebSurfer их выполняет. Затем Microsoft собрала данные об успешных выполнениях задач - примерно 145 000 траекторий с общим количеством шагов в один миллион - и преобразовала их в более компактную модель Fara-7B.

Согласно внутренним тестам Microsoft, модель демонстрирует впечатляющие результаты для своего размера. В тесте WebVoyager показатель успешности Fara-7B составил 73,5%, что превышает результаты модели UI-TARS-1.5-7B и даже коммерческого GPT-4o от OpenAI в этой конкретной задаче. Независимая оценка, проведенная Browserbase с привлечением людей-экспертов, подтвердила высокую эффективность модели с показателем успешности 62%.

Особое внимание Microsoft уделяет эффективности модели: Fara-7B в среднем выполняет задачи за 16 шагов, в то время как конкурирующие решения, такие как UI-TARS, требуют в среднем 41 шага. Это напрямую влияет на стоимость использования и скорость выполнения операций.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник