Agent TARS — это новый подход Bytedance с открытым исходным кодом для автоматизации сложных задач путем визуальной интерпретации веб-контента и взаимодействия с командной строкой и файловой системой. TARS все еще находится в экспериментальной фазе и в настоящее время доступен только для macOS.

Разработанный Bytedance, компанией, стоящей за TikTok, Agent TARS использует основанную на агентах структуру, которая может автоматически планировать и выполнять такие процессы, как поиск, просмотр и навигация по ссылкам. Связь с пользовательским интерфейсом происходит через поток событий, что позволяет пользователям видеть промежуточные статусы и результаты в режиме реального времени.

Агент TARS обрабатывает веб-страницы визуально и использует протокол контекста модели (MCP) Anthropic для подключения к таким инструментам, как текстовые редакторы, командная строка и файловые системы. Версия для Windows находится в разработке.

Интерфейс предлагает живой просмотр всего, что делает агент, включая открытые документы, окна браузера и другие артефакты процесса. Пользователи могут подключаться в любой момент, добавляя новые инструкции, что позволяет им руководить рабочим процессом агента по мере его выполнения.

Пользователи могут вмешаться в любой момент, предоставляя подсказки, пока AI выполняет задачи самостоятельно. | Изображение: Bytedance

На веб-сайте проекта доступно несколько практических примеров , включая технический анализ стоимости акций Tesla, обзор популярных проектов ProductHunt, отчет об ошибках для репозитория Lynx и недельный маршрут путешествия по Мехико.

Пользователи могут экспортировать весь сеанс агента либо как локальный HTML-файл, либо загрузив его на внешний сервер. При загрузке приложение отправляет запрос POST с пакетом HTML, а сервер возвращает ссылку для совместного использования.

После установки Agent TARS с GitHub пользователям необходимо настроить ключи API для предпочитаемой модели и поисковых служб. Для интеграции Azure OpenAI необходимы дополнительные параметры, такие как apiVersionили . deploymentNameСейчас Agent TARS лучше всего работает с Claude, который разработчики описывают как лучший временный вариант. Поддержка моделей OpenAI все еще нестабильна.

В недавнем сообщении в блоге разработчики рассмотрели путаницу между Agent TARS и UI TARS Desktop. UI TARS Desktop предназначен для автоматизации графических пользовательских интерфейсов системного уровня и использует собственную модель UI TARS.

Эта модель работает как на macOS, так и на Windows, в то время как Agent TARS ориентирован на автоматизацию на основе браузера и в настоящее время доступен только для macOS. Эти два приложения имеют разные цели и несовместимы друг с другом.

Agent TARS находится в стадии технического ознакомления и не рекомендуется для использования в производстве на данном этапе. Команда разработчиков приветствует обратную связь, сообщения об ошибках и вклад через GitHub, Discord или X. Ожидается больше технических подробностей и обновлений дорожной карты, поскольку Bytedance работает над открытой платформой для мультимодальной автоматизации задач на основе агентов.

Автономные агенты AI, работающие на основе мультимодальных языковых моделей, набирают популярность как способ автоматизации повторяющихся цифровых задач. Такие компании, как OpenAIManus и Google, уже предлагают похожих агентов или готовятся к их запуску. Несмотря на шумиху, эти системы все еще борются с непредсказуемостью.

Источник