Google выпустил Computer Use на Gemini 2.5 Pro для автоматизации действий в браузере. Его стали сравнивать с Operator от OpenAI и Comet от Perplexity. Разбираемся, чем они отличаются по возможностям, доступности и сценариям для компаний.

Что такое Computer Use, Operator и Comet

Computer Use — специализированный агент на базе Gemini 2.5 Pro, который «видит» экран по скриншотам и генерирует действия в браузере: клик, ввод текста, скролл, drag&drop и прочее. Не смотря на название, пока представлен только для работы в браузере. Модель доступна разработчикам через API Gemini в Google AI Studio и Vertex AI  и, по заявлениям Google, показывает лучшие результаты на ряде бенчмарков веб-и мобильного контроля, с меньшей задержкой. Демо-версия есть на Browserbase.

При этом в инфополе уже есть два громких ориентира:

  • OpenAI Operator — «исполнитель» задач в собственном браузере внутри ChatGPT, сейчас в статусе research preview для подписчиков Pro в США. Это агент для обычных в том числе пользователей: ставите задачу → он сам открывает сайты, кликает, заполняет формы и доводит до результата, запрашивая подтверждение на рисковые шаги.

  • Comet — новый ИИ-браузер Perplexity, который недавно стал доступен всем бесплатно (с ограничениями). Он может выполнять действия за вас в вебе: если вы авторизованы, собирать инфу со страницы и со всех вкладок и сделать саммари.

Давайте без кликбейта и маркетинга: чем именно они отличаются и какой вариант выбрать под ваши кейсы?

В чем же отличие Computer Use от Comet, Operator?

Я не буду погружаться в технические нюансы, а расскажу в чем отличие от того же агента Operator от OpenAI и от ИИ-браузера Comet от Perplexity.

  • Computer Use позволяет создавать Агенты управления браузером. Вы можете автоматизировать ваши повторяющиеся задачи в браузере - ввод данных или заполнение форм на веб-сайтах. Вроде как можно автоматизировать тестирование веб-приложений. Так же можно проводить исследования на разных сайтах. Например, сбор информации о продуктах, ценах и обзорах с сайтов электронной коммерции для информирования о покупке

  • Comet от Perplexity можно использовать бесплатно, хоть и с ограничениями (вроде 4 запроса в час), Operator от OpenAI стоит уже 200$ в месяц как часть подписки, Computer Use от Google -сколько использовал, столько заплатил - доступно по API Gemini, потому уже отсекает обычных пользователей. Но на Vertex AI  прайсинг свой.

  • Computer Use от Google можно настроить как своего корпоративного агента, а предыдущие два все-таки для одного обычного пользователя. Компании и разработчики могут собирать СВОИХ операторов под свои процессы (внутренние ЛК, сайты без API), со своими правилами безопасности, логами и подтверждениями — и запускать это массово для сотрудников/клиентов. А тот же ИИ-браузер Comet как оказалось, легко взламывается промпт-инъекциями, ему вы уже не доверите корпоративные секретные данные.

Что ж, давайте срезюмируем коротко про каждого участника:

Gemini 2.5 Computer Use (Google)

  • Это специализированная модель и инструмент «Computer Use» в Google AI Studio (API) и Vertex AI, генерирует пошаговые действия в браузере на основе скриншотов.

  • Подойдет разработчикам и компаниям, которым нужно собирать своих операторов под процессы, с логированием и политиками подтверждений.

Operator (OpenAI)

  • Это агент в экосистеме ChatGPT, который открывает свой браузер, кликает, заполняет формы и просит подтверждение на рискованные шаги; статус — research preview для Pro в США. Нужно $200/мес (план Pro) для доступа.

  • Подойдет продвинутым пользователям/креаторам, кому нужен «универсальный исполнитель» без разработки инфраструктуры.

Comet (Perplexity)

  • Это самостоятельный Chromium-браузер с ИИ-помощником, который умеет анализировать веб-страницы, извлекать данные и выполнять действия (при авторизации) — сейчас доступен бесплатно для всех; часть продвинутых функций — по подписке.

  • Подойдет для массовых пользователей и ресерчеров, кому нужен «умный» браузер из коробки.

Реализация / Примеры кода

Ниже — минимальный скелет: как дернуть Computer Use через Gemini API (идея та же и в Vertex AI; действия исполняет ваш «исполнитель», которому вы доверяете).

# Тест-код: запрос к Gemini 2.5 Computer Use
# 1) Отправляем инструкцию + (опционально) контекстные скриншоты/URL.
# 2) Модель возвращает план и список UI-действий (tool calls).
# 3) Ваш рантайм исполняет действия (эмуляция кликов/ввода в браузере),
#    собирает новые скриншоты/состояние и отсылает обратно до достижения цели.

from gemini import Client, ComputerUse

client = Client(api_key=GEMINI_KEY)
cu = ComputerUse(model="gemini-2.5-computer-use-preview")

session = cu.start(
    goal="Найти ноутбуки до $1200, отсортировать по рейтингу и выгрузить таблицу (название, цена, рейтинг)."
)

while True:
    actions = session.next_actions()   # [{"type":"click","selector":"..."} ...]
    if not actions:
        break
    browser_results = execute_in_headless_browser(actions)  # ваша реализация
    session.feedback(browser_results)

data = session.result()  # структурированные итоги
print(data)

Документация: Gemini API — Computer Use, Vertex AI — Computer Use. Вам нужно реализовать уровень исполнения действий и безопасные политики подтверждений.

Где запускать демо:

  • Browserbase опубликовал готовый шаблон (Stagehand + Gemini 2.5 Computer Use) и публичные демо — быстро проверить автономные веб-таски.

Как использовать Computer Use от Google

  • Начните с быстрых copilots: возьмите 2–3 рутинных сценария (заполнение форм, выгрузка цен), соберите агента на Gemini Computer Use, добавьте политики подтверждений и анти-петли (timeouts/guardrails). Измеряйте метрики: экономия человеко-часов, стабильность, процент успешных сценариев.

  • Оцените TCO: стоимость токенов/времени выполнения в Vertex AI Agent Builder + стоимость поддержки рантайма исполнения. Оценить стоимость можно здесь или вот еще страница цен на Vertex

  • Для редакций/аналитиков попробуйте Comet как рабочий браузер с ИИ: он уже бесплатен, удобен для ресерча и сводок. Еще удобно зайти например в телеграм веб и исследовать всю сводку новостей или попросить ответить на сообщения.

P.S: Вы можете поддержать меня в моем канале НейроProfit - там я пишу более простым языком о том, в чем разбираюсь сама. ИИ-сервисы и LLM тестирую сама, так что накопилось достаточно проверенных нейросетей.