Google научил Gemini 3.5 Flash пользоваться компьютером и смартфоном / Хабр

Google встроил computer use — управление компьютером — прямо в Gemini 3.5 Flash, сделав его штатным инструментом модели. Теперь ИИ-агент на базе Flash сам смотрит на экран, кликает, печатает и листает: в браузере, на смартфоне и на десктопе. Об этом компания сообщила в своем блоге.

Раньше для этого требовалась отдельная модель — Gemini 2.5 Computer Use, выпущенная в октябре 2025 года и заточенная в основном под браузер. Бенчмарк computer use у новой Flash (78,4% на OSWorld-Verified, вровень с GPT-5.5 и Claude Opus 4.7) Google показал еще на майской презентации модели, но сам инструмент в API добавили только сейчас. Поддержка мобильных устройств — то, чего у старой браузерной модели не было.

Google позиционирует это как инструмент для долгих агентских сценариев и корпоративной автоматизации: непрерывного тестирования софта, когда агент сам проходит приложение и проверяет работоспособность экранов, и рутинной работы в профессиональных программах. В одном из примеров 3.5 Flash самостоятельно разбирает приложение Gemini и выдает категоризированный список его функций, в другом — проверяет собственную документацию на проблемы с доступностью.

Ставка — на цену. Flash остается одной из самых дешевых и быстрых моделей в линейке Google (1,5 доллара за миллион входных токенов и 9 за миллион выходных), а значит, массовая автоматизация через computer use обходится дешевле, чем на тяжелых моделях.

Отдельно Google описывает защиту от prompt injection — атак, когда вредоносный текст на экране перехватывает управление агентом. Для этого модель дополнительно обучали на примерах атак, а корпоративным клиентам предложили два опциональных предохранителя: запрос явного подтверждения перед необратимыми действиями и автоматическую остановку задачи при обнаружении непрямой инъекции.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.