Оказывается, JetBrains тихо развивает собственный агент для работы в терминале — Junie CLI. Инструмент не фигурирует в публичных анонсах, но име��но он занял первое место в свежем бенчмарке Terminal-Bench 2.0, обойдя более известные решения.
Terminal-Bench — это прикладной бенчмарк для оценки агентных систем, работающих внутри терминального окружения. Агенту выдается контейнер с «сырой» средой и набор инженерных задач: выполнять shell-команды, писать и править скрипты, устанавливать зависимости, разбираться с ошибками окружения, дебажить и доводить систему до рабочего состояния.

В отличие от reasoning-бенчмарков, где оценивается качество рассуждений на синтетических задачах, Terminal-Bench проверяет именно инженерную компетенцию. Здесь важно не рассуждать, а последовательно действовать: планировать шаги, корректно взаимодействовать с инструментами, учитывать состояние среды и получать воспроизводимый результат.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
