Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности. В отличие от многих существующих тестов, которые проверяют пошаговое рассуждение, DeepPlanning фокусируется на верифицируемых глобальных ограничениях: жестких временных и финансовых бюджетах, а также комбинаторной оптимизации, которую необходимо соблюсти в рамках всего плана.

Бенчмарк включает два практических и чрезвычайно сложных домена: многодневное планирование путешествий с поминутным расписанием и сложный шопинг с использованием и комбинированием купонов. Каждая задача – это не просто головоломка, а симуляция среды, где агенту необходимо активно собирать информацию через предоставленные API, удовлетворять локальные ограничения (например, конкретные пожелания к отелю) и при этом укладываться в глобальные лимиты. Один просчет – и весь план летит в тартарары.

Планирование путешествий: логистический кошмар

Агент выступает в роли персонального помощника, который должен организовать многодневную поездку. На входе – запрос на естественном языке с указанием пункта назначения, дат, бюджета и специфических предпочтений (например, “отель 3 звезды с феном”).

В распоряжении агента 9 специализированных API для поиска рейсов, поездов, отелей, ресторанов и достопримечательностей. На выходе требуется предоставить структурированный отчет с пошаговым расписанием и детализацией затрат. Ключевой навык здесь – пространственно-временное мышление: нужно убедиться, что время вылета, часы работы музеев и продолжительность трансферов идеально состыкованы, без накладок и превышения бюджета.

Планирование покупок: битва за скидки

Вторая область превращает ИИ в хитроумного покупателя. Агент должен решить комбинаторную оптимизационную задачу: найти лучшие товары, соответствующие детальным требованиям из списка, и при этом максимизировать пользу от скидок и купонов. На вооружении – 15 API для семантического поиска, фильтрации по множеству атрибутов и управления купонами. Финал – структурированная JSON-корзина с оптимальным набором товаров и примененными промокодами. Сложность в том, чтобы корректно рассчитать сложные правила комбинирования скидок (например, межмагазинные против внутрибрендовых) и выйти на абсолютно минимальную итоговую цену.

Лучший средний показатель точности (Avg Acc.) у GPT-5.2-high – 44,6%. За ним с отрывом следуют Claude-4.5-Opus (с рассуждением) – 33,9% и GPT-5-high – 31,6%. Стоит отметить, что отключение режима размышления для некоторых моделей, как в случае с тем же Claude-4.5-Opus, приводит к резкому падению результата (с 33,9% до 26,3%), что подчеркивает важность явных паттернов рассуждения.

Авторы открыли доступ к материалам: научной статье на arXivдатасету на Hugging Face и ModelScope, а также коду на GitHub. Актуальный лидерборд доступен на сайте проекта.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источники: 1, 2.