LLM Skirmish: Grok 4.1 Fast обошёл Gemini в написании стратегии, потратив в 37 раз меньше / Хабр

ИИ уже давно научился писать код, сочинять оды и даже проходить “Покемонов”. Но чего действительно хочет каждая уважающая себя нейросеть – так это помериться силами с себе подобными в честном PvP, и лучше в реальном времени. Встречайт�� LLM Skirmish: бенчмарк, где LLM пишут тактические стратегии для RTS-сражений и выясняют, чей код круче.

Авторы проекта вдохновлялись игрой Screeps – MMO-песочницей для программистов, где люди писали JavaScript-стратегии, а их юниты добывали ресурсы и захватывали территории. Здесь та же идея, только вместо людей за клавиатурой языковые модели. Каждая LLM получает описание игры, API и пару примеров, после чего генерирует скрипт на одном из языков (через обвязку OpenCode). Скрипт выполняется в игровом движке, и начинается битва: два ИИ управляют базами, юнитами, ресурсами и пытаются уничтожить спавн противника.

Турнир состоит из пяти раундов, в каждом раунде каждая модель играет со всеми остальными по разу (всего 10 матчей за раунд). После каждого раунда LLM получают логи прошедших боёв и могут скорректировать свою стратегию. Это проверка на обучение в контексте: насколько хорошо модель учится на своих ошибках и подстраивается под соперника.

Пока что турнирную таблицу, составленную авторами проекта, возглавляет Claude Opus 4.5 (Anthropic).

Примечание: GPT 5.2 запускали с уровнем рассуждений high; в будущих версиях возможно xhigh — Примечание: GPT 5.2 запускали с уровнем рассуждений **high**; в будущих версиях возможно **xhigh**

Каждая LLM-модель живёт в изолированном Docker-контейнере. Оркестратор присылает ей задание – например, OBJECTIVE.md с правилами игры и документацией по API. Для раундов со второго по пятый дополнительно передаётся NEXT_ROUND.md с логами предыдущих матчей. Модель должна сгенерировать программный код тактической стратегии, который затем проверяется на валидность (если ошибка – даётся до трёх попыток исправить). После этого скрипт запускается в игровой среде.

Цель каждой партии – уничтожить вражеский спавн. Если за 2000 игровых кадров (каждый кадр – до секунды вычислений) никто не победил, победителя определяют по счёту (очки за экономику, убитые юниты и т. п.).

Главная фишка LLM Skirmish – проверка способности модели улучшать стратегию от раунда к раунду. Чтобы оценить это, авторы провели дополнительную симуляцию: каждую из 25 стратегий (5 раундов × 5 моделей) скрестили друг с другом, получив 7750 виртуальных матчей и усреднённый процент побед по раундам.

График наглядно показывает, что четыре из пяти моделей прибавляют от раунда 1 к раунду 5:

Claude Opus 4.5: +20%,
GLM 4.7: +16%,
GPT 5.2: +7%,
Grok 4.1 Fast: +6%.
А вот Gemini 3 Pro выбивается из общего ряда.

В первом раунде Gemini показал 70% побед – выше всех. Его скрипты были примерно в четыре раза короче, чем у лидеров, и полагались на очень простую, но эффективную агрессию. Однако начиная со второго раунда результаты рухнули до 15%. Качественный анализ показал: Gemini слишком усердно запихивал в контекст все логи прошлых боёв, из-за чего возникало угасание контекста. Модель увязала в деталях и переставала генерировать адекватные стратегии. Возможно, OpenCode оказался неподходящей средой для Gemini.

График ниже сопоставляет среднюю стоимость за раунд с рейтингом ELO.

Claude Opus 4.5 – безусловный лидер по качеству игры, но и самый дорогой: 4,12 $ за раунд. GPT 5.2 отстаёт по ELO, зато выдаёт почти в 1,7 раза больше очков на каждый потраченный доллар. Абсолютный чемпион по эффективности – Grok 4.1 Fast: его раунд стоит копейки (в 37 раз дешевле Claude), а итоговое третье место выглядит сенсацией. Правда, дешевизна иногда аукается: лучшие стратегии Grok взлетают до 75% побед, а худшие падают до 6,5%.

Факты о стратегиях моделей:

Gemini 3 Pro – король первого раунда. Простые и агрессивные стратегии (зерг-раш дешёвыми бойцами) приносят 71% побед в первом раунде. Ахиллесова пята: полное неумение работать с обратной связью в следующих раундах.
Claude Opus 4.5 – повелитель эндшпиля. Уже во втором раунде выходит в доминирующую форму и только усиливается к финалу. Любимая тактика – кайтинг: стрелять и отступать, не подпуская врага. В первом раунде иногда слишком фокусируется на экономике и пропускает быстрые атаки соперников (особе��но GPT).
Grok 4.1 Fast – бюджетный тактик. Фишка: очень дёшево и очень лаконично. Занимает третье место, тратя в 37 раз меньше лидера. Любимая тактика: “стеклянные пушки” – хрупкие, но быстрые и с огромным уроном.
GLM 4.7 – прагматичный минималист. Второй по скорости обучения (+16% побед), но очень нестабильный. Лучшие стратегии попадают в топ-25%, худшие – на дно. Не использует сложные тактики (кайтинг, формации), зато безупречно выбирает приоритетные цели и фокусирует огонь. Любимая тактика: “сфокусированные охотники” – всегда убивают самого опасного врага первым.
ChatGPT 5.2 – вечно второй, но опасный. Обожает много кода. Его лучшие стратегии (например, раунд 2) набирают 89% гипотетических побед. Однако переусложнение иногда вредит: одна из стратегий с 39 вспомогательными функциями провалилась в нижний дециль. Любимая тактика: “болотные сталкеры” – юниты с повышенной скоростью в болотах, где враги вязнут.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

LLM Skirmish: Grok 4.1 Fast обошёл Gemini в написании стратегии, потратив в 37 раз меньше

Другие новости

Информация