MiniMax выпустили MiniMax-M2.5. Модель обучали с RL в сотнях тысяч реальных окружений. Фокус — кодинг, tool use, поиск и офисные сценарии.

По бенчмаркам:

  • 80.2% на SWE-Bench Verified

  • 51.3% на Multi-SWE-Bench

  • 76.3% на BrowseComp (с управлением контекстом)

SWE-Bench Verified M2.5 проходит на 37% быстрее, чем M2.1: среднее время снизилось с 31.3 до 22.8 минут. Это сопоставимо с Opus 4.6 (22.9 мин), при этом заявленная стоимость задачи — около 10% от него.

В кодинге модель обучалась более чем на 10 языках (Go, C/C++, Rust, TS, Python, Java и др.) в 200k+ средах. Отмечают выраженную склонность к предварительному планированию: перед генерацией кода M2.5 декомпозирует требования и описывает архитектуру. На Droid и OpenCode в SWE-Bench Verified модель показывает 79.7 и 76.1 соответственно — немного выше Opus 4.6.

В агентных сценариях M2.5 делает меньше поисковых итераций. В BrowseComp, Wide Search и внутреннем RISE использует примерно на 20% меньше раундов по сравнению с M2.1 при лучшем результате.

По скорости инференса — до 100 токенов/с (Lightning-версия).

Стоимость:

  • $0.3 за млн входных токенов

  • $2.4 за млн выходных токенов (Lightning)

  • базовая версия — вдвое дешевле

При 100 output TPS час непрерывной работы оценивают в $1. При 50 TPS — $0.3.

Отдельный акцент — RL-инфраструктура. Внутренний фреймворк Forge отделяет агентный слой от движка обучения и даёт до 40× ускорения тренировки. Используется алгоритм CISPO для стабильности MoE и процессные награды для длинных агентных траекторий.

M2.5 уже развёрнут в MiniMax Agent. Пользователи создали более 10 000 кастомных «Experts» — комбинаций офисных навыков и доменной логики (финмодели, ресёрч, код).

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!