Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России / Хабр

20 мая вышло сразу две модели, на которые стоит обратить внимание. Alibaba объявила Qwen3.7-Max, а xAI тихо выложила на OpenRouter Grok Build 0.1. Обе модели решают одну задачу: организуют автономную работу кодинг-агентов. Разбираемся, что внутри.

Нейросеть Qwen3.7-Max: флагман Alibaba для ИИ-агентов

Alibaba создала эту модель для многошаговых автономных задач. Три основных сценария, которые они сами называют: кодинг-агент, офисный автоматизатор и исполнитель долгих задач.

На GPQA Diamond модель набрала 92.4 против 91.3 у Claude Opus 4.6 Max, на математическом HMMT — 97.1, на офисном SpreadSheetBench — 87. Числа хорошие, хотя бенчмарки всегда стоит воспринимать с поправкой на конкретную задачу.

Самое интересное в анонсе — демонстрация 35-часового автономного прогона. Модели дали задачу: оптимизировать вычислительное ядро на незнакомом железе, без документации. За ~35 часов она сделала более 1100 вызовов инструментов, писала, компилировала, профилировала и переписывала код — итог: 10-кратное ускорение. Для сравнения: GLM 5.1 в тех же условиях вышел на 7.3x, Kimi K2.6 — на 5x, DeepSeek V4 Pro — на 3.3x.

Ещё одна деталь: по данным LMArena, превью Qwen3.7-Max взяло 13-е место в общем рейтинге. Это лучший результат для китайских моделей в текущем рейтинге арены.

Нейросеть Grok Build 0.1: новинка xAI для ИИ-агентов

xAI выпустила Grok Build 0.1 настолько тихо, что большинство сообщества это пропустило. Модель появилась на OpenRouter 20 мая.

Контекстное окно — 256K токенов без ограничения на выходной текст. Значит, агент может рефакторить большие кодовые базы без обрывов и команды «продолжай».

Ранний доступ через CLI был у подписчиков SuperGrok Heavy ($300/мес). Теперь модель доступна через API: $1 за миллион входных токенов, $2 за миллион выходных. По цене — один из самых дешёвых вариантов среди кодинг-моделей фронтира.

По ранним тестам сообщества: лендинг профессионального вида генерирует за 40 секунд, стоимость генерации — меньше десяти центов. Модель быстрая и хорошо берёт «с одного выстрела» задачи на создание интерфейсов.

Как системный промпт Grok Build 0.1 слили

Скриншот из обсуждения на Реддите, в котором и произошёл слив

Кто-то просматривал цепочку рассуждений Grok Build 0.1 — то, что модель «думает» перед ответом — и случайно увидел там системный промпт самой модели. То есть инструкцию, которую xAI пишет модели в секрете от пользователей. Её не должно быть видно никому снаружи.

Что в этом промпте написано

Дословно (перевожу): «Ты полезный ассистент, чья работа — превращать подробные внутренние рассуждения в чистый, естественный финальный ответ для пользователя. Никогда не упоминай, что ты суммаризируешь или обрабатываешь какой-либо трейс».

В чём главное открытие? Grok Build 0.1 — это не одна модель, а две, работающие цепочкой:

Модель-мыслитель — думает «вслух», генерирует сырое рассуждение;
Модель-редактор — берёт это рассуждение и причёсывает его в нормальный ответ.

Пользователь видит только финальный ответ и думает, что общается с одной цельной моделью. Системный промпт прямо запрещает редактору признаваться, что он редактор.

Почему это утекло именно через reasoning? Разделитель между запросом пользователя и сырым рассуждением проходит прямо внутри user turn. Там, где не должно быть никаких системных инструкций — они и всплыли.

Как это использовать на практике: если вы работаете с Grok Build 0.1 через API и каким-то образом можете подсунуть контент в слой сырого рассуждения — вы потенциально влияете на то, что редактор выдаст пользователю.

Как использовать Qwen3.7-Max и Grok Build 0.1 в России и создать ИИ-агента с API нейросетей

Обе модели уже работают в SpeShu.AI — Qwen3.7-Max и Grok Build 0.1 доступны без VPN и дорогих зарубежных подписок. Оплата по факту использования в рублях по СБП.

Кроме того, Qwen3.7-Max и Grok Build 0.1 подключены к API SpeShu.AI. Сразу 300+ моделей открывается по одному ключу: переключаетесь между Qwen3.7-Max, Grok Build 0.1, Claude, DeepSeek и остальными без новых аккаунтов и отдельных подписок. Для российского бизнеса, который ведёт бухгалтерию, это особенно важно: оплата в рублях по СБП, счета и акты, поддержка ЭДО — всё закрыто документально без схем с иностранными картами и криптой. VPN не нужен. Единый баланс на все модели, расходы по проектам видны в личном кабинете.

Обе модели вышли в один день и обе целятся в одну нишу — автономные агенты для кода и многошаговых задач. Qwen3.7-Max берёт масштабом и длиной прогона, Grok Build 0.1 — скоростью и дешевизной. Если вы работаете с ИИ-агентами или просто хотите посмотреть, куда движется кодинг-направление — сейчас хорошее время протестировать обе новинки.

Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России

Нейросеть Qwen3.7-Max: флагман Alibaba для ИИ-агентов

Нейросеть Grok Build 0.1: новинка xAI для ИИ-агентов

Как системный промпт Grok Build 0.1 слили

Как использовать Qwen3.7-Max и Grok Build 0.1 в России и создать ИИ-агента с API нейросетей

Публикации

Информация