В два раза лучше ChatGPT o3. Представлен Grok 4 / Habr

Компания xAI представила свои новые ИИ-модели — Grok 4 и Grok 4 Heavy, в которой несколько агентов работают над проблемой параллельно. По утверждениям xAI, это позволило добиться значительного роста в производительности.

Одним из самых сложных на данный момент ИИ-бенчмарков является Humanity Last Exam — набор из 2500 вопросов в самых разных дисциплинах. Grok 4 с режимом рассуждений показывает результат в 41%, что в два раза лучше, чем у ChatGPT o3 (21%) и Gemini 2.5 Pro (21,6%). Достигается это за счет использования инструментов во время процесса рассуждения — например, модель может несколько раз использовать поиск в сети, чтобы уточнять нужную информацию. Ранее эта технология была доступна только ChatGPT o3.

Результат Grok 4 Heavy в HLE еще больше впечатляет — 50,7% в режиме test time compute, где несколько «агентов» — самостоятельных версий модели — работают параллельно, обмениваясь результатами во время решения вопроса. Разумеется, такой подход требует бОльших вычислительных ресурсов, поэтому Grok 4 Heavy будет доступен в отдельной более дорогой подпискe.

Модель обходит конкурентов и в других бенчмарках. 87,5% / 88,9% (результаты для обычного / heavy) в GPQA (Graduate-Level Google-Proof Q&A) — бенчмарке из 448 вопросов с множественным выбором по биологии, физике и химии на уровне аспирантуры. 98,8% / 100% в AIME25 (American Invitational Mathematics Examination 2025) — американской пригласительной математической олимпиаде 2025 года. 79,3% / 79,4% в LCB (LiveCodeBench, январь-май) — бенчмарке по созданию кода на основе задач из конкурсов LeetCode, опубликованных с января по май. 93,9% / 96,7% в HMMT25 (Harvard-MIT Mathematics Tournament 2025) — турнире по математике Гарварда и MIT 2025 года для школьников. 37,5% / 61,9% в USAMO25 (USA Mathematical Olympiad 2025) — американской математической олимпиаде 2025 года (высший уровень для школьников США).

Наконец, серьезный рост модель показала в бенчмарке ARC-AGI, который призван измерять способность систем искусственного интеллекта к абстрактному мышлению, рассуждению и обобщению, подобно человеку. В отличие от многих других бенчмарков, которые проверяют способность ИИ запоминать информацию или выполнять конкретные задачи, ARC-AGI фокусируется на интеллектуальной гибкости. Здесь Grok 4 на уровне 15,9% — почти в два раза выше ближайшего конкурента.

Обещано, что Grok 4 с первого дня будет доступен в API (запуск может занять некоторое время) по цене в 3 доллара за миллион входящих токенов и 15 долларов за миллион исходящих токенов. У автора этих строк модель уже доступна в подписке SuperGrok за 30 долларов в месяц. А вот для Grok 4 Heavy запущен новый план подписки — SuperGrok Heavy за 300 долларов в месяц.

Также в xAI поделились планами на ближайшее будущее. В ближайшие недели выйдет Grok 4 Coder, отдельная модель для кодинга. Далее планируется улучшить мультимодальные возможности Grok 4 и выпустить модель для генерации видео.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.