Платформа Artificial Analysis опубликовала четвертую версию Intelligence Index, одного из наиболее строгих рейтингов современных ИИ-моделей. В новой итерации отчет зафиксировал фактическое равенство сил между тремя крупнейшими игроками рынка. Формально первое место заняла GPT-5.2 в конфигурации X-High, однако Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google отстают на минимальную величину, которая укладывается в статистическую погрешность.
Главное отличие версии 4.0 заключается в методологии. Авторы рейтинга сознательно ужесточили тесты и отказались от привычных бенчмарков, которые за последние годы стали слишком оптимизированы под конкретные модели. В результате абсолютные оценки заметно снизились. Если ранее лидеры набирали более 70 баллов, то теперь потолок оказался около 50. Это не деградация моделей, а попытка вернуть измерениям реальную сложность.
Вместо AIME 2025 и MMLU-Pro были введены новые наборы задач. AA-Omniscience проверяет широту знаний и устойчивость к галлюцинациям. GDPval-AA оценивает практическую полезность ИИ в 44 профессиональных областях, от финансов до медицины. CritPt фокусируется на научном мышлении и умении работать с физическими и инженерными проблемами. Итоговый индекс собирается из четырех направлений: агентные способности, программирование, научное рассуждение и общие задачи.
Отчет также подчеркивает, что различия между топ-моделями все чаще проявляются не в среднем балле, а в профиле сильных и слабых сторон. Одни модели лучше справляются с агентными сценариями и сложными цепочками действий, другие демонстрируют более стабильное научное мышление или меньшую склонность к ошибочным выводам.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
