DeepSeek V4 силен только в «своих» бенчмарках. На независимых

После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные замеры и заявил, что в реальности модель позади как минимум на 8 месяцев. Расхождение объясняется одним фактором — выбором бенчмарков.

Логика теста простая. Когда DeepSeek готовила свой технический отчет, она сама выбирала, на каких бенчмарках будет сравнивать модель с конкурентами. NIST так делать не стал: состав тестов зафиксировали заранее, до прогона моделей, и добавили два закрытых бенчмарка — ARC-AGI-2 на абстрактное мышление и собственный PortBench на умение переписывать утилиты с одного языка программирования на другой. Эти тесты DeepSeek раньше не видел, и подогнать модель под них было невозможно.

Результат получился такой. На бенчмарках, которые сама DeepSeek приводила в отчете — кодинг (SWE-Bench), математика, наука (GPQA Diamond), Codeforces — V4 Pro действительно идет вровень с Anthropic Opus 4.6 и OpenAI GPT-5.4. А на тестах NIST — провал. На задачах по кибербезопасности модель решает 32% против 71% у GPT-5.5. На абстрактном мышлении — 46% против 79%. На агентском кодинге — 44% против 78%. Разрыв в 30 с лишним пунктов в одних доменах при равенстве в других — это не общая слабость, а конкретный провал на длинных задачах, где модели нужно держать в "голове" много шагов сразу.

Чтобы свести девять разных бенчмарков в одно число, NIST посчитал каждой модели аналог Elo-рейтинга, как в шахматах. У GPT-5.5 получилось 1260, у Opus 4.6 — 999, у GPT-5.4 mini — 749, у DeepSeek V4 Pro — 800. То есть по совокупному качеству реальный конкурент китайской модели — не топовый Opus, как утверждала сама DeepSeek, а mini-версия GPT.

Зато по деньгам V4 Pro выигрывает. На семи бенчмарках с прямым сравнением модель оказалась дешевле GPT-5.4 mini в пяти случаях. На том же SWE-Bench разница двукратная: 17 центов за решение задачи против 36 у OpenAI. Главный вывод этой истории — даже не про DeepSeek, а про методологию. Любая компания, которая сама выбирает бенчмарки для отчета, будет выглядеть лучше, чем на независимом тесте. NIST впервые делает такой замер публичным — и фактически задает шаблон для будущих оценок открытых моделей.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

Другие новости