Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN / Habr

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Одно важное расхождение. Claude Sonnet 4.5 – второе место в нашем бенчмарке. В GPQA Diamond – в районе 17-го. Квантовую химию решает средне, зато когда задача – разобрать бюджет или спланировать проект – он лучше моделей, которые обходят его на PhD-задачах. Для менеджера GPQA – не тот бенчмарк, на который стоит ориентироваться.

Что доступно из России без VPN

#	Модель	Балл	Разработчик
1	Kimi K2.5	4,74	Moonshot AI
2	MiniMax M2.7	4,69	MiniMax
3	MiMo V2 Omni (только API)	4,62	Xiaomi
4	Qwen3.5 Plus	4,56	Alibaba
5	Qwen3.5 397B	4,55	Alibaba

Пять из пяти – китайские. Ноль российских. Все работают без VPN, все бесплатны для базового использования.

GPT-5.4 (глобальный лидер) – 4,80. Kimi отстаёт на шесть сотых. На шкале от 1 до 5 это статистических шум, достойная конкуренция моделям. MiMo V2 от Xiaomi (да, той самой компании с телефонами) – на третьем месте. При этом стоит $0,40/M токенов на входе, а Gemini 2.5 Pro – $1,25/M. Дешевле в три раза, а набирает 4,62 против 4,46.

Какую модель для какой задачи

Claude доминирует в аналитике – планирование, анализ решений, решение проблем, управление командой. Не потому, что «умнее», а потому, что строит фреймворки: матрицы решений, деревья условий, пороги пересмотра. Там, где GPT даёт ответ, Claude даёт систему принятия решений.

GPT сильнее в поиске информации и коммуникации. Причём GPT-5 Mini ($0,002 за запрос) выдал лучший результат в категории «коммуникация» – 4,78, выше GPT-5.2 Pro. За качество общения необязательно платить премиум.

Снепшот из 54 моделей на сегодня по нашему бенчмарку – добавлю для истории

#	Модель	Балл
1	GPT-5.4	4.80
2	Claude Sonnet 4.5	4.78
3	GPT-5.2 Pro	4.78
4	Claude Opus 4.5	4.78
5	Claude Sonnet 4.6	4.77
6	Kimi K2.5	4.74
7	MiniMax M2.7	4.69
8	GPT-5 Mini	4.69
9	GPT-5.2	4.69
10	GPT-5.4 Mini	4.63
11	MiMo V2 Omni	4.62
12	Claude Haiku 4.5	4.57
13	Qwen3.5 Plus	4.56
14	Qwen3.5 397B	4.55
15	GLM-5	4.50
16	Nemotron 3 Super	4.48
17	Gemini 2.5 Pro	4.46
18	DeepSeek V3.2	4.42
19	Qwen3 Max	4.42
20	Gemini 2.5 Flash	4.41
21	Qwen3 Max Thinking	4.39
22	DeepSeek R1	4.33
23	Grok 4.1 Fast	4.32
24	MiMo v2 Flash	4.29
25	Gemini 3 Flash	4.29
26	Mistral Large	4.28
27	Grok 4 Fast	4.25
28	MiniMax M2.5	4.24
29	Claude Sonnet 4.0	4.22
30	MiniMax M1	4.14
31	Grok 4	4.14
32	Grok 3	4.13
33	Qwen3.5 9B	4.11
34	Mistral Small 4	4.05
35	Perplexity Sonar Pro	4.03
36	Perplexity Sonar	4.00
37	Qwen3 235B	3.97
38	Alice AI LLM (Yandex)	3.86
39	Gemma 3 27B	3.75
40	Qwen3 32B	3.67
41	Gemma 3 12B	3.58
42	Gemma 3 4B	3.27
43	GigaChat-Ultra	3.26
44	GigaChat-Ultra Thinking	3.15
45	YandexGPT Pro 5.1	3.13
46	GPT-4o	3.08
47	GigaChat-2-Max	3.08
48	GigaChat-Max-preview	3.05
49	Llama 4 Maverick	2.95
50	GigaChat-Pro-preview	2.90
51	YandexGPT Pro 5	2.85
52	GigaChat-2-Pro	2.82
53	YandexGPT Lite	2.61
54	Phi-4	2.27

MiniMax M2.7 – лучший в тесте по управлению командой: «исключительно детальные планы собеседований, развития карьеры и управления изменениями с конкретными формулировками и сроками». Иногда проскакивают иероглифы в русском тексте – артефакт генерации, но по сути лучше всех.

Доступные аналоги западным моделям в России. В зависимости от категории

Среди доступных из России Kimi и MiniMax укладываются в 0,1–0,2 балла от лидера в каждой категории. Нет ни одной задачи, где VPN был бы обязательным условием качественного результата.

Как это выглядит на практике

Цифры – абстракция. Вот конкретный сценарий из нашего бенчмарка: $100 тысяч и четыре инициативы – ПО для управления проектами ($30K), подрядчик ($45K), обучение ($20K), маркетинг ($40K). Бюджета на всё не хватает. Пять моделей, пять подходов. Привожу места и баллы для понимания значимости нашей шкалы.

Kimi K2.5 (#6 в рейтинге) разбил инициативы на портфельные категории: базовый актив, асимметричная ставка, долгосрочный хедж, резерв. Отсёк контрактора: «операционная заплатка без накопления активов». Предложил пороги отказа: CAC > $200 – исключить маркетинг, defect rate > 5% – исключить ПО. Условная логика, сценарии, метрики для пересмотра.
MiniMax M2.7 (#7, 4,69) – расчёт ожидаемой ценности каждой инициативы, поэтапный план с критериями перехода. Менее креативно, так же пригодно для совещания.
Qwen3.5 Plus (#13, 4,56) – сильный финансовый анализ с учётом скрытых затрат. Но нюанс: «склонна выбирать политически выгодный вариант вместо менее рискованного». Модель скорее подстроится под руководство, чем скажет неудобную правду.
GigaChat Ultra (#43, 3,75) начал с Python-кода, который считает арифметику. Профинансировал контрактора, исключил маркетинг: «откладывается до появления подтверждённых данных». Ни условной логики, ни порогов, ни фреймворка.
Alice AI (#38, 3,86 в среднем) – хорошо структурирует, выделяет корреляции. Но системная проблема: ответы обрываются на середине. Судья: «40–60% задания остаётся невыполненным». Вы ждёте план онбординга, а модель замолкает на третьем пункте из семи.

Разница между 4,75 и 3,75 – не в десятых. Разница в том, что с результатом Kimi можно идти на совещание, а результат GigaChat нужно переделывать.

Почему российские модели отстают

Мы протестировали пять версий GigaChat и три модели Яндекса. Картина однородная.

GigaChat-Ultra – лучшая от Сбера: 3,26. Судья заключил: «анализ часто поверхностный, допускает фактические ошибки в цифрах и ценах, систематически подменяет контекст – вместо запрошенного рынка анализирует российский». GigaChat-2-Pro – 2,82, худший результат среди всех 54 моделей. Сбер продолжает публиковать внутренние бенчмарки о превосходстве над DeepSeek V3. GigaChat-Ultra, которую мы тестировали – и есть модель 3.1. Она набрала 3,26. Ценовой контекст: $0,023 за запрос – почти столько же, сколько Claude Sonnet 4.5 ($0,017), который набирает 4,78.

Alice AI (Яндекс) – лучшая российская: 3,86. Но разрыв с Kimi – 0,88 балла, почти целый балл. YandexGPT Pro 5.1 (3,13) – в половине сценариев по поиску информации отказался выполнять задачу, сославшись «на отсутствие актуальных данных», хотя речь шла об общеизвестных продуктах.

Отдельная ирония: в категории «Региональная осведомлённость» (ТК РФ, налоги, культура России и Казахстана) – казалось бы, домашнее поле – GigaChat-Ultra в режиме Рассуждений получил 2,35 с пометкой «POTENTIAL_HALLUCINATION». Перепутала МЦИ с Месячным расчётным показателем, указала неверную ставку социального налога. Kimi K2.5 на том же сценарии – 3,85, корректно идентифицировал ошибку в условии. YandexGPT – отказался отвечать. Китайская модель знает казахстанское налоговое право лучше российских.

Галлюцинация GigaChat Ultra в наших тестах

Что из этого следует

Проблема доступа для российских пользователей решена. Не российскими компаниями – китайскими. Kimi, MiniMax, Qwen работают из России, бесплатны для базового использования и находятся на уровне глобального паритета. Год назад лучшая доступная модель отставала от топа на 0,4 балла. Сейчас – на 0,06.

Российские модели обслуживают другой рынок: корпоративный комплаенс, госзакупки, «импортозамещение». Не конкуренция по качеству – наблюдение из данных.

Но вот что важно понимать: разница между Kimi (4,75) и GigaChat (3,75) на том же сценарии с бюджетом – это не только разница моделей. Это разница в подходе. Структурированный промпт с контекстом, ролью и форматом ответа вытягивает даже слабую модель. Размытый «распредели бюджет» роняет даже сильную. В нашем бенчмарке мы намеренно использовали промпты «наивного менеджера» – без оптимизации. В реальной работе правильный промпт закрывает половину разрыва между моделями.

Именно этому – как формулировать задачи для ИИ так, чтобы результат можно было использовать – это отдельный навык.

Конкретные цифры устареют через месяц. Структурный паттерн – нет: разрыв между «глобальным топом» и «доступным в России» сжимается каждый квартал, и сжимается по тому, что китайские модели становятся доступнее, а не по причине, что российские – лучше.