Сравнительный анализ 18 LLM моделей: конец монополии?
Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это использовать в своих проектах.

Введение: А что вообще произошло?
Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.
А потом случился ноябрь 2025.
13 ноября — Baidu анонсирует ERNIE 5.0 на Baidu World 2025 — нативно омни-модальную модель, которая за неделю попадает в топ-15 Vision Arena на LMArena, сравниваясь с Claude Sonnet 4 и GPT-5-high.
18 ноября — Google выкатывает Gemini 3 Pro: 91.9% на GPQA Diamond (научное рассуждение), контекст в миллион токенов. Казалось бы, закрытые модели снова впереди планеты всей...
19 ноября — Сбер отвечает релизом GigaChat3-702B под MIT-лицензией. И вот тут начинается интересное: модель показывает 86.59% на HumanEval+ — по цифрам класно, но не понятно как интерпретировать. В добавок веса открыты.
24 ноября — Anthropic представляет Claude Opus 4.5 — первую модель, пробившую планку 80% на SWE-bench Verified (80.9%). Реальные баги из реальных репозиториев — и модель фиксит 4 из 5.
Параллельно китайцы не спят: Kimi-K2-Thinking от Moonshot AI — первая open-source модель с триллионом параметров. 84.5% на GPQA Diamond, 71.3% на SWE-bench. Под MIT-лицензией. Бесплатно. Забирайте. А Alibaba выкатывает Qwen3-VL-235B-A22B-Thinking — VLM с поддержкой визуальных агентов и GUI-автоматизации.
💡 Главный инсайт: Если вы до сих пор считаете, что open-source — это «почти как GPT-4, но похуже» — пора обновить картину мира. Kimi-K2 бьёт GPT-4o на научном рассуждении с разницей в 30+ процентных пунктов.
Так что там с монополией OpenAI и Anthropic? Давайте разбираться с цифрами в руках.
Большая сравнительная таблица
Данные собраны из официальных источников: HuggingFace model cards, технические отчёты компаний, Aider LLM Leaderboards, LMSys Chatbot Arena.
# | Модель | Тип | MMLU-Pro | GPQA | HumanEval+ | SWE-bench | MATH-500 | AIME | Парам. | Актив. |
|---|---|---|---|---|---|---|---|---|---|---|
1 | Gemini 3 Pro | Closed | 91.8% | 91.9% | — | 76.2% | — | 95-100% | ~1T | ~20B |
2 | GPT-5.1 | Closed | 91.4% | 85.6% | — | 76.3% | 96.0% | 94.6% | N/A | N/A |
3 | Claude Opus 4.5 | Closed | 90.8% | 87.0% | — | 80.9% | — | — | N/A | N/A |
4 | Kimi-K2-Thinking | 🔓 Open | 84.6% | 84.5% | — | 71.3% | — | 94.5-100% | 1000B | 32B |
5 | Claude Sonnet 4.5 | Closed | 89.1% | 83.4% | — | 77.2% | — | 87-100% | N/A | N/A |
6 | DeepSeek-R1 | 🔓 Open | 84.0% | 81.0% | — | 49.2% | 97.3% | 79.8% | 671B | 37B |
7 | DeepSeek-V3.2-Exp | 🔓 Open | 85.0% | 79.9% | — | 67.8% | — | 89.3% | 671B | 37B |
8 | Qwen3-235B-A22B | 🔓 Open | 83.0% | 81.1% | — | — | — | 92.3% | 235B | 22B |
9 | GPT-5.1-Codex-Max | Closed | — | — | — | 77.9% | — | — | N/A | N/A |
10 | Mistral Large 2 | 🔓 Open | 84.0% | — | 92.0% | — | — | — | 123B | 123B |
11 | GigaChat3-702B 🇷🇺 | 🔓 Open | 72.76% | 55.72% | 86.59% | — | 78.4% | — | 702B | 36B |
12 | Qwen3-30B-A3B | 🔓 Open | 80.9% | — | — | — | — | 85% | 30.5B | 3.3B |
13 | Gemma-3-27B-IT | 🔓 Open | 67.5% | 42.4% | — | — | 89.0% | — | 27B | 27B |
14 | Mistral Small 3 | 🔓 Open | 81.0% | — | 92.9% | — | — | — | 24B | 24B |
15 | Codestral 25.01 | Closed | — | — | 86.6% | — | — | — | ~22B | ~22B |
16 | Gemma-3-12B-IT | 🔓 Open | ~55% | ~35% | — | — | ~70% | — | 12B | 12B |
17 | GigaChat3-10B 🇷🇺 | 🔓 Open | 60.61% | 35.02% | 69.51% | — | 70.0% | — | 10B | 1.8B |
18 | Vikhr-Nemo-12B 🇷🇺 | 🔓 Open | 26.64% | — | — | — | 17.15% | — | 12B | 12B |
🔓 = Open-source (MIT/Apache 2.0) | 🇷🇺 = Российская разработка
Kimi-K2: Open-source догнал топов
Остановимся на этом подробнее, потому что это реально переломный момент для индустрии.
Kimi-K2-Thinking от китайской Moonshot AI:
🏆 Триллион параметров — но благодаря MoE активируется только 32B на токен
🏆 84.5% на GPQA Diamond — это уровень Claude 3.5 Sonnet
🏆 71.3% на SWE-bench — фиксит реальные баги из GitHub
🏆 51% на Humanity's Last Exam — лучший результат среди всех open-source
🏆 MIT-лицензия — хотите в прод? Пожалуйста. Хотите дообучить? Да на здоровье
Для понимания масштаба: GPT-4o показывает ~53% на GPQA Diamond. Kimi-K2 — open-source модель — опережает его на 30+ процентных пунктов.
💡 Практический совет: Kimi-K2 доступен через API на Together AI и других платформах. Для задач глубокого анализа и научного рассуждения — отличная альтернатива Claude/GPT по гораздо меньшей цене.
Топ-5 по категориям
🧠 Научное рассуждение (GPQA Diamond)
GPQA — это вопросы уровня PhD по физике, химии и биологии. Здесь нужно не знать факты, а уметь думать.
# | Модель | GPQA Diamond | Тип |
|---|---|---|---|
🥇 | Gemini 3 Pro | 91.9% | Closed |
🥈 | Claude Opus 4.5 | 87.0% | Closed |
🥉 | GPT-5.1 | 85.6% | Closed |
4 | Kimi-K2-Thinking | 84.5% | Open |
5 | Claude Sonnet 4.5 | 83.4% | Closed |
Вывод: Разрыв между closed и open — всего 7%. Год назад было 25+.
💻 Кодинг (SWE-bench Verified)
SWE-bench — реальные баги из реальных open-source репозиториев. Модель должна понять issue, найти файл, написать патч, пройти тесты.
# | Модель | SWE-bench | Тип |
|---|---|---|---|
🥇 | Claude Opus 4.5 | 80.9% | Closed |
🥈 | GPT-5.1-Codex-Max | 77.9% | Closed |
🥉 | Claude Sonnet 4.5 | 77.2% | Closed |
4 | Gemini 3 Pro | 76.2% | Closed |
5 | Kimi-K2-Thinking | 71.3% | Open |
6 | DeepSeek-V3.2-Exp | 67.8% | Open |
Вывод: В кодинге closed-модели пока лидируют, но open-source уже на расстоянии вытянутой руки.
📐 Математика (MATH-500 / AIME)
AIME — олимпиадная математика уровня финала всероса. MATH-500 — от школьной алгебры до university-level.
# | Модель | MATH-500 | AIME | Тип |
|---|---|---|---|---|
🥇 | DeepSeek-R1 | 97.3% | 79.8% | Open |
🥈 | GPT-5.1 | 96.0% | 94.6% | Closed |
🥉 | Gemini 3 Pro | — | 95-100% | Closed |
4 | Kimi-K2-Thinking | — | 94.5-100% | Open |
5 | Qwen3-235B-A22B | — | 92.3% | Open |
Вывод: В математике open-source УЖЕ лидирует! DeepSeek-R1 с 97.3% на MATH-500 — абсолютный рекорд.
💡 Для практиков: Нужна модель для математических расчётов, анализа данных, научных вычислений? DeepSeek-R1 под MIT-лицензией. Серьёзно.
🌐 Лучшие Open-Source LLM — Overall
Сводный рейтинг. Только модели с открытыми весами.
Ранг | Модель | MMLU-Pro | GPQA | SWE-bench | Лицензия | VRAM |
|---|---|---|---|---|---|---|
🥇 | Kimi-K2-Thinking | 84.6% | 84.5% | 71.3% | MIT | ~250GB+ |
🥈 | Qwen3-235B-A22B | 83.0% | 81.1% | — | Apache 2.0 | ~470GB |
🥉 | DeepSeek-V3.2-Exp | 85.0% | 79.9% | 67.8% | MIT | ~700GB |
4 | DeepSeek-R1 | 84.0% | 81.0% | 49.2% | MIT | ~700GB |
5 | Mistral Large 2 | 84.0% | — | — | MRL | ~300GB |
6 | GigaChat3-702B 🇷🇺 | 72.76% | 55.72% | — | MIT | ~800GB+ |
Лучшие компактные Open-Source модели (≤30B параметров)
Для тех, у кого нет кластера H100, но есть RTX 4090 или облачный инстанс.
Ранг | Модель | Параметры | Активные | VRAM | Фишка |
|---|---|---|---|---|---|
🥇 | Qwen3-30B-A3B-Thinking | 30.5B | 3.3B | ~60GB | MoE-магия: качество 70B+ при затратах 7B |
🥈 | Mistral Small 3 | 24B | 24B | ~48GB | 81% MMLU, HumanEval 92.9% |
🥉 | Gemma-3-27B-IT | 27B | 27B | ~54GB | Мультимодальный, 128K контекст |
4 | Codestral 25.01 | ~22B | ~22B | ~44GB | FIM 95.3% — лучший для автодополнения |
5 | Gemma-3-12B-IT | 12B | 12B | ~24GB | RTX 4090 ready, 140+ языков |
6 | GigaChat3-10B 🇷🇺 | 10B | 1.8B | ~20GB | Русский язык из коробки |
💡 Qwen3-30B-A3B — это магия MoE: 30 миллиардов параметров, но активируется только 3.3B на токен. Качество как у 70B+ модели, VRAM как у 7B.
💻 Лучшие Open-Source LLM для кодинга
Отдельный рейтинг для тех, кто строит coding assistants, IDE-плагины и системы автоматического ревью. В этой категории в конце ноября произошло важное событие — релиз специализированной линейки Qwen3-Coder.
Ранг | Модель | HumanEval+ | SWE-bench | FIM | Лицензия |
|---|---|---|---|---|---|
🥇 | Qwen3-Coder-480B-A35B | 94.2% | 82.1% | 97.0% | Apache 2.0 |
🥈 | Mistral Small 3 | 92.9% | — | — | Apache 2.0 |
🥉 | Mistral Large 2 | 92.0% | — | — | MRL |
4 | Qwen3-Coder-30B-A3B | 89.5% | — | 94.5% | Apache 2.0 |
5 | Codestral 25.01 | 86.6% | — | 95.3% | Proprietary |
6 | GigaChat3-702B 🇷🇺 | 86.59% | — | — | MIT |
7 | Kimi-K2-Thinking | — | 71.3% | — | MIT |
8 | GigaChat3-10B 🇷🇺 | 69.51% | — | — | MIT |
Лидеры рейтинга
Qwen3-Coder-480B-A35B-Instruct — новый «король кода». Это массивная MoE-модель (480 млрд параметров, 35 млрд активных), которая впервые в истории open-source пробила 80% на SWE-bench, опережая даже Claude Opus 4.5. Если вам нужен аналог Senior Developer для сложных рефакторингов — это он.
Qwen3-Coder-30B-A3B — лучшее соотношение цена/качество. При смешных требованиях к железу (активируется всего 3 млрд параметров!) она выдает почти 90% на HumanEval+, обгоняя многие 70B-модели. Идеальный выбор для локального Copilot в VS Code.
🇷🇺 Феномен GigaChat
GigaChat3-702B занимает почетное место в мировом топ-6, и здесь важен контекст.
Да, специализированные «кодеры» (как Qwen Coder или Mistral) вырвались вперед по сухим цифрам, но GigaChat — это General Purpose модель.
Показатель 86.59% на HumanEval+ означает, что российская модель пишет код лучше, чем GPT-4o и Claude 3.5 Sonnet (образца 2024 года).
Почему для нас GigaChat может быть №1:
Русский контекст: Она идеально понимает ТЗ на русском, комментарии в кириллице и специфику 1С/Bitrix, где западные модели часто «плывут».
MIT Лицензия: В отличие от Mistral Large (MRL) или Codestral, Сбер отдал веса полностью. Никаких ограничений на коммерческое использование.
Безопасность: Это единственная модель из топа, которую можно развернуть в закрытом контуре российского энтерпрайза без юридических рисков и «закладок».
💡 Итог: Если вам нужен сухой код на Python/JS — берите Qwen3-Coder. Если нужна модель, которая обсудит с вами архитектуру на русском языке, поймет нечеткое ТЗ и напишет документацию — GigaChat3-702B вне конкуренции.
🇷🇺 Российские и русскоязычные модели
Отдельная секция для отечественных разработок. Спойлер: есть чем гордиться.
Модель | Разработчик | Параметры | HumanEval+ | Ru Arena | Особенности |
|---|---|---|---|---|---|
GigaChat3-702B-A36B | Сбер | 702B (36B акт.) | 86.59% | — | Мировой рекорд HumanEval+ |
GigaChat3-10B-A1.8B | Сбер | 10B (1.8B акт.) | 69.51% | — | Влезает в RTX 4090 |
Vikhr-Nemo-12B | Vikhrmodels | 12B | — | 65.5 | Лучший для RAG на русском |
QVikhr-3-4B | Vikhrmodels | 4B | — | 78.2 | +20.7% vs базовой Qwen3-4B |
Что сделал Сбер
Команда SberDevices выпустила GigaChat3 — и это не «ещё одна российская LLM». Это:
702B параметров с архитектурой Mixture-of-Experts (36B активных)
86.59% на HumanEval+ — мировой рекорд на момент релиза
MIT-лицензия — полностью открытые веса, используйте как хотите
Pretrain с нуля — не файнтюн китайской модели, а собственный корпус данных
Также выпущена компактная GigaChat3-10B — 10 миллиардов параметров, 1.8B активных. Влезает в RTX 4090, показывает 69.51% на HumanEval и 70% на MATH. Отличный вариант для локального запуска.
Vikhrmodels — комьюнити-разработка
Отдельного упоминания заслуживает проект Vikhrmodels — команда энтузиастов, адаптирующая мировые модели под русский язык:
Vikhr-Nemo-12B — адаптация Mistral-Nemo, оптимизирована для RAG-задач
QVikhr-3-4B — улучшенная Qwen3-4B, +20.7% на русскоязычных бенчмарках
Требования к GPU VRAM
Практическая таблица для планирования инфраструктуры.
Категория | Модели | VRAM (BF16) | С квантизацией (Q4) | Железо |
|---|---|---|---|---|
Кластерные | Kimi-K2, GigaChat3-702B, DeepSeek-R1 | 700-1000GB+ | 250-400GB | 8+ H100 |
Multi-GPU | Qwen3-235B, Mistral Large 2 | 300-470GB | 80-120GB | 4× H100 |
Single H100 | Qwen3-30B, Gemma-3-27B | 54-60GB | 15-20GB | 1× H100 |
RTX 4090 | GigaChat3-10B, Gemma-3-12B, Vikhr-Nemo | 20-24GB | 6-8GB | RTX 4090 |
Consumer | QVikhr-3-4B, Gemma-3-4B | 8GB | 2-4GB | RTX 3080/4070 |
Зачем платить за API, когда есть Open-Source?
Хороший вопрос. Давайте честно.
Математика простая:
Сценарий 1: Стартап, 100K запросов/месяц
GPT-4o API: ~$1,750/месяц
Аренда H100: ~$1,500-2,200/месяц, но запросов неограниченно
При 100K+ запросов self-hosted уже выгоднее.
Сценарий 2: Небольшая команда, 10K запросов/месяц
GPT-4o API: ~$175/месяц
Аренда H100: ~$1,500+/месяц
Здесь API выигрывает в 10 раз.
Но есть нюанс
Простой человек и даже средняя компания не может просто так купить сервер с H100 за десятки тысяч долларов. Это реальность.
Поэтому реальный компромисс:
Ваша ситуация | Рекомендация |
|---|---|
<50K запросов/месяц | API дешевле и проще |
>100K запросов/месяц | Self-hosted окупается |
Чувствительные данные | Только self-hosted, никаких вариантов |
Эксперименты/R&D | Локальные 7-12B модели на RTX 4090 |
Production + приватность | Облачные инстансы с GPU + open-source модели |
💡 Практический совет: Начните с API, измерьте реальные объёмы, посчитайте unit economics. Self-hosted имеет смысл при >50K запросов/месяц ИЛИ при жёстких требованиях к приватности.
Данные: почему не все могут сделать свою LLM
Хотите понять, почему не каждая компания может выпустить свой GPT-4? Ответ не в архитектуре — трансформеры давно опубликованы. Ответ в данных.
Что нужно для pretrain:
Этап | Что нужно | Сложность |
|---|---|---|
Pretrain | 10-15 триллионов токенов чистых данных | Собрать, очистить, дедуплицировать |
Instruct | Миллионы пар вопрос-ответ | Разметка, качество, разнообразие |
Thinking | Синтетические цепочки рассуждений | Нужны сильные модели дл�� генерации |
Почему это ОЧЕНЬ дорого:
Сбор данных — лицензии, парсеры, петабайты хранилища
Очистка — до 90% сырых данных отбраковывается
Дедупликация — без неё модель «заучивает», а не «понимает»
Compute — pretrain на 14T токенов = месяцы работы кластера из 1000+ GPU
Кто в России делает pretrain с нуля?
Только Сбер.
И это не преувеличение. Pretrain GigaChat3-702B — это:
Кластер из тысяч GPU
Месяцы непрерывной работы
Десятки ML-инженеров
14 триллионов токенов собственного корпуса
Остальные российские проекты работают с файнтюном существующих моделей — и это разумный подход при ограниченных ресурсах. Но полный pretrain на русскоязычных данных — это уровень ресурсов, который в России есть только у Сбера.
📖 Рекомендую: Pretrain: как мы собрали обучающий корпус из 14 триллионов токенов — отличная техническая статья от команды SberDevices.
LLM в агентных системах
Агенты — следующий рубеж после простых чатботов. Модель должна планировать, использовать инструменты, обрабатывать ошибки, работать автономно.
Что нужно от модели для агентов:
Function calling — надёжный вызов внешних API
Длинный контекст — помнить историю сессии
Следование инструкциям — не отклоняться от плана
Самокоррекция — понимать, когда что-то пошло не так
Топ-6 моделей для агентных систем
Ранг | Модель | Function Calling | Контекст | SWE-bench | Тип |
|---|---|---|---|---|---|
🥇 | Claude Opus 4.5 | ⭐⭐⭐ | 200K | 80.9% | Closed |
🥈 | GPT-5.1 | ⭐⭐⭐ | 128K | 76.3% | Closed |
🥉 | Gemini 3 Pro | ⭐⭐⭐ | 1M | 76.2% | Closed |
4 | Kimi-K2-Thinking | ⭐⭐ | 128K | 71.3% | Open |
5 | Qwen3-235B-A22B | ⭐⭐ | 256K | — | Open |
6 | DeepSeek-V3.2 | ⭐⭐ | 128K | 67.8% | Open |
Честно о сложностях open-source агентов
Проблемы:
Function calling менее надёжный, чем у GPT/Claude
Чаще «галлюцинирует» при длинных сессиях
Меньше примеров и best practices
Преимущества:
Полный контроль над моделью
Можно дообучить на своих данных
Нет rate limits и зависимости от внешнего API
Приватность данных
💡 Практический совет: Для production-агентов начните с Claude/GPT. Для внутренних инструментов и экспериментов — Kimi-K2 или Qwen3 отлично справятся.
VLM: модели с пониманием изображений
Vision-Language Models — отдельная категория, где модель понимает и текст, и картинки. Ноябрь 2025 принёс несколько важных релизов в этой области.
Что нового в VLM
ERNIE 5.0 Preview от Baidu — нативно омни-модальная модель, которая сразу попала в топ-15 Vision Arena (score ~1206) на уровне Claude Sonnet 4 и GPT-5-high. Особенно сильна в документах и графиках.
Qwen3-VL-235B-A22B-Thinking от Alibaba — флагманская VLM с поддержкой:
Visual Agent — может управлять GUI на ПК и мобильных устройствах
Visual Coding — генерирует HTML/CSS/JS из скриншотов
3D Grounding — пространственное понимание объектов
Контекст до 256K токенов
Топ-6 VLM (ноябрь 2025)
Ранг | Модель | Arena Score | Видео | Тип | Особенности |
|---|---|---|---|---|---|
🥇 | Gemini 3 Pro | #1 | ✅ | Closed | Лидер Vision Arena, 1M контекст |
🥈 | GPT-5.1 | #2-3 | ✅ | Closed | Улучшенный OCR, анализ графиков |
🥉 | Claude Opus 4.5 | #4-5 | ❌ | Closed | Лучший для длинных документов |
4 | ERNIE 5.0 Preview | #12-15 | ✅ | Closed | Документы, графики, китайский |
5 | Qwen3-VL-235B-A22B-Thinking | — | ✅ | Open | Visual agents, GUI automation |
6 | InternVL3-78B | — | ✅ | Open | Industrial/3D reasoning |
💡 Для практиков:
Нужен VLM для анализа скриншотов, документов? Gemma-3-27B работает на одном H100.
Хотите автоматизацию GUI? Qwen3-VL-235B-Thinking — единственная open-source с visual agents.
Работаете с китайским контентом? ERNIE 5.0 или Qwen3-VL будут оптимальны.
Open-Source VLM: на что обратить внимание
Модель | Параметры | VRAM | Фишка |
|---|---|---|---|
Qwen3-VL-235B-A22B-Thinking | 235B (22B акт.) | ~500GB | Visual agents, лучший open-source |
InternVL3-78B | 78B | ~160GB | Industrial reasoning, 3D |
Gemma-3-27B-IT | 27B | ~54GB | Pan & Scan, 128K, одна H100 |
ERNIE-4.5-VL-28B-A3B-Thinking | 28B (3B акт.) | ~48GB | Apache 2.0, документы |
LLaMA 3.2 Vision | 11B-90B | 24-180GB | Strong OCR, 128K контекст |
Ключевые выводы
1. Монополия закончилась
Open-source модели официально достигли уровня проприетарных. Kimi-K2 (MIT) сравним с Claude 3.5 Sonnet. DeepSeek-R1 (MIT) — лучший в мире на математике.
2. MoE — архитектура 2025 года
Большинство топовых моделей используют Mixture-of-Experts: триллион параметров, но активируется 3-5%. Качество «большой» модели при затратах «маленькой».
3. Россия в игре
GigaChat3-702B от Сбера — не «догоняющая разработка», а мировой рекорд на HumanEval+ (86.59%). Под MIT-лицензией. Это достижение мирового уровня.
4. VLM становятся агентами
Новое поколение VLM умеет не только видеть, но и действовать: управлять GUI, генерировать код из скриншотов, понимать 3D-пространство.
5. Таблица выбора
И тут практически нет Чат-ЖПТ от Open-АИ🙂.
Задача | Лучший выбор | Open-source альтернатива |
|---|---|---|
Научное рассуждение | Gemini 3 Pro | Kimi-K2-Thinking |
Кодинг | Claude Opus 4.5 | Qwen3-Coder-480B-A35B |
Математика | DeepSeek-Math-V2 или R1(open!) | — уже лучший |
Агенты | Claude Opus / GPT-5.1 | Kimi-K2 / Qwen3-235B |
Локальный запуск | — | Qwen3-30B-A3B / Mistral Small 3 |
Русский язык | GigaChat3 | Vikhr-Nemo-12B |
VLM + Visual Agents | Gemini 3 Pro | Qwen3-VL-235B-Thinking |
VLM локально | — | Gemma-3-27B-IT |
6. Что это значит для вас?
DS/ML-инженерам: Пора пробовать open-source в production. Качество уже там.
Стартапам: Считайте unit economics. >100K запросов — self-hosted выгоднее.
Enterprise: Open-source + приватные данные = независимость от внешних API.
Всем: Следите за китайскими и российскими релизами. Там сейчас происходит самое интересное.
Понравилась статья? Делитесь в комментариях своим опытом с LLM. Особенно интересно услышать про реальные кейсы open-source в production.
Источники: HuggingFace, Anthropic, OpenAI, Google DeepMind, Alibaba (Qwen), DeepSeek, Moonshot AI, Sber, Vikhrmodels, Baidu, Aider LLM Leaderboards, LMArena (Vision/Text Arena)
Дата: Декабрь 2025
