Российский ИИ: критика, которая нужна сейчас, и путь, который работает / Хабр

Сейчас, наверное, только ленивый не ругает наши российские LLM: редкие и слабые релизы, спорная практическая эффективность, особенно в кодинге и математике, ограниченный контекст и забывчивость, плохое следование инструкциям и поверхностные ответы.

Да и в целом, несмотря на заявления об использовании современных архитектур и решений складывается впечатление, что "наши" модели словно отстают на 1, а то и 2 поколения от зарубежных аналогов.

Но так ли все плохо и есть ли белый свет в конце тоннеля для российских LLM?

Дисклеймер: я не ML-инженер и не занимаюсь поддержкой разработки моделей. Это просто мнение практика, который активно использует LLM локально и в облаке. Оно субъективно, но, как мне кажется, может помочь нашим продуктам восстановиться и в глазах пользователей, и на мировой арене.

Часть первая: как русский ИИ потерял время

Когда ChatGPT запустился 30 ноября 2022 года никто еще не понял. За два месяца он привлёк 100 млн пользователей. За полгода переопределил правила игры в целой индустрии.

А что делали в России? Яндекс к этому моменту уже три года работал над YaLM. В 2021 году был "Балабоба" с генерацией текстов. Сбер с 2020 года разрабатывал RuGPT. По логике — мы должны были быть впереди.

Но проблема заключалась в том, что все модели обучались под конкретные специфические задачи. Концепция универсальной LLM, которая работает out-of-the-box и не требует переобучения на каждую задачу, казалась на тот момент неправильным направлением. Это был стратегический выбор — и, к сожалению, он оказался ошибочным создав технологический разрыв минимум на год.

За три года LLM перестали быть простыми генераторами текста. Им доверяют сложные задачи автоматизации, они пишут код, tool calling и MCP стали стандартом.

Наши русские модели, формально, включились в гонку уже спустя полгода (17 мая 2023 вышла YandexGPT 1.0, а 24 апреля вышла бета GigaChat), а с 2024 года, следуя современным трендам, фокус моделей сместился специализированные модели для корпоративных клиентов с поддержкой API. Но фора, полученная на старте, если не усилялась, то упорно не позволяла сократить разрыв.

Часть вторая: а что же сейчас у нас есть?

Далее по тексту я не буду сравнивать и обсуждать модели генерации видео, изображений и звука, я ими практически не пользуюсь, а потому мне нечего сказать на счет их качества, но с текстовыми моделями я работаю много, как в облаке, так и локально, поэтому мне есть с чем сравнить.

На текущий момент у нас актуальными топовыми моделями являются Алиса AI и GigaChat 2 Max (Gigachat 3 Ultra находится в превью, API к ней пока нет, да и в бесплатном чате, как я понимаю, все еще используется 2 версия).

Модели Яндекса (если говорить о 5 версии) по моим ощущениям всегда были Qwen-подобными, а тот факт, что буквально полгода назад в облаке Яндекс хостил только Qwen, помимо своих моделей, а новая Алиса AI инициализирована весами Qwen3 все выглядит, так, что ощущения меня не подводили. Справедливости ради, опенсорс релиз YandexGPT5 Lite - имеет архитектуру Llama, но фактически, это все еще чей-то опенсорс.

Сбер же за основу своих реализаций взяли другого китайца, а именно DeepSeek (две опенсорс модели 24 и 25 года на основе DeepSeek 2, а Gigachat 3 Ultra подозрительно похожа на DeepSeek v3, что в целом и не сильно скрывается.

Иными словами, наши современные решения, вероятнее всего, "зависят" от китайских коллег. Да и пусть бы оно так и было, но ведь "оригиналы" показывают себя эффективнее, предоставляют tool calling даже в своих опенсорс моделях (привет YandexGPT5 Lite и Gigachat 3 Lightning, которому сейчас пытаются "прикрутить" вызов инструментов), так к тому же еще "оригиналы" сами по себе дешевле.

Часть третья: почему русские модели стоят дороже в 10-50 раз

Сильнейшим ударом в развитие отечественных LLM стали ссанкции на ввоз современных GPU, которые являются сердцем как обучения, так и инференса современных LLM. А ФЗ № 152 "О персональных данных" сделал использование зарубежных облачных сервисов невозможным.

Что же мы получили?

А получили мы условия, в которых условный ближайший китайский аналог DeepSeek V3.2 стоит порядка 20 рублей за миллион входящих и 40 рублей за миллион исходящих токенов, а наши отечественные модели в своих топовых вариантах стоят от 400 до 2000 рублей за миллион токенов, причем как входящих, так и исходящих (исключение новая Алиса AI, где все же появилось разделение).

Разница до 50 раз! А это цены современных топовых американских решений, с которым на практике наши модели, давайте будем честны, не способны тягаться на равных, ни в общем качестве, ни в tool calling.

Что уж говорить, если в недавнем вебинаре от Яндекса по построению ИИ-агентов прямым текстом было сказано что "YandexGPT 5.1 Pro подходит для таких задач, но если у вас более сложный tool calling, то лучше использовать gpt-oss". Вот только если речь шла даже об 120B версии, а не об 20B, то даже 120B версию, которую сам же Яндекс и хостит, он предлагает дешевле своей Pro версии. Напрашивается резонный вопрос, а зачем мне тогда Pro версия?

Часть четвертая: Стрельба пушкой по воробьям

Видимо, весь тот полугодовой-годовой отрыв, который образовался на заре расцвета GPT моделей продолжает сказываться на стратегиях развития наших моделей.

Яндекс сделал Алису AI на основе Qwen3 235B (да, инициализировав веса, а не дообучая, но не будем вдаваться сейчас в детали), Сбер вообще с нуля обучает титана на 702B параметров. Они рассуждают об эффективности на разных задачах, приросте показателей по всем направлениям, при этом открыто делятся тем, как страдают при обучении и инференсе из-за проблем с серверной инфраструктурой (см. пункт выше).

Вот только по комментариям в сети новая Алиса не шибко то стала умнее, а Ultra от Сбера вообще еще не дообучена, и выпущена в превью для экспериментов энтузиастов (мне как-то сложно себе представить энтузиастов в России, которые для экспериментов будут локально у себя хостить 702B модель).

И у меня встает вопрос: а кому были нужны эти обновления?

Я не активный пользователь Алисы или GigaChat. Периодически захожу, чисто из интереса посмотреть на прогресс, и сравниваю ответы с проверенными моделями. Честно говоря, ответы не впечатляют. Где все эти миллиарды параметров из успешных китайских моделей? Создаётся впечатление, что при адаптации на русский язык основная база просто потеряна, и практической пользы от таких мощных моделей нет.

Так и зачем нам такие огромные модели, которые сложно обучаются, стоят дорого, значительно теряют после адаптации на русский язык (хотя уже несколькими академическими работами доказано, что достаточно небольшого дообучения модели, чтобы научить ее вполне качественно работать на новом языке)?

По мировым бенчмаркам мы даже не замеряемся и явно в них проигрываем (хорошо, если по ним мы находимся на уровне провальной GPT-5), про AGI говорить вообще не стоит. Так в таком случае за чем мы вообще гонимся? Просто за размером?

Часть пятая: что нам показал 2025 год?

Я не буду перечислять очевидное про AGI и ИИ-агентов. Хочу осветить другую сторону: переход бизнеса с LLM на SLM (small language models).

В начале 2025 года это был зарождающийся тренд. К концу года он закрепился. Каждый месяц выходят компактные модели, которые не конкурируют с крупными - они их превосходят в своих задачах.

О чем я говорю? Выделю несколько наглядных примеров.

MiroThinker v1.0 (ноябрь 2025): переопределение масштабирования

MiroMind выпустила MiroThinker с революционной идеей: interactive scaling (интерактивное масштабирование).

Вместо увеличения параметров, модель обучена делать до 600 вызовов инструментов подряд в рамках одной задачи. Контекстное окно — 256K токенов.

RL-версия 30B даёт 8–10 пунктов прироста просто через увеличение глубины взаимодействия с инструментами, без расширения параметров.

Как это работает? Модель активно использует обратную связь от окружения, получает новую информацию, исправляет ошибки и корректирует траекторию решения. Это не просто "дольше думает в изоляции" — это активное взаимодействие.

Результаты на бенчмарке GAIA (многошаговое рассуждение, использование инструментов):

MiroThinker-v1.0-72B: 81.9% (на 6.2 пункта выше предыдущего лидера MiniMax-M2)
HLE (Humanity's Last Exam): 37.7% (выше GPT-5-high на 2.5 пункта при тех же инструментах)

Модель выпущена в трёх размерах: 8B, 30B, 72B.

Вывод MiroThinker: маленькая модель, часто взаимодействующая с инструментами и получающая обратную связь, работает как большая модель.

GLM-4.6V / GLM-4.6V-Flash (декабрь 2025): переворот в мультимодальном tool calling

Zhipu выпустила серию GLM-4.6V с революционной фишкой: native visual tool calling.

Традиционно работает так:

Изображение → Текстовое описание → Анализ → Решение о действии

GLM-4.6V делает по-другому:

Изображение → Прямой вызов функции (параметры функции заполнены на основе визуального восприятия)

Что это означает на практике:

Юзер показывает скриншот сломанного веб-сайта
Модель видит его и сразу генерирует HTML/CSS код
Запускает рендеринг, видит результат
Исправляет код итеративно

Модель больше не генерирует текстовый анализ полученного изображения, а потом решает, что с этим делать — она сразу принимает решение о действии.

Характеристики:

GLM-4.6V: 106B параметров (облако и кластеры)
GLM-4.6V-Flash: 9B параметров (локально)
Контекст: 128K токенов (эквивалент ~150 страниц, 200 слайдов или 1 часа видео в виде изображений)
Нативная поддержка документов, таблиц, диаграмм

Phi-4-Reasoning (май 2025): Microsoft доказывает качество данных

Microsoft выпустила Phi-4-reasoning — 14B параметров.

Ключевые числа:

14 млрд параметров
1.4 млн высококачественных примеров (не 1 млрд, а 1.4 млн)
AIME 2024: превосходит DeepSeek-R1 (671B), хотя сам в 47 раз меньше
Контекст: 32K токенов (экспериментально поддерживает 64K)

Есть две версии:

Phi-4-reasoning (SFT): базовая версия с supervised fine-tuning
Phi-4-reasoning-plus (RL): улучшенная версия с обучением с подкреплением на 6,000 математических задач

Plus версия:

Генерирует 1.5x больше токенов для рассуждения
+15% точности на AIME 2025
+5% на OmniMath

Вывод Phi: Правильно обученная 14B модель работает как 671B на сложных математических задачах. Качество обучающего корпуса важнее, чем размер.

VibeThinker-1.5B (ноябрь 2025): дешёвый прорыв в рассуждениях

Отдельный разговор - VibeThinker-1.5B от WeiboAI.

Цифры звучат нереально:

1.5 миллиарда параметров
Обучена за $7,800 (~3,900 часов GPU H800)
AIME 2024: 80.3% (DeepSeek R1 и варианты отстают)
AIME 2025: 74.4 (превосходит DeepSeek-R1 670B)

Это не опечатка. Модель в 400+ раз меньше, но на олимпийском математическом тесте обходит гигантов.

Секрет в Spectrum-to-Signal Principle (SSP) — двухэтапном обучении:

Фаза Спектра (SFT): Создаём максимальное разнообразие решений. Вместо Pass@1 (один попадает?) ищем Pass@K (много попыток). Модель учится генерировать множество возможных путей решения.
Фаза Сигнала (RL): Используем MaxEnt-Guided Policy Optimization, чтобы выбрать и усилить лучшие траектории. RL не просто "вбивает правильный ответ" — она амплифицирует правильный сигнал из всего спектра возможностей.

Результат: малая модель сохраняет широту мышления большой модели, но при этом точна.

LIMI (октябрь 2025): качество курации вместо количества данных

Исследование команды GAIR показало, что 78 высококачественных примеров позволило дообученным моделям улучшить агентные способности на 40–120%.

Методология:

78 запросов из реальных GitHub PR и исследовательских работ
Полные траектории решения (42k–152k токенов каждая)
Фокус на "Vibe Coding" (совместная разработка) и Research workflows
Fine-tuning на открытом окружении SII CLI

Принцип, переворачивающий обучение AI:

"Машинная автономия не возникает из изобилия данных, а из стратегической курации высококачественных агентных демонстраций."

Вывод: Не нужны миллионы случайных примеров. Нужны 50–100 отобранных вручную агентных траекторий.

Часть шестая: какие выводы из этого можно сделать?

Из всего выше перечисленного следует:

Не нужно гнаться за размерами. Качественная модель требует 24–32B параметров, современных подходов к обучению и выверенных датасетов. Важнее качество данных, чем объём.
Не нужна универсальная пушка для трёх воробьёв. Быстрее и дешевле сделать 3 отдельных инструмента, каждый хорошо решающий свою задачу, чем огромную модель.
Синтетические данные - не враг. Nvidia Nemotron 3 получают >95% синтетических примеров, но все они многоэтапно валидированы. Качество валидации—ключ.

Часть седьмая: путь Mistral AI

Mistral стала наиболее финансируемым ИИ-стартапом (за исключением OpenAI) за два года. Почему?

В сентябре 2023 года — ровно когда Яндекс выпускал YandexGPT 2 — французский стартап Mistral вывел на рынок свою первую модель. Всего 7 миллиардов параметров.

Никто не ожидал, что это сработает.

Mistral 7B показала результаты, которые превосходили Llama 2 13B на всех бенчмарках. Модель с половиной параметров, но дважды лучше качества.

Как это возможно?

Архитектурные инновации — grouped-query attention и sliding window attention позволили улучшить эффективность.
Правильный фокус — вместо гонки за размером они оптимизировали для качества на доступном оборудовании.
Open source с самого начала — Apache 2.0, можно скачать, запустить локально, дообучить.
Быстрые итерации — Mistral 8x7B (MoE) вышла спустя недели. Потом пришли специализированные модели: Codestral, Math-specific версии. Потом, с финансированием, пришли большие: Mistral Large с 100+ млрд параметров.

Но главное: Mistral не попыталась сразу конкурировать с GPT-4. Они сделали винтовку, когда другие гнались за пушкой.

Результат за два года:

2 млрд евро оценка → 5,8 млрд евро
Microsoft интегрировала в Azure
Google Gemini использует элементы архитектуры Mistral
Mistral 3 — семейство из 10 открытых моделей для любых устройств (от смартфонов до дата-центров)

Часть восьмая: почему этот путь единственный для России?

Санкции делают большие модели невозможными.

GPU недоступны. Обучение 671B модели требует тысяч чипов, работающих месяцы. Это физически и финансово невозможно при текущих ограничениях.

Но DeepSeek показала, что можно делать лучше: оптимизировать для эффективности, а не для размера. Они адаптировали код под менее мощные чипы, и модель работает.

Быстрые обновления — не баг, а фича в условиях санкций

Китай и Россия в похожей ситуации: нельзя покупать новое оборудование, нужно оптимизировать под имеющееся. Но у Китая есть свои наработки по GPU и NPU, а у нас - нет. Это означает:

Меньше параметров
Больше инноваций в архитектуре
Быстрые циклы развития (переучивать дешевле, чем занимать под долгие проекты)

Это не недостаток — это стиль развития, который работает.

Open source привлекает инвесторов и сообщество

Mistral стала наиболее финансируемым ИИ-стартапом (за исключением OpenAI) за два года. Почему? Потому что:

Open source = доверие
Доступность = экосистема
Экосистема = сетевой эффект

Яндекс открыл YaLM 100B в 2022, но модель не нашла применения. Почему? Потому что она была выстреленным патроном — большая, мощная, но не для адаптации под локальные задачи.

Если бы Яндекс после этого занялся выпуском серии компактных, специализированных моделей (7B для русскоязычных задач, 13B для кодирования, специальные для финтеха и e-commerce), с быстрыми релизами и удобными для fine-tuning — рынок был бы другой.

Часть девятая: что нужно делать сейчас?

1. Перестать гнаться за бенчмарками, гнаться за использованием

YandexGPT 5.1 Pro заявляет сопоставимость с GPT-4o. Может быть, это правда для MMLU. Но для 80% случаев пользователей нужна не сопоставимость, а решение их задачи.

Вместо этого: сделайте 5-7 специализированных моделей.

Русскоязычная модель 7B для общего использования (как Qwen2.5-32B, но дообученная на русском)
Финтех-специализированная (обучена на паттернах российского финансового рынка)
Юридическая (контракты, судебная практика, требования регуляторов)
Для e-commerce (каталоги, описания, SEO)
Для государства (документооборот, ГОСТы)
Для образования (объяснение сложных концепций, решение задач)

Каждая даёт 90%+ качества в своей нише при 10% стоимости против универсальной модели.

2. Быстрые релизы — это не плохо, это необходимо

Вместо «релиз раз в полгода, потом никто не видит улучшений» → «релиз раз в 1–2 месяца с оптимизацией на основе собранной обратной связи от сообщества».

Это даст возможность практически в реальном времени адаптироваться и улучшать новые модели. Академические работы и мировые практики подтверждают - дальнейшее дообучение модели выгоднее и эффективнее, чем начинать каждый раз с нуля.

Полностью новые релизы нужны для серьезных архитектурных изменений.

3. Open source, но правильный

Выпустите базовую компактную модель (7B, дообученная на русском) под MIT лицензией. Это привлечёт сообщество разработчиков, создаст экосистему расширений.

Монетизируйте через:

Платный API для масштабированных задач (как Mistral)
Сервис дообучения под данные клиента
Специализированные версии (финтех, медицина, юриспруденция)
Premium поддержка для корпоративных клиентов

4. Инвестируйте в инструменты, а не в саму модель

Самая недооценённая вещь в AI-стеке — это не модель, а всё вокруг:

RAG (Retrieval-Augmented Generation) с индексацией корпоративных данных
Fine-tuning инструменты, которые не требуют 24 GPU
Мониторинг качества и дрифта (когда модель начинает отвечать хуже)
Кэширование и оптимизация latency (как OpenAI делает с Redis)

Компании готовы платить за инструменты, потому что инструменты решают проблемы.

Заключение: от критики к надежде

Российский ИИ не потерян. Он просто играет не на том поле.

Mistral показала, что можно быстро, эффективно и с меньшими ресурсами создавать модели, которые работают в реальных задачах. DeepSeek показала, что санкции — это не конец, а начало по-настоящему инновационного подхода. Microsoft, Alibaba, и множество других независимых компаний доказали, что специализированные 14-32B модели уже выигрывают у универсальных 671B монстров.

Яндекс и Сбер имеют два преимущества, которых нет у Mistral, DeepSeek или Microsoft:

Локальный рынок, готовый к русскоязычным решениям
Инфраструктура, которая уже существует

Им нужно:

Признать, что универсальность - это не стратегия, специализация - вот стратегия
Выпустить компактные open-source модели с быстрыми релизами
Сфокусироваться на инструментах и экосистеме, а не на размере
Принять, что хорошо работающая 7–32B модель ценнее, чем дорогая и потенциально невостребованная 700B

Тогда с очередным релизом мы увидим не критику «а где рост?», а спрос «а где можно это использовать?».

И это будет не пушка по воробьям. Это будет набор правильных инструментов, каждый для своей задачи.

Российский ИИ: критика, которая нужна сейчас, и путь, который работает