“Сбер” выпустил крупное обновление семейства больших языковых моделей GigaChat, выложив новые версии GigaChat-3.1-Ultra (702B) и GigaChat-3.1-Lightning (10B) в открытый доступ. Модели доступны на Hugging Face и GitVerse под лицензией MIT – разработчики могут разворачивать их, адаптировать под корпоративные данные и использовать как основу для чат-ботов, ассистентов или отраслевых ИИ-сервисов.

Обновление стало самым масштабным с момента ноябрьского preview. В новых версиях полностью переработан этап постобучения, архитектура переведена с dense на MoE (mixture of experts), а ключевым качественным улучшением стала устойчивость генерации – модели значительно реже уходят в циклы, особенно в длинных диалогах.

Релиз планировался ещё на январь, но на этапе валидации выяснилось, что все три модели склонны к повторениям – от простых повторов одного слова до сложных циклов вроде:

“…Тропики. Обжигающее солнце. Пальмы. Пальмы. Пальмы. И жара, жара, жара. И океан, океан, океан…”

Чтобы измерить проблему, инженеры придумали собственную метрику на основе BPE-подобного сжатия хвоста генерации. Идея проста: если конец ответа состоит из повторяющихся фрагментов, он хорошо сжимается; если разнообразен – почти не сжимается. Метрика получила название BPE_CYCLES и позволила поднять порог обнаружения циклов с 75% до 90%.

Вместо посттренировочной квантизации (PTQ), которая сохраняла качество на бенчмарках, но приводила к проседанию на аренах, этап DPO полностью переведён в нативный FP8. Такой подход не только восстановил, но местами и превзошёл качество BF16, сократив потребление памяти вдвое. В связке с MTP (multi-token prediction) это даёт прирост скорости инференса до 38% по сравнению с моделью в BF16 – на H100 с concurrency=32 удалось достичь 3958 output tps.

Обучение SFT тоже ускорили: за счёт умного sequence packing, dynamic sequence parallel и отказа от длинных (1000 токенов) системных промптов в пользу коротких (300 токенов) удалось ускорить пайплайн в три раза. На контексте 256K токенов прирост может достигать десятикратного.

Позаботились о персонализации – модель способна запоминать факты о пользователе и использовать их в диалоге (долгосрочная память).

По внутренним замерам, GigaChat-3.1-Ultra обходит нерассуждающую версию Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и общих рассуждениях. На аренах с судьёй GPT-4.1 модель уверенно побеждает DeepSeek-V3-0324 и почти догоняет Qwen3-235B-A22B-Non-Thinking.

GigaChat-3.1-Lightning, с 1,8 млрд активных параметров, играет на уровне GPT-4o на аренах, оставаясь одной из лучших в своём размере, а по скорости и эффективности опережает многих конкурентов. Благодаря FP8 и MTP модель стала в два раза меньше по памяти и на 38% быстрее на инференсе.

Команда обещает продолжать развивать открытую экосистему моделей и приглашает всех, кому интересно обучение LLM, присоединяться к работе.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!