«Сбер» открыл веса GigaChat Ultra, Kandinsky 5.0 и других моделей / Хабр

На конференции AI Journey представители «Сбера» объявили, что компания открывает веса своих моделей для генерации текста, видео, изображений и аудио. Код и веса моделей доступны по лицензии MIT, в том числе для коммерческих проектов.

GigaChat Ultra и GigaChat Lightning

GigaChat — семейство больших языковых моделей на базе архитектуры MoE (Mixture of Experts). Компания отмечает, что разрабатывала их с нуля для русскоязычных задач.

Самая мощная и большая модель в семействе — GigaChat Ultra Preview. Её обучение ещё продолжается, но уже сейчас по общим метрикам качества на русском языке она превосходит DeepSeek V3.1 в бенчмарке MERA.

GigaChat Lightning — самая компактная языковая модель в семействе, оптимизированная для локального запуска. По качеству ответов на русском языке она превосходит Qwen3-4B. При этом модель работает быстрее, чем Qwen3-1.7B.

Модель	Параметры	Тип	Ссылка
GigaChat3-702B-A36B-preview	702 млрд общих и 36 млрд активных	fp8	Hugging Face
GigaChat3-702B-A36B-preview-bf16	702 млрд общих и 36 млрд активных	bf16	Hugging Face
GigaChat3-10B-A1.8B	10 млрд общих и 1,8 млрд активных	fp8	Hugging Face
GigaChat3-10B-A1.8B-bf16	10 млрд общих и 1,8 млрд активных	bf16	Hugging Face
GigaChat3-10B-A1.8B-base	10 млрд общих и 1,8 млрд активных	pretrain	Hugging Face

Kandinsky 5.0

Kandinsky 5.0 — линейка моделей, которая включает в себя Image Lite для генерации изображений по тексту и их редактирования, а также две версии модели для генерации видео: быструю Video Lite и мощную Video Pro. Они могут создавать видео как по текстовому описанию, так и по фотографии.

Kandinsky 5.0 Image Lite создаёт изображения в HD-разрешении, хорошо знает российский культурный код и может генерировать надписи на кириллице и латинице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps. Kandinsky 5.0 Video Lite оптимизировали для работы на домашних видеокартах от 12 Гб памяти.

Модель	Ссылка
Kandinsky 5.0 Video Pro	GitHub
Kandinsky 5.0 Video Lite	GitHub
Kandinsky 5.0 Image Lite	GitHub
Kandinsky 5.0 Image Editing	GitHub

GigaAM-3

GigaAM-v3 — открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. На базе моделей можно проектировать голосовых ассистентов, анализаторы звонков, мультимедийных агентов, агрегаторов голосовых сообщений и другие проекты.

Модель доступна на Hugging Face: https://huggingface.co/ai-sage/GigaAM-v3

K-VAE 1.0

Генеративные модели создают контент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это нужно для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Чтобы увидеть контент, надо использовать кодировщик.

K-VAE 1.0 — обученные с нуля автокодировщики для изображений и видео, которые преобразуют медиа в скрытые представления и обратно. Они теперь так же доступны на GitHub: https://github.com/kandinskylab/kvae-1.