На конференции AI Journey представители «Сбера» объявили, что компания открывает веса своих моделей для генерации текста, видео, изображений и аудио. Код и веса моделей доступны по лицензии MIT, в том числе для коммерческих проектов.

GigaChat Ultra и GigaChat Lightning
GigaChat — семейство больших языковых моделей на базе архитектуры MoE (Mixture of Experts). Компания отмечает, что разрабатывала их с нуля для русскоязычных задач.
Самая мощная и большая модель в семействе — GigaChat Ultra Preview. Её обучение ещё продолжается, но уже сейчас по общим метрикам качества на русском языке она превосходит DeepSeek V3.1 в бенчмарке MERA.
GigaChat Lightning — самая компактная языковая модель в семействе, оптимизированная для локального запуска. По качеству ответов на русском языке она превосходит Qwen3-4B. При этом модель работает быстрее, чем Qwen3-1.7B.
Модель | Параметры | Тип | Ссылка |
GigaChat3-702B-A36B-preview | 702 млрд общих и 36 млрд активных | fp8 | |
GigaChat3-702B-A36B-preview-bf16 | 702 млрд общих и 36 млрд активных | bf16 | |
GigaChat3-10B-A1.8B | 10 млрд общих и 1,8 млрд активных | fp8 | |
GigaChat3-10B-A1.8B-bf16 | 10 млрд общих и 1,8 млрд активных | bf16 | |
GigaChat3-10B-A1.8B-base | 10 млрд общих и 1,8 млрд активных | pretrain |
Kandinsky 5.0
Kandinsky 5.0 — линейка моделей, которая включает в себя Image Lite для генерации изображений по тексту и их редактирования, а также две версии модели для генерации видео: быструю Video Lite и мощную Video Pro. Они могут создавать видео как по текстовому описанию, так и по фотографии.
Kandinsky 5.0 Image Lite создаёт изображения в HD-разрешении, хорошо знает российский культурный код и может генерировать надписи на кириллице и латинице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps. Kandinsky 5.0 Video Lite оптимизировали для работы на домашних видеокартах от 12 Гб памяти.
GigaAM-3
GigaAM-v3 — открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. На базе моделей можно проектировать голосовых ассистентов, анализаторы звонков, мультимедийных агентов, агрегаторов голосовых сообщений и другие проекты.
Модель доступна на Hugging Face: https://huggingface.co/ai-sage/GigaAM-v3
K-VAE 1.0
Генеративные модели создают контент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это нужно для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Чтобы увидеть контент, надо использовать кодировщик.
K-VAE 1.0 — обученные с нуля автокодировщики для изображений и видео, которые преобразуют медиа в скрытые представления и обратно. Они теперь так же доступны на GitHub: https://github.com/kandinskylab/kvae-1.
