Обновить
19
116.3
Валентин Мамедов@vltnmmdv

Пользователь

Отправить сообщение

GigaChat 3 Ultra Preview — тяжёлый open source

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели28K

Салют, Хабр!
В этот раз мы хотим поделиться с вами чем-то большим... буквально большим — 712
миллиардами параметров! И всё это под открытой лицензией MIT!

Мы подготовили двух представителей моделей нового поколения с открытыми весами: компактная модель для локального запуска на своем ноутбуке и наш флагман, о котором сегодня и поговорим.

Скачать 712 миллиардов весов без СМС и...

Сбер выкладывает GigaChat Lite в открытый доступ

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели19K

Салют, Хабр! В начале ноября мы делились с вами новостями о нашем флагмане GigaChat MAX и пообещали рассказать подробнее о процессе создания наших Pretrain-моделей. Пришло время сдержать слово и даже пойти дальше! 

Предобучение больших языковых моделей — это одна из наиболее ресурсозатратных стадий, которая непосредственно влияет на весь дальнейший процесс обучения GigaChat. От успешности обучения Pretrain-модели напрямую зависит качество всех следующих этапов обучения, например, Alignment и Vision. Поэтому сегодня мы хотим поделиться весами младшей модели линейки GigaChat версий base и instruct. Модель называется GigaChat-20B-A3B, так как построена на перспективной МоЕ-архитектуре!

Но и это ещё не всё. Вместе с весами мы делимся с сообществом улучшенной реализацией DeepSeek МоЕ, а также кодом для механизма концентрации (а что это такое — читайте дальше ;)). Важно отметить, что хотя GigaChat-20B-A3B обучался на триллионах токенов преимущественно русского текста, он ещё способен на хорошем уровне понимать другие языки. Так что мы делимся мультиязычной моделью. О том, как запускать модель, какие версии доступны и как пользоваться контролируемой генерацией с помощью механизма концентрации, расскажем прямо сейчас!

Узнать что такое MoE

Информация

В рейтинге
54-й
Зарегистрирован
Активность

Специализация

ML разработчик
Старший
Python
Docker
CI/CD
Linux
Высоконагруженные системы