Обновить
8K+
4

Пользователь

37
Рейтинг
1
Подписчики
Отправить сообщение

GFusion: как мы обучали диффузионную LLM в GigaChat

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели12K

Салют, Хабр!

Хочу поделиться проектом, которым я занимался во время стажировки в команде GigaChat Pretrain. В течение нескольких месяцев мы исследовали диффузионные языковые модели (dLLM) — относительно новое направление в LLM, в котором многие идеи только начинают проверяться на практике.

Главной целью было не тратить огромное количество ресурсов на обучение с нуля, а взять базовую авторегрессионную модель GigaChat3-10B-A1.8B-base и перевести её в диффузионный режим. Так появились наши экспериментальные GFusion-10B-A1.8B-base и GFusion-10B-A1.8B!

Читать далее

Информация

В рейтинге
241-й
Зарегистрирован
Активность