Статьи / Профиль perkyfever / Хабр

perkyfever вчера в 10:08

GFusion: как мы обучали диффузионную LLM в GigaChat

Сложный

10 мин

12K

Блог компании СберМашинное обучение * Искусственный интеллект

Салют, Хабр!

Хочу поделиться проектом, которым я занимался во время стажировки в команде GigaChat Pretrain. В течение нескольких месяцев мы исследовали диффузионные языковые модели (dLLM) — относительно новое направление в LLM, в котором многие идеи только начинают проверяться на практике.

Главной целью было не тратить огромное количество ресурсов на обучение с нуля, а взять базовую авторегрессионную модель GigaChat3-10B-A1.8B-base и перевести её в диффузионный режим. Так появились наши экспериментальные GFusion-10B-A1.8B-base и GFusion-10B-A1.8B!

+37