Pull to refresh
8K+
4
37
Rating
2
Subscribers
Send message

GFusion: как мы обучали диффузионную LLM в GigaChat

Level of difficultyHard
Reading time10 min
Reach and readers13K

Салют, Хабр!

Хочу поделиться проектом, которым я занимался во время стажировки в команде GigaChat Pretrain. В течение нескольких месяцев мы исследовали диффузионные языковые модели (dLLM) — относительно новое направление в LLM, в котором многие идеи только начинают проверяться на практике.

Главной целью было не тратить огромное количество ресурсов на обучение с нуля, а взять базовую авторегрессионную модель GigaChat3-10B-A1.8B-base и перевести её в диффузионный режим. Так появились наши экспериментальные GFusion-10B-A1.8B-base и GFusion-10B-A1.8B!

Читать далее

Information

Rating
244-th
Registered
Activity