Обновить
1
0
Илья Щукин@elluran

Пользователь

Отправить сообщение

Эффективные Large Language Models: от линейного attention к гибридным архитектурам, наши результаты и выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели8.9K

Квадратичная сложность и линейно растущий KV cache в классическом механизме внимания, используемом в современных LLM, — серьёзная преграда для обработки экстремально длинных контекстов, особенно в условиях ограниченной видеопамяти на GPU. В этой статье мы рассмотрим различные варианты Linear Attention (линейного внимания) и техники дистилляции LLM в субквадратичные варианты механизма внимания. Мы также расскажем о наших экспериментах с GigaChat и поделимся примером получившейся гибридной модели с линейным вниманием, сделанной на основе Llama-8B.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

ML разработчик
Средний