Обновить

Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита

Время на прочтение12 мин
Охват и читатели7K
Всего голосов 18: ↑18 и ↓0+21
Комментарии2

Комментарии 2

Ситуация изменилась в 2024 году. Появились первые открытые MoE-модели, которые работали не хуже закрытых аналогов. Стоимость обучения упала на порядок.

Этот момент я бы оспорил, пожалуй. Возможность, стоимость обучения упала за счет того, что эти модели обучались поверх имеющихся моделей (AI distillation). Поэтому, если считать грубо стоимость самого процесса обучения MoE, то вроде и меньше. А вот если включить стоимость обучения тех исходных моделей, то нет, не меньше.

Дистилляцию используют и для плотных моделей, но это не отменяет экономии, которую дает архитектура MoE. Даже если убрать дистилляцию и учить модели с нуля, разница в вычислительной стоимости обучения никуда не денется. При одинаковом объеме обучающих данных MoE потратит меньше FLOPs на токен, чем плотная модель того же размера.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
magnus-tech.ru
Дата регистрации
Дата основания
2017
Численность
201–500 человек
Местоположение
Россия