Комментарии 2
Ситуация изменилась в 2024 году. Появились первые открытые MoE-модели, которые работали не хуже закрытых аналогов. Стоимость обучения упала на порядок.
Этот момент я бы оспорил, пожалуй. Возможность, стоимость обучения упала за счет того, что эти модели обучались поверх имеющихся моделей (AI distillation). Поэтому, если считать грубо стоимость самого процесса обучения MoE, то вроде и меньше. А вот если включить стоимость обучения тех исходных моделей, то нет, не меньше.
Дистилляцию используют и для плотных моделей, но это не отменяет экономии, которую дает архитектура MoE. Даже если убрать дистилляцию и учить модели с нуля, разница в вычислительной стоимости обучения никуда не денется. При одинаковом объеме обучающих данных MoE потратит меньше FLOPs на токен, чем плотная модель того же размера.
Mixture-of-Experts: архитектура, которая спасает LLM от их собственного аппетита