Всем привет! Я работаю в ИТ-компании «Криптонит» и как-то раз услышала от наших коллег из лаборатории искусственного интеллекта про Moët MoE. Расспросила у них про эту архитектуру — делюсь!
MoE (Mixture of Experts, набор экспертов) — архитектура нейросети, в которой используется набор из нескольких специализированных подсетей меньшего размера. Каждая из них играет роль эксперта и специализируется на определённом типе задач.
Распределяет задачи между экспертами отдельный механизм, который в разных источниках называется шлюзом (gate) или маршрутизатором (router). Анализируя пользовательский запрос и формат входных данных, он решает, кому из экспертов поручить выполнение задания.
Есть два подхода к маршрутизации: жёсткий и мягкий. В первом случае маршрутизатор активирует только наиболее подходящего эксперта, что экономит вычислительные ресурсы.
Второй вариант подразумевает передачу задания всем подходящим экспертам. Каждому из них назначаются веса, с учётом которых составляется обобщённый ответ. Поэтому мягкая маршрутизация требует больше ресурсов, но даёт более точные ответы.
На базе MoE построены известные модели с миллиардами параметров, такие как OpenAI GPT-4, Mixtral 8x7B, GLaM, NLLB-200 и другие.
В последние годы популярность MoE растёт, а её применение выходит за рамки больших языковых моделей. За счёт такого подхода модели могут лучше работать при малом обучающем наборе данных. Также расширяется спектр решаемых моделью задач и снижается риск генерации фактически неверного ответа.
Помимо работы с текстом, ИИ-сервисы на базе MoE находят применение в генерации изображений, видеороликов и музыки, а также в рекомендательных системах. Лаборатория искусственного интеллекта компании «Криптонит» тоже применяет MoE в решении задач обработки текста и аудио.
