Пост @ledevik — Блог компании Криптонит

4 мар 2025 в 11:005K

Блог компании КриптонитИскусственный интеллект

Всем привет! Я работаю в ИТ-компании «Криптонит» и как-то раз услышала от наших коллег из лаборатории искусственного интеллекта про ~~Moët~~ MoE. Расспросила у них про эту архитектуру — делюсь!

MoE (Mixture of Experts, набор экспертов) — архитектура нейросети, в которой используется набор из нескольких специализированных подсетей меньшего размера. Каждая из них играет роль эксперта и специализируется на определённом типе задач.

Распределяет задачи между экспертами отдельный механизм, который в разных источниках называется шлюзом (gate) или маршрутизатором (router). Анализируя пользовательский запрос и формат входных данных, он решает, кому из экспертов поручить выполнение задания.

Есть два подхода к маршрутизации: жёсткий и мягкий. В первом случае маршрутизатор активирует только наиболее подходящего эксперта, что экономит вычислительные ресурсы.

Второй вариант подразумевает передачу задания всем подходящим экспертам. Каждому из них назначаются веса, с учётом которых составляется обобщённый ответ. Поэтому мягкая маршрутизация требует больше ресурсов, но даёт более точные ответы.

На базе MoE построены известные модели с миллиардами параметров, такие как OpenAI GPT-4, Mixtral 8x7B, GLaM, NLLB-200 и другие.

В последние годы популярность MoE растёт, а её применение выходит за рамки больших языковых моделей. За счёт такого подхода модели могут лучше работать при малом обучающем наборе данных. Также расширяется спектр решаемых моделью задач и снижается риск генерации фактически неверного ответа.

Помимо работы с текстом, ИИ-сервисы на базе MoE находят применение в генерации изображений, видеороликов и музыки, а также в рекомендательных системах. Лаборатория искусственного интеллекта компании «Криптонит» тоже применяет MoE в решении задач обработки текста и аудио.

Публикации

Информация