Matrix: распределенный мультиагентный фреймворк для генерации синтетических данных / Хабр

Сегодня генерацию синтетических данных делают с помощью нескольких агентов для генерации текста, оценки, использования инструментов и выбора лучшего кандидата. Генерация данных высокого качества требует агентов, которые могут взаимодействовать друг с другом и с окружающей средой, создавая длинные, разветвляющиеся сценарии с несколькими диалогами, которые возвращают только лучший вариант. Все это усложняет задачу масштабирования агента до тысяч параллельных сценариев.

В существующих процессах централизованный оркестратор обычно отвечает за историю диалога и назначение заданий. На практике этот узел быстро становится узким местом, так как испытывает высокую нагрузку на сеть и ЦП из-за большого количества параллельных задач, что приводит к простою GPU и низкой пропускной способности.

Matrix пытается решить эту проблему, удаляя оркестратор из контура планирования и сохраняя состояние задачи непосредственно в сообщениях. Агенты считывают эти сообщения, выполняют свои задачи и пересылают сообщения другим агентам. Инструменты и LLM вынесены во внешние сервисы, что делает агентов более легкими и менее ресурсоемкими.

Матричная архитектура агентной генерации данных

Что придумали нового

Одноранговая оркестрация. Сообщение несёт и данные, и управление. Агенты stateless: не держат внутренней памяти и могут масштабироваться как обычные процессы.
Асинхронность на уровне строк. Вместо батчей — планирование по отдельным элементам. Так исчезают “пузырьки”, когда один длинный кейс задерживает весь пакет, и растёт утилизация GPU.
Разгрузка сообщений. Большой контент истории кладут в Ray Object Store, а по сети бегают только ID. Это экономит пропускную способность и готовит платформу к мультимодальности.
Вынесение тяжёлых операций. LLM-инференс и контейнеры работают как сервисы (Ray Serve, vLLM и SGLang) с gRPC и локальным кэшем адресов реплик — меньше накладных расходов и меньше трафика на головную ноду.
Гибкая сборка. Роли агентов, схемы ввода-вывода и ресурсы задаются через Hydra; мониторинг — в Grafana.

Чтобы почувствовать контраст, полезно посмотреть на схемы: сверху классика с центральным узлом, снизу P2P-подход Matrix.

Традиционная централизованная оркестрация

Как это работает на практике

1. Совместное рассуждение. В этом тесте используют мультиагентный пайплайн, в котором два агента не соглашаются друг с другом и приходят к согласию, генерируя сложные сценарии для обучения мультиагентного оценщика задач. Сравнивают с Coral и показывают, что Matrix сохраняет качество согласия, устраняет узкое место планирования и увеличивает масштабируемость. Используя 31 видеокарту A100, он выдерживает 12 400 одновременных задач, обеспечивая в целом 129 800 токенов в секунду против 18 900 у Coral, с максимальным приростом в 6,8 раза, сохраняя при этом близкий уровень согласованной корректности.

Масштабируемость P2P-агентов по сравнению с базовым эталоном Coral.

2. Извлечение вопросов и ответов. Этот тест построен на бенчмарке NaturalReasoning, который извлекает сложные вопросы из 25 миллионов веб-страниц. После фильтрации он собрал 1,19 миллиона примеров. Он включает три агента: классификатор на LLaMA-3.1-3B для быстрой проверки пригодности документа, а также генератор и оценщик на LLaMA-3.1-70B для генерации вопросов и проверки полезности.

3. Поддержка коммуникационных сценариев (Tau2-Bench). Здесь агенты ведут диалог с пользователем, зовут инструменты через HTTP и контейнеры и получают честную оценку. Базовая реализация упиралась примерно в 500 потоков на одной машине, Matrix поднимает планку до 1500. На 13 видеокартах H100 получился прирост ×15,4 по токенам в секунду при том же уровне награды. Дополнительно разгрузка сообщений снизила сетевой пик примерно на 20%.

Распределение размеров диалогов в Tau2-Bench.

Почему это работает

Удаление централизованной точки планирования повышает масштабируемость, устраняя узкое место. Разделение внешнего инференса и использование gRPC снижают сетевые накладные расходы и задержки. Планирование на уровне строк увеличивает утилизацию и обеспечивает более стабильную выработку токенов.

Кому это может пригодится

Командам, занимающиеся генерацией синтетических данных, сценариями использования инструментов, диалогов и других случаев, требующих масштабирования агентных сценариев. Исследователи обучения с подкреплением и активного обучения также нуждаются в масштабируемых генеративных пайплайнах. Также фреймворк пригодится в продуктовых задачах с высоким использованием инструментов и контейнеров, такие как поддержка и аналитика.

На что обратить внимание

Matrix ориентирован на кластерное развертывание с Ray, SLURM, Ray Serve. Его преимущества проявляются в сценариях с десятками тысяч параллельных задач, где традиционные решения достигают пределов масштабируемости. Код хорошо организован, но требует понимания настройки внешних сервисов инференса. Архитектура Matrix выглядит достаточно надежной для расширения поддержки мультимодальных агентов. Авторы явно оставили запас прочности в архитектуре.

Итог

Matrix делает мультиагентные сценарии ближе к се��евому протоколу, чем к планировщику заданий, обеспечивая прирост в 2–15 раз без потери качества в реальных пайплайнах, начиная от мультиагентного согласования и заканчивая совместным использованием инструментов. Это шаг к тому, что скоро генерация данных станет распределённой по своей природе, а сами агенты — сетевыми организмами, способными эволюционировать без центрального мозга.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.