Комментарии 3
Спасибо за честный замер. У нас на проде похожая картина. Для большинства задач один сильный агент с нормальным контекстом бьёт команду и по точности, и по деньгам. Цена в разы это ровно наш опыт, каждый лишний вызов умножает токены.
А где мультиагент окупается, по нашим наблюдениям дело не в топологии. Решает другое. Есть ли у шага объективная проверка. Критик как вторая модель со своим мнением на субъективной задаче просто усредняет шум и проигрывает. Другое дело, когда у подзадачи есть внешний верификатор. Тесты, схема, ответ из поиска, компиляция. Тогда критик опирается на факт, и связка генератор плюс проверка выигрывает. То есть тянут шаги с заземлением, а не сами команды.
И авто-выбор паттерна поэтому тяжёлый. Роутеру надо угадать сложность задачи, а это почти сама задача. Не пробовали роутить тупо по наличию внешнего верификатора у шага, вместо предсказанной сложности?
А где время решения? Разве оно никогда не значимый фактор? И нет ничего про декомпозицию
277 тысяч токенов на одну задачу у оркестратора с ministral - это прям памятник тому, как агент не умеет вовремя сказать стоп. Похоже на совещание, где никто не решается закрыть встречу.

Окупается ли мультиагентность и можно ли автоматически выбрать паттерн под задачу?