Окупается ли мультиагентность и можно ли автоматически выбрать паттерн под задачу? / Комментарии / Хабр

Спасибо за честный замер. У нас на проде похожая картина. Для большинства задач один сильный агент с нормальным контекстом бьёт команду и по точности, и по деньгам. Цена в разы это ровно наш опыт, каждый лишний вызов умножает токены.

А где мультиагент окупается, по нашим наблюдениям дело не в топологии. Решает другое. Есть ли у шага объективная проверка. Критик как вторая модель со своим мнением на субъективной задаче просто усредняет шум и проигрывает. Другое дело, когда у подзадачи есть внешний верификатор. Тесты, схема, ответ из поиска, компиляция. Тогда критик опирается на факт, и связка генератор плюс проверка выигрывает. То есть тянут шаги с заземлением, а не сами команды.

И авто-выбор паттерна поэтому тяжёлый. Роутеру надо угадать сложность задачи, а это почти сама задача. Не пробовали роутить тупо по наличию внешнего верификатора у шага, вместо предсказанной сложности?

Комментарии 3

tester37 15 июн в 05:02

А где время решения? Разве оно никогда не значимый фактор? И нет ничего про декомпозицию

edisson_89 20 июн в 05:40

277 тысяч токенов на одну задачу у оркестратора с ministral - это прям памятник тому, как агент не умеет вовремя сказать стоп. Похоже на совещание, где никто не решается закрыть встречу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий