Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

Подход интересный, но скажем так "наивный", то есть ну скажем если динамически выбирать LLM для разных типов размышлений(main reasoning model), то еще можно улучшить результат. То есть как бы композиция как идея она на виду.
Ну или например варьировать архитектуру агента, который сжимает контекст - ведь тоже очевидно, что сжатие в разных отраслях нужно разное, это тоже я думаю даст прирост + 5%.
А так конечно да, у авторов была возможность RL на синтетике сделать.
Вообще сами в этой теме, тестили React, Rewoo, mixture-of-agents, делаем свою версию - эффективного по токенам GCR - generator-critic-reviewer
Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие