Comments 1
Авторы верно сместили фокус с генерации текста на управление состоянием системы через инструменты. Ключевой прорыв — создание самосогласованных симуляций с верифицируемыми изменениями БД, что даёт чистые данные для обучения именно принятию решений, а не болтологии. Проблема long-horizon планирования остаётся, но задел для RL-дообучения в этой же среде — многообещающий путь к настоящим автономным агентам.
Sign up to leave a comment.
Как научить ИИ-агентов работать с инструментами без ручной разметки