Comments 1
Отмечу, что обучение проводилось только с помощью SFT: авторы собрали датасет сценариев с хорошими действиями и надлежащим свертыванием памяти с помощью отбраковки шагов с ошибками среды и неправильно построенных шагов, а затем обучили Qwen3-30B-A3B отвечать на запрос с обоснованием
Методология какая-то сомнительная
Sign up to leave a comment.
Динамическая память: как ИИ-агенты научились сворачивать контекст и думать на 100 шагов вперёд