Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Отмечу, что обучение проводилось только с помощью SFT: авторы собрали датасет сценариев с хорошими действиями и надлежащим свертыванием памяти с помощью отбраковки шагов с ошибками среды и неправильно построенных шагов, а затем обучили Qwen3-30B-A3B отвечать на запрос с обоснованием
Методология какая-то сомнительная
Динамическая память: как ИИ-агенты научились сворачивать контекст и думать на 100 шагов вперёд