Обновить

Комментарии 1

Отмечу, что обучение проводилось только с помощью SFT: авторы собрали датасет сценариев с хорошими действиями и надлежащим свертыванием памяти с помощью отбраковки шагов с ошибками среды и неправильно построенных шагов, а затем обучили Qwen3-30B-A3B отвечать на запрос с обоснованием

Методология какая-то сомнительная

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации