Комментарии 6
В Dyna‑Q метод учитывает изменения в среде, а не только скалярную величину награды.
В статье видны нейроследы.
Формально и без эмоций:
Представленная работа демонстрирует серьезные методологические пробелы и непонимание теоретических основ RL. Выбранный подход основан на поверхностном копировании элементов архитектуры и терминологии RL без понимания их сути и внутренней логики. Дальнейшее развитие в этом направлении не имеет перспектив — необходим фундаментальный пересмотр подхода
Это и не RL в привычном понимании, а попытка взглянуть на задачу RL с немного другого ракурса. С небольшим экспериментом. А что касается терминологии, там используются разве что "агент", "действие", "окружение" и "траектория", но это настолько общие термины, что их можно использовать и в этом контексте.

А если агенту не платить? Альтернативная механика обучения с подкреплением