Pull to refresh

Comments 6

В Dyna‑Q метод учитывает изменения в среде, а не только скалярную величину награды.

Ценное замечание. Посмотрю обязательно

Посмотрел. Это довольно старый метод, но от него пошло много других, который и сейчас активно используются. Меня больше всего заинтересовал TD-MPC2.

В статье видны нейроследы.

Формально и без эмоций:
Представленная работа демонстрирует серьезные методологические пробелы и непонимание теоретических основ RL. Выбранный подход основан на поверхностном копировании элементов архитектуры и терминологии RL без понимания их сути и внутренней логики. Дальнейшее развитие в этом направлении не имеет перспектив — необходим фундаментальный пересмотр подхода

Это и не RL в привычном понимании, а попытка взглянуть на задачу RL с немного другого ракурса. С небольшим экспериментом. А что касается терминологии, там используются разве что "агент", "действие", "окружение" и "траектория", но это настолько общие термины, что их можно использовать и в этом контексте.

Sign up to leave a comment.

Articles