Обновить

А если агенту не платить? Альтернативная механика обучения с подкреплением

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.1K
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Комментарии 6

Ценное замечание. Посмотрю обязательно

Посмотрел. Это довольно старый метод, но от него пошло много других, который и сейчас активно используются. Меня больше всего заинтересовал TD-MPC2.

В статье видны нейроследы.

Формально и без эмоций:
Представленная работа демонстрирует серьезные методологические пробелы и непонимание теоретических основ RL. Выбранный подход основан на поверхностном копировании элементов архитектуры и терминологии RL без понимания их сути и внутренней логики. Дальнейшее развитие в этом направлении не имеет перспектив — необходим фундаментальный пересмотр подхода

Это и не RL в привычном понимании, а попытка взглянуть на задачу RL с немного другого ракурса. С небольшим экспериментом. А что касается терминологии, там используются разве что "агент", "действие", "окружение" и "траектория", но это настолько общие термины, что их можно использовать и в этом контексте.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации