azTotMD Mar 2 at 22:47

А если агенту не платить? Альтернативная механика обучения с подкреплением

Medium

12 min

7.6K

Data Mining * Artificial IntelligenceMachine learning * Game development *

Case

Comments 6

MarkGermes Mar 3 at 00:08

В Dyna‑Q метод учитывает изменения в среде, а не только скалярную величину награды.

azTotMD Mar 3 at 07:43

Ценное замечание. Посмотрю обязательно

azTotMD Mar 3 at 18:55

Посмотрел. Это довольно старый метод, но от него пошло много других, который и сейчас активно используются. Меня больше всего заинтересовал TD-MPC2.

AleGen Mar 3 at 04:20

В статье видны нейроследы.

Sensimilla Mar 3 at 08:01

Формально и без эмоций:
Представленная работа демонстрирует серьезные методологические пробелы и непонимание теоретических основ RL. Выбранный подход основан на поверхностном копировании элементов архитектуры и терминологии RL без понимания их сути и внутренней логики. Дальнейшее развитие в этом направлении не имеет перспектив — необходим фундаментальный пересмотр подхода

azTotMD Mar 3 at 18:58

Это и не RL в привычном понимании, а попытка взглянуть на задачу RL с немного другого ракурса. С небольшим экспериментом. А что касается терминологии, там используются разве что "агент", "действие", "окружение" и "траектория", но это настолько общие термины, что их можно использовать и в этом контексте.