azTotMD2 мар в 22:47

А если агенту не платить? Альтернативная механика обучения с подкреплением

Средний

12 мин

7.6K

Data Mining * Искусственный интеллектМашинное обучение * Разработка игр *

Кейс

Комментарии 6

MarkGermes 3 мар в 00:08

В Dyna‑Q метод учитывает изменения в среде, а не только скалярную величину награды.

azTotMD 3 мар в 07:43

Ценное замечание. Посмотрю обязательно

azTotMD 3 мар в 18:55

Посмотрел. Это довольно старый метод, но от него пошло много других, который и сейчас активно используются. Меня больше всего заинтересовал TD-MPC2.

AleGen 3 мар в 04:20

В статье видны нейроследы.

Sensimilla 3 мар в 08:01

Формально и без эмоций:
Представленная работа демонстрирует серьезные методологические пробелы и непонимание теоретических основ RL. Выбранный подход основан на поверхностном копировании элементов архитектуры и терминологии RL без понимания их сути и внутренней логики. Дальнейшее развитие в этом направлении не имеет перспектив — необходим фундаментальный пересмотр подхода

azTotMD 3 мар в 18:58

Это и не RL в привычном понимании, а попытка взглянуть на задачу RL с немного другого ракурса. С небольшим экспериментом. А что касается терминологии, там используются разве что "агент", "действие", "окружение" и "траектория", но это настолько общие термины, что их можно использовать и в этом контексте.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий