Обновить
0
0

Пользователь

Отправить сообщение
Браво!
RL тоже начал с шахмат. Табличное Q обучение научил ставить мат двумя ладьями. Потом кончилась память )))
Спасибо за ответ.
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?
А правильно я понимаю, что награда это скаляр и тем самым в функции потерь все логорифмы вероятностей умножаются на одно и то же число?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность