Спасибо за ответ.
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?
RL тоже начал с шахмат. Табличное Q обучение научил ставить мат двумя ладьями. Потом кончилась память )))
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?