Search
Write a publication
Pull to refresh
0
0
Send message
Браво!
RL тоже начал с шахмат. Табличное Q обучение научил ставить мат двумя ладьями. Потом кончилась память )))
Спасибо за ответ.
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?
А правильно я понимаю, что награда это скаляр и тем самым в функции потерь все логорифмы вероятностей умножаются на одно и то же число?

Information

Rating
Does not participate
Registered
Activity