Comments / Profile of Nick2Nick / Habr

@Nick2Nick

User

ProfileArticlesPostsNewsComments3

Как игры стали движущей силой двух школ исследований ИИ

@Nick2Nick Sep 4 2020 at 07:31

Браво!
RL тоже начал с шахмат. Табличное Q обучение научил ставить мат двумя ладьями. Потом кончилась память )))

Нейросеть — обучение без учителя. Метод Policy Gradient

@Nick2Nick Jun 23 2020 at 15:01

Спасибо за ответ.
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?

Нейросеть — обучение без учителя. Метод Policy Gradient

@Nick2Nick Jun 23 2020 at 12:47

А правильно я понимаю, что награда это скаляр и тем самым в функции потерь все логорифмы вероятностей умножаются на одно и то же число?