Комментарии / Профиль Nick2Nick / Хабр

@Nick2Nick

Пользователь

ПрофильСтатьиПостыНовостиКомментарии3

Как игры стали движущей силой двух школ исследований ИИ

Nick2Nick 4 сен 2020 в 07:31

Браво!
RL тоже начал с шахмат. Табличное Q обучение научил ставить мат двумя ладьями. Потом кончилась память )))

Нейросеть — обучение без учителя. Метод Policy Gradient

Nick2Nick 23 июн 2020 в 15:01

Спасибо за ответ.
То есть Loss это произведение rewards на логарифмы вероятности policy. Policy это нейронка.
Задам вопрос более конкретно:
Индекс J в функции Policy Function Loss это для суммирования по шагам в рамках оптимального действия на каждом шаге, или для суммирования всех действий внутри одного шага?

Нейросеть — обучение без учителя. Метод Policy Gradient

Nick2Nick 23 июн 2020 в 12:47

А правильно я понимаю, что награда это скаляр и тем самым в функции потерь все логорифмы вероятностей умножаются на одно и то же число?