Как стать автором
Обновить

Комментарии 4

Спасибо за статью. Не могли бы вы дать свою оценку книги Ф. Уиндера "Обучение с подкреплением для реальных задач. Инженерный подход"?

Спасибо за комментарий. С книгой, пока что, не знаком (насколько я понял она официально на русском языке выйдет только в следующем году, поэтому в поле зрения не успела попасть), но, если верить аннотации, должно быть интересно, потому что заявлена практическая ориентированность в задачах RL. Добавил книгу в планы по прочтению, спасибо за наводку! До этого встречался в основном с теоретической литературой. От себя могу посоветовать: Юси (Хэйден) Лю - "Обучение с подкреплением на PyTorch: сборник рецептов" в качестве примеров реализации на Python и Саттон, Барто - "Обучение с подкреплением" в качестве мощной теоретической базы

Спасибо за материал. С удовольствием прочитал бы еще обзоры из мира RL!

Мне кажется или у вас проблема в коде?

Здесь здесь должен быть средний регард по ручкам self.Q/self.n, а у вас учитывается только суммарный регард.

class UBCStrategy(Strategy):
    
    def make_action(self):
        c = np.sqrt(self.epsilon * np.log(np.sum(self.n)+1)/(np.array(self.n)+1))
        upper_bounds = self.Q + c
        return np.argmax(upper_bounds)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории