gpnds 21 сен 2022 в 00:59

Кто же такой этот многорукий бандит?

26 мин

15K

Python*Алгоритмы*Машинное обучение*Научно-популярноеИскусственный интеллект

Из песочницы

+20

Комментарии 4

kapas19 21 сен 2022 в 05:46

Спасибо за статью. Не могли бы вы дать свою оценку книги Ф. Уиндера "Обучение с подкреплением для реальных задач. Инженерный подход"?

gpnds 21 сен 2022 в 22:40

Спасибо за комментарий. С книгой, пока что, не знаком (насколько я понял она официально на русском языке выйдет только в следующем году, поэтому в поле зрения не успела попасть), но, если верить аннотации, должно быть интересно, потому что заявлена практическая ориентированность в задачах RL. Добавил книгу в планы по прочтению, спасибо за наводку! До этого встречался в основном с теоретической литературой. От себя могу посоветовать: Юси (Хэйден) Лю - "Обучение с подкреплением на PyTorch: сборник рецептов" в качестве примеров реализации на Python и Саттон, Барто - "Обучение с подкреплением" в качестве мощной теоретической базы

nikolay_karelin 27 ноя 2022 в 18:29

Спасибо за материал. С удовольствием прочитал бы еще обзоры из мира RL!

bladeser 15 дек 2023 в 08:48

Мне кажется или у вас проблема в коде?

Здесь здесь должен быть средний регард по ручкам self.Q/self.n, а у вас учитывается только суммарный регард.

class UBCStrategy(Strategy):
    
    def make_action(self):
        c = np.sqrt(self.epsilon * np.log(np.sum(self.n)+1)/(np.array(self.n)+1))
        upper_bounds = self.Q + c
        return np.argmax(upper_bounds)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Кто же такой этот многорукий бандит?

Комментарии 4

Публикации

Истории