Комментарии 2
Мне казалось, задача многоруких бандитов — это такое «обучение с подкреплением для бедных», а значит, рассматривается на несколько шагов в игре. Но, похоже, перечисленные Вами алгоритмы — это готовые решения задач нахождения той или иной оптимальной политики. А задача — одношаговая: выдать или нет единицу контента. Или я что-то упустил?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Особенности практического использования различных алгоритмов Многорукого бандита