Comments / Profile of Makoomaky / Habr

Александр Сухочев@Makoomaky

Ведущий программист-разработчик ВКонтакте

ProfileArticles1PostsNewsComments2

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

Makoomaky Nov 5 2022 at 14:34

Благодарю за фидбек!

по вопросам первой половины

в начале у нас описывается модель очень простой среды, в которой просто есть случайная величина, умеющая принимать два значения независимо от обстоятельств(контекста). В этой модели разумно иметь только один параметр, который представляют собой вероятность свершения одного из двух событий
если под рекурсивным имеется в виду явление сопряженности, то да, по двум озвученным причинам. С нормальным распределением всё сложнее, это распределение случайной величины на всей числовой оси (а не на отрезке [0, 1]), как бы мы его не подстраивали, на отрезке [0, 1] плотность этого распределения не будет суммироваться в единицу; так же это распределение не сопряжено с биномиальным распределением(или распределением Бернулли для единичного случая)

по поводу практических вопросов

кластера групп характеризуют наши интересы(группы про аниме и так далее), благодаря принадлежности человека к тем или иным группам модель получает дополнительную информацию о пользователях (дополнительный контекст, на который можно опираться при поиске оптимального действия)
все люди разные, в среднем работает:)

про квазирандомное сэмплирование не совсем понял вопрос, если что можно писать мне в linkedn alexander-sukhochev-46a74a154 , я там по-быстрее отвечаю

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

Makoomaky Jul 1 2022 at 12:24

Спасибо за комментарий. Вполне допускаю существование целого пласта задач, где epsilon жадный (или может какой-то другой?) DQN может справиться лучше, чем UCB. Всё-таки они нацелены на решение немного разных задач. Да и UCB бывает на основе разных моделей. Если есть ссылки на интересные нестандартные кейсы, пришлите пожалуйста, буду рад изучить