Makoomaky 30 июн 2022 в 17:35

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

17 мин

10K

Блог компании VKData Mining*Алгоритмы*Математика*Машинное обучение*

Туториал

Победитель Технотекст 2022

+55

Комментарии 4

sunnybear 30 июн 2022 в 22:00

DQN обычно уделывает UCB. Плюс можно обучающие раунды прогонять сильно больше раз, чем в классических подхода, из за этого точность на малом числе попыток может быть выше.

Makoomaky 1 июл 2022 в 15:24

Спасибо за комментарий. Вполне допускаю существование целого пласта задач, где epsilon жадный (или может какой-то другой?) DQN может справиться лучше, чем UCB. Всё-таки они нацелены на решение немного разных задач. Да и UCB бывает на основе разных моделей. Если есть ссылки на интересные нестандартные кейсы, пришлите пожалуйста, буду рад изучить

enrupt 22 окт 2022 в 12:44

Спасибо за статью, довольно просто и подробно!

в первой половине

как мы перешли от того, что тета - какой-то параметр выдачи, к тому что тета - вероятность выигрыша?
получается бета-распределение выбрано потому что оно выражается рекурсивно и задано на на [0;1] - тогда любое распределение удовлетворяющее такому заданию подойдет? можно было взять нормальное сразу?

по практике

как принадлежность к группе связана со стикерами?
На рисунке ниже такими примерами отрицательных взаимодействий являются «Граф Дракула» и «Эйрик». -- может это в контексте статьи так, но когда вы нарисовали стрелочку на Фаззи, внимания на соседей не попало вообще)

про последовательность Соболя раньше слышать не приходилось, было бы интересно как оно на практике (ну и вообще про дайверсити)

Makoomaky 5 ноя 2022 в 17:34

Благодарю за фидбек!

по вопросам первой половины

в начале у нас описывается модель очень простой среды, в которой просто есть случайная величина, умеющая принимать два значения независимо от обстоятельств(контекста). В этой модели разумно иметь только один параметр, который представляют собой вероятность свершения одного из двух событий
если под рекурсивным имеется в виду явление сопряженности, то да, по двум озвученным причинам. С нормальным распределением всё сложнее, это распределение случайной величины на всей числовой оси (а не на отрезке [0, 1]), как бы мы его не подстраивали, на отрезке [0, 1] плотность этого распределения не будет суммироваться в единицу; так же это распределение не сопряжено с биномиальным распределением(или распределением Бернулли для единичного случая)

по поводу практических вопросов

кластера групп характеризуют наши интересы(группы про аниме и так далее), благодаря принадлежности человека к тем или иным группам модель получает дополнительную информацию о пользователях (дополнительный контекст, на который можно опираться при поиске оптимального действия)
все люди разные, в среднем работает:)

про квазирандомное сэмплирование не совсем понял вопрос, если что можно писать мне в linkedn alexander-sukhochev-46a74a154 , я там по-быстрее отвечаю

Зарегистрируйтесь на Хабре, чтобы оставить комментарий