в начале у нас описывается модель очень простой среды, в которой просто есть случайная величина, умеющая принимать два значения независимо от обстоятельств(контекста). В этой модели разумно иметь только один параметр, который представляют собой вероятность свершения одного из двух событий
если под рекурсивным имеется в виду явление сопряженности, то да, по двум озвученным причинам. С нормальным распределением всё сложнее, это распределение случайной величины на всей числовой оси (а не на отрезке [0, 1]), как бы мы его не подстраивали, на отрезке [0, 1] плотность этого распределения не будет суммироваться в единицу; так же это распределение не сопряжено с биномиальным распределением(или распределением Бернулли для единичного случая)
по поводу практических вопросов
кластера групп характеризуют наши интересы(группы про аниме и так далее), благодаря принадлежности человека к тем или иным группам модель получает дополнительную информацию о пользователях (дополнительный контекст, на который можно опираться при поиске оптимального действия)
все люди разные, в среднем работает:)
про квазирандомное сэмплирование не совсем понял вопрос, если что можно писать мне в linkedn alexander-sukhochev-46a74a154 , я там по-быстрее отвечаю
Спасибо за комментарий. Вполне допускаю существование целого пласта задач, где epsilon жадный (или может какой-то другой?) DQN может справиться лучше, чем UCB. Всё-таки они нацелены на решение немного разных задач. Да и UCB бывает на основе разных моделей. Если есть ссылки на интересные нестандартные кейсы, пришлите пожалуйста, буду рад изучить
Information
Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Благодарю за фидбек!
по вопросам первой половины
в начале у нас описывается модель очень простой среды, в которой просто есть случайная величина, умеющая принимать два значения независимо от обстоятельств(контекста). В этой модели разумно иметь только один параметр, который представляют собой вероятность свершения одного из двух событий
если под рекурсивным имеется в виду явление сопряженности, то да, по двум озвученным причинам. С нормальным распределением всё сложнее, это распределение случайной величины на всей числовой оси (а не на отрезке [0, 1]), как бы мы его не подстраивали, на отрезке [0, 1] плотность этого распределения не будет суммироваться в единицу; так же это распределение не сопряжено с биномиальным распределением(или распределением Бернулли для единичного случая)
по поводу практических вопросов
кластера групп характеризуют наши интересы(группы про аниме и так далее), благодаря принадлежности человека к тем или иным группам модель получает дополнительную информацию о пользователях (дополнительный контекст, на который можно опираться при поиске оптимального действия)
все люди разные, в среднем работает:)
про квазирандомное сэмплирование не совсем понял вопрос, если что можно писать мне в linkedn alexander-sukhochev-46a74a154 , я там по-быстрее отвечаю
Спасибо за комментарий. Вполне допускаю существование целого пласта задач, где epsilon жадный (или может какой-то другой?) DQN может справиться лучше, чем UCB. Всё-таки они нацелены на решение немного разных задач. Да и UCB бывает на основе разных моделей. Если есть ссылки на интересные нестандартные кейсы, пришлите пожалуйста, буду рад изучить