Комментарии 13
Я по названию статьи и картинке решил, что расскажите о алгоритме работы именно игровых автоматов…
+1
А я подумал, что расскажут, как в них выигрывать =(
+1
Выиграть в них можно только приобретя и выставив для игры. И не забыть подкручивать вероятность выпадения выигрыша — то вперед, то назад, чтобы взбадривать и завлекать бонвиванов.
За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.
За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.
+2
Жду статью, где распишут принцип работы и «намахивания» игроков
-1
А когда следует остановиться в UCB1?
0
Так не надо останавливаться. :) Идёт поток, и пусть идёт. Со временем, естественно, наступит сходимость и выбор ручки будет меняться всё реже и реже.
0
Ну так-то да. Тогда переформулирую. Пусть дано n автоматов. В «тривиальной» стратегии мы на очередной итерации дёргаем каждый автомат по одному разу, и при некотором m1 таких кругов из дёрганий наступает сходимость. Теперь в UCB1 делаем некоторое количество шагов m2, при которых также наблюдается примерно того же порядка сходимость. Как соотносятся m1 и m2, можно ли сказать?
0
Можно, но это зависит от соотношений между ручками. Собственно, теорема Auer et al. заключается в том, что regret получится логарифмический, причём порядок величины там \sum_{неоптимальные ручки} ln(n) / Delta_i, где Delta_i — разница в ожиданиях выигрышей между i-й ручкой и оптимальной. Простыми словами это значит довольно естественную вещь: чем сильнее оптимальная ручка выделяется на фоне остальных, тем меньше будет regret (тем быстрее мы найдём оптимальную), причём зависимость будет буквально обратно пропорциональная.
0
Т.е., отвечая совсем конкретно на ваш вопрос, если все ручки примерно одинаковые, то большой разницы между m1 и m2 не будет. А если одна ручка заметно лучше других, то m2 будет заметно меньше m1.
0
Верно ли, что алгоритм находит оптимальные ручки в случае, если «оптимальность» ручек не меняется со временем?
Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?
Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Многорукие бандиты: введение и алгоритм UCB1