Comments 13
Я по названию статьи и картинке решил, что расскажите о алгоритме работы именно игровых автоматов…
А я подумал, что расскажут, как в них выигрывать =(
Выиграть в них можно только приобретя и выставив для игры. И не забыть подкручивать вероятность выпадения выигрыша — то вперед, то назад, чтобы взбадривать и завлекать бонвиванов.
За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.
За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.
Жду статью, где распишут принцип работы и «намахивания» игроков
А когда следует остановиться в UCB1?
Так не надо останавливаться. :) Идёт поток, и пусть идёт. Со временем, естественно, наступит сходимость и выбор ручки будет меняться всё реже и реже.
Ну так-то да. Тогда переформулирую. Пусть дано n автоматов. В «тривиальной» стратегии мы на очередной итерации дёргаем каждый автомат по одному разу, и при некотором m1 таких кругов из дёрганий наступает сходимость. Теперь в UCB1 делаем некоторое количество шагов m2, при которых также наблюдается примерно того же порядка сходимость. Как соотносятся m1 и m2, можно ли сказать?
Можно, но это зависит от соотношений между ручками. Собственно, теорема Auer et al. заключается в том, что regret получится логарифмический, причём порядок величины там \sum_{неоптимальные ручки} ln(n) / Delta_i, где Delta_i — разница в ожиданиях выигрышей между i-й ручкой и оптимальной. Простыми словами это значит довольно естественную вещь: чем сильнее оптимальная ручка выделяется на фоне остальных, тем меньше будет regret (тем быстрее мы найдём оптимальную), причём зависимость будет буквально обратно пропорциональная.
Т.е., отвечая совсем конкретно на ваш вопрос, если все ручки примерно одинаковые, то большой разницы между m1 и m2 не будет. А если одна ручка заметно лучше других, то m2 будет заметно меньше m1.
Верно ли, что алгоритм находит оптимальные ручки в случае, если «оптимальность» ручек не меняется со временем?
Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?
Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?
Sign up to leave a comment.
Многорукие бандиты: введение и алгоритм UCB1