Как стать автором
Обновить

Комментарии 13

Я по названию статьи и картинке решил, что расскажите о алгоритме работы именно игровых автоматов…
А я подумал, что расскажут, как в них выигрывать =(
Выиграть в них можно только приобретя и выставив для игры. И не забыть подкручивать вероятность выпадения выигрыша — то вперед, то назад, чтобы взбадривать и завлекать бонвиванов.

За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.
В цивилизованных странах это называется tampering и ведет к потере лицензии. Нельзя просто взять и поменять процент выплаты.
Жду статью, где распишут принцип работы и «намахивания» игроков
А когда следует остановиться в UCB1?
Так не надо останавливаться. :) Идёт поток, и пусть идёт. Со временем, естественно, наступит сходимость и выбор ручки будет меняться всё реже и реже.
Ну так-то да. Тогда переформулирую. Пусть дано n автоматов. В «тривиальной» стратегии мы на очередной итерации дёргаем каждый автомат по одному разу, и при некотором m1 таких кругов из дёрганий наступает сходимость. Теперь в UCB1 делаем некоторое количество шагов m2, при которых также наблюдается примерно того же порядка сходимость. Как соотносятся m1 и m2, можно ли сказать?
Можно, но это зависит от соотношений между ручками. Собственно, теорема Auer et al. заключается в том, что regret получится логарифмический, причём порядок величины там \sum_{неоптимальные ручки} ln(n) / Delta_i, где Delta_i — разница в ожиданиях выигрышей между i-й ручкой и оптимальной. Простыми словами это значит довольно естественную вещь: чем сильнее оптимальная ручка выделяется на фоне остальных, тем меньше будет regret (тем быстрее мы найдём оптимальную), причём зависимость будет буквально обратно пропорциональная.
Т.е., отвечая совсем конкретно на ваш вопрос, если все ручки примерно одинаковые, то большой разницы между m1 и m2 не будет. А если одна ручка заметно лучше других, то m2 будет заметно меньше m1.
Да, понятно, спасибо!
Верно ли, что алгоритм находит оптимальные ручки в случае, если «оптимальность» ручек не меняется со временем?

Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?
Да. Не сможет. Для меняющихся со временем бандитов – другие алгоритмы, чуть посложнее, я про них расскажу в следующей серии или через раз.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий