snikolenko 7 фев 2013 в 13:57

Многорукие бандиты: введение и алгоритм UCB1

5 мин

55K

Блог компании SurfingbirdАлгоритмы*

Туториал

+31

Комментарии 13

sphinks 7 фев 2013 в 21:59

Я по названию статьи и картинке решил, что расскажите о алгоритме работы именно игровых автоматов…

Shultc 7 фев 2013 в 23:00

А я подумал, что расскажут, как в них выигрывать =(

Webnode 8 фев 2013 в 10:35

Выиграть в них можно только приобретя и выставив для игры. И не забыть подкручивать вероятность выпадения выигрыша — то вперед, то назад, чтобы взбадривать и завлекать бонвиванов.

За статью автору спасибо, хоть что-то расширяющее примитивное A/B тестирование, тема нигде не раскрыта, дал толчок для дальнейшего чтения.

ssneg 9 фев 2013 в 13:35

В цивилизованных странах это называется tampering и ведет к потере лицензии. Нельзя просто взять и поменять процент выплаты.

Nick_Khod 8 фев 2013 в 10:35

Жду статью, где распишут принцип работы и «намахивания» игроков

excoder 8 фев 2013 в 22:33

А когда следует остановиться в UCB1?

snikolenko 8 фев 2013 в 23:21

Так не надо останавливаться. :) Идёт поток, и пусть идёт. Со временем, естественно, наступит сходимость и выбор ручки будет меняться всё реже и реже.

excoder 8 фев 2013 в 23:55

Ну так-то да. Тогда переформулирую. Пусть дано n автоматов. В «тривиальной» стратегии мы на очередной итерации дёргаем каждый автомат по одному разу, и при некотором m1 таких кругов из дёрганий наступает сходимость. Теперь в UCB1 делаем некоторое количество шагов m2, при которых также наблюдается примерно того же порядка сходимость. Как соотносятся m1 и m2, можно ли сказать?

snikolenko 9 фев 2013 в 00:05

Можно, но это зависит от соотношений между ручками. Собственно, теорема Auer et al. заключается в том, что regret получится логарифмический, причём порядок величины там \sum_{неоптимальные ручки} ln(n) / Delta_i, где Delta_i — разница в ожиданиях выигрышей между i-й ручкой и оптимальной. Простыми словами это значит довольно естественную вещь: чем сильнее оптимальная ручка выделяется на фоне остальных, тем меньше будет regret (тем быстрее мы найдём оптимальную), причём зависимость будет буквально обратно пропорциональная.

snikolenko 9 фев 2013 в 00:06

Т.е., отвечая совсем конкретно на ваш вопрос, если все ручки примерно одинаковые, то большой разницы между m1 и m2 не будет. А если одна ручка заметно лучше других, то m2 будет заметно меньше m1.

excoder 9 фев 2013 в 00:23

Да, понятно, спасибо!

qw1 9 фев 2013 в 02:09

Верно ли, что алгоритм находит оптимальные ручки в случае, если «оптимальность» ручек не меняется со временем?

Алгоритм не сможет быстро перестроится, если всегда в тренде зелёные ручки, но под новый год — красные?
Инерция зелёных ручек не даст снять новогодние сливки с красных?

snikolenko 9 фев 2013 в 09:24

Да. Не сможет. Для меняющихся со временем бандитов – другие алгоритмы, чуть посложнее, я про них расскажу в следующей серии или через раз.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий