Comments 14
Только мне кажется, что ценность куска «кода» близка к нулю? =)
А сама идея интересная, хотелось бы понять, насколько выборки для разных вариантов будут репрезентативными.
А сама идея интересная, хотелось бы понять, насколько выборки для разных вариантов будут репрезентативными.
Нужно теперь провести A/B тестирование для сравнения способов проведения A/B-тестирования.
Могу предложить систему еще веселее. Показывать не 3 кнопки, а кнопку случайного цвета. Смотреть какого цвета кнопку кликнули чаще. Разложить ее цвет на RGB и каждому компоненту цвета присваивать определенную оценку. И так прийти к идеальному цвету кнопки. Это всего лишь идея, алгоритма пока придумать не могу.
Похоже на утопию. Принцип роста победителя. Однажды попав в топ лучших, твой рост становится быстрее. Однажды получив значение, большее, чем у окружающих, тебя будут показывать 90%.
Имхо, слишком велико влияние случая и реальное показание дел такой алгоритм не покажет
Имхо, слишком велико влияние случая и реальное показание дел такой алгоритм не покажет
Выглядит заманчиво, но не прокатит :( Смотрим шаг, когда у всех по 25% и представим, что у зеленой и белой кнопке к этому моменту по 0%. Он будет всё время показывать оранжевую, пока та не дойдет до 2.8%. И гордо скажет «Этот лучший!». Но мы то знаем, что лучший — зеленый, а алгоритм его по сути и не тестировал.
Не, там 10% на рандомный показ отведено.
Согласен, просмотрел. Когда трафика и конверсий много, а следить за экспериментом лень, такой алгоритм имеет право на жизнь.
Но обычно конверсий мало. Например, при 300 конверсий в неделю этому алгоритму потребуется на несколько недель больше, чем стандартному равномерному показу, чтобы выявить лучший вариант и отключить остальные. Потому что он 90% времени будет показывать один вариант, а остальные будут висеть с недостаточным объемом данных.
Так что это получается жадный алгоритм для богатых и ленивых :)
Но обычно конверсий мало. Например, при 300 конверсий в неделю этому алгоритму потребуется на несколько недель больше, чем стандартному равномерному показу, чтобы выявить лучший вариант и отключить остальные. Потому что он 90% времени будет показывать один вариант, а остальные будут висеть с недостаточным объемом данных.
Так что это получается жадный алгоритм для богатых и ленивых :)
Почему-то мне кажется, что полученные с помощью такого алгоритма данные не будут статистически достоверными — размер выборки для разных кнопок получится разным
Такой режим был в GWO. Его использование опасно. Во-первых, в начале эксперимента, когда до статистической достоверности еще далеко, вариации обгоняют друг друга по эффективности по несколько раз в день. Во-вторых, его применение не учитывает возможного влияния внешних факторов, которые могут временно исказить картину эксперимента (удачная рекламная кампания, ссылка на вариацию на популярном сайте, СМИ и т.д.).
В английской Википедии предложено очевидное обобщение этой идеи: на ранних этапах обучения использовать высокие значения эпсилон (дабы алгоритм отдавал предпочтение изучению среды (exploration)), а со временем снижать до нуля, чтобы уже использовать накопленную статистику в корыстных целях (exploitation). Вообще это классическая задача обучения с подкреплением, эти вещи уже давно обсосаны, жаль, что мало примеров прикладного использования.
Sign up to leave a comment.
Жадный алгоритм в A/B-тестировании