alizar May 31 2012 at 13:18

Жадный алгоритм в A/B-тестировании

2 min

7.9K

Algorithms * IT systems testing *

+28

Comments 14

haaji May 31 2012 at 13:34

Только мне кажется, что ценность куска «кода» близка к нулю? =)
А сама идея интересная, хотелось бы понять, насколько выборки для разных вариантов будут репрезентативными.

1ex May 31 2012 at 15:29

Самый лучший интерпретатор — человек :) Вот только и ошибок на порядок больше и результат непредсказуемый

gaelpa May 31 2012 at 13:38

Нужно теперь провести A/B тестирование для сравнения способов проведения A/B-тестирования.

tunelix May 31 2012 at 13:40

Могу предложить систему еще веселее. Показывать не 3 кнопки, а кнопку случайного цвета. Смотреть какого цвета кнопку кликнули чаще. Разложить ее цвет на RGB и каждому компоненту цвета присваивать определенную оценку. И так прийти к идеальному цвету кнопки. Это всего лишь идея, алгоритма пока придумать не могу.

fenst May 31 2012 at 15:01

Похоже на утопию. Принцип роста победителя. Однажды попав в топ лучших, твой рост становится быстрее. Однажды получив значение, большее, чем у окружающих, тебя будут показывать 90%.
Имхо, слишком велико влияние случая и реальное показание дел такой алгоритм не покажет

haaji May 31 2012 at 16:00

Вы невнимательно прочитали. Успешность зависит от CTR, и 90% процентов будет у кнопок, которые будут нажимать 9 человек из 10.
А для того, чтобы дать шанс особям с меньшим % — и ввели рандом.

vdustinov May 31 2012 at 17:37

Выглядит заманчиво, но не прокатит :( Смотрим шаг, когда у всех по 25% и представим, что у зеленой и белой кнопке к этому моменту по 0%. Он будет всё время показывать оранжевую, пока та не дойдет до 2.8%. И гордо скажет «Этот лучший!». Но мы то знаем, что лучший — зеленый, а алгоритм его по сути и не тестировал.

esc May 31 2012 at 17:59

Не, там 10% на рандомный показ отведено.

vdustinov May 31 2012 at 18:19

Согласен, просмотрел. Когда трафика и конверсий много, а следить за экспериментом лень, такой алгоритм имеет право на жизнь.

Но обычно конверсий мало. Например, при 300 конверсий в неделю этому алгоритму потребуется на несколько недель больше, чем стандартному равномерному показу, чтобы выявить лучший вариант и отключить остальные. Потому что он 90% времени будет показывать один вариант, а остальные будут висеть с недостаточным объемом данных.

Так что это получается жадный алгоритм для богатых и ленивых :)

Santacruz May 31 2012 at 18:34

поставь 50% рандом и будет тебе AB тест

esc May 31 2012 at 18:37

AB бывает не только для конверсий, но и для кликов. И тут такой алгоритм поможет открутить меньше показов некликабельного объявления или баннера.

altima May 31 2012 at 23:38

Почему-то мне кажется, что полученные с помощью такого алгоритма данные не будут статистически достоверными — размер выборки для разных кнопок получится разным

nikolaykhl Jun 1 2012 at 09:08

Такой режим был в GWO. Его использование опасно. Во-первых, в начале эксперимента, когда до статистической достоверности еще далеко, вариации обгоняют друг друга по эффективности по несколько раз в день. Во-вторых, его применение не учитывает возможного влияния внешних факторов, которые могут временно исказить картину эксперимента (удачная рекламная кампания, ссылка на вариацию на популярном сайте, СМИ и т.д.).

UncleAli Jun 1 2012 at 12:45

В английской Википедии предложено очевидное обобщение этой идеи: на ранних этапах обучения использовать высокие значения эпсилон (дабы алгоритм отдавал предпочтение изучению среды (exploration)), а со временем снижать до нуля, чтобы уже использовать накопленную статистику в корыстных целях (exploitation). Вообще это классическая задача обучения с подкреплением, эти вещи уже давно обсосаны, жаль, что мало примеров прикладного использования.