Как стать автором
Обновить

Комментарии 26

Б настолько плох, что на его фоне все активно выбирают А, хотя на самом деле А ничем не примечателен.

Так не в этом ли цель А/Б чтоб выявить что лучше — А или Б?

Цель, действительно, одна и та же, принять решение что лучше. Я просто показывают, что когда вы тестируете переплетением, результат получится более поляризованным. Если в A/B тесте A на 10% лучше Б, то в переплетении может оказаться, что А достались 90% целевых действий.

а вы пробовали многоруких бандитов?

Пробовали, но идея бандитов, кажется, немного другая: все время тестировать несколько алгоритмов, динамически подбирая для каждого оптимальную нишу или просто постоянно оценивая их относительную эффективность.

А переплетение – это более быстрый способ сравнить два алгоритма.
Почему переплетением, если чередованием?
Я очень долго мучалась, пытаясь хороший подобрать русский аналог для interleaving. Есть области где «чередование» – это общепринятый перевод?
Чрезстрочная развертка на телевизоре
Погуглите memory interleave. Вариантов «переплетение памяти» я не припомню.

Вообще, по смыслу, переплетение это для физических объектов. А чередование — для нематериальных, как адреса памяти или группы. По крайней мере моя интуиция говорит так :)
в списках и подобном всё равно же будет предубеждение к A1, потому как она стоит на 1 месте, Б1 будет «замыливаться», как часть массы. (случай для пепси/коки тут работает лучше, там нет сортированного списка).
получается, что надо к варианту переплетения A1, Б1, А2, Б2 добавлять вариант Б1, А1, Б2, А2… и… мы вернулись к базовому А/Б?
Я там в скрытом тексте писала, что при реализации переплетения всегда добавляют случайный выбор того, какой из алгоритмов будет первым в каждом случае, что ставить их в равное положение.

В практической реализации на самом деле еще очень много нюансов: очень сложно убирать результаты, которые вернули оба алгоритма, но на разных позициях, и сложно работать со случаями, когда алгоритмы возвращают почти идентичные результаты с несколькими перестановками.

Случай с баром ну очень надуманный, более того, совершенно некорректно интерпретирует саму идею A/B тестов. При измерении влияния изолированного фактора необходимо полностью соблюдать принцип идентичности остальных факторов. То есть, если говорить, например, о ранжировании, то классический A/B тест предполагает не открытие двух абсолютно одинаковых площадок, а смену алгоритма выдачи для конкретного посетителя в случайном порядке. Если говорить Вашим языком, то в одном и том же баре в одно и то же время первому посетителю мы будем предлагать налить пепси, а второму — колу. Опыт нетфликса применим лишь для узкого спектра гипотез, заточен под конкретный процесс и именно поэтому даёт потрясающий результат в конкретном контексте. Копировать опыт "больших дядь" — не всегда хорошая идея.

Я не очень понимаю, почему вы думаете, что стоить умозрительную модель двух баров, различающихся только одной деталью не корректно. Я это себе представляю как то, что мы создаем идентичный пользовательский опыт, но отличающийся в одном аспекте, который нас интересует – далеко не всегда это будет ровно один элемент. Бывают гипотезы, для тестирования которых нужно поменять сразу несколько элементов согласованно. Например, вы в варианте вводите новый метод доставки – он будет последовательно отображаться на карточке товара, в условиях и на всех шагах чекаута.
Я согласна, что у переплетения очень ограниченная область применения, но мне кажется, что об этом методе активно знают гораздо меньше людей, чем стоило бы. Формирование списка товаров в интернет-магазине это отличный повод применить переплетение, однако его очень редко используют.
Я не очень понимаю, почему вы думаете, что стоить умозрительную модель двух баров, различающихся только одной деталью не корректно.

Я считаю это некорректным, потому что при A/B тестировании веб-проекта невозможно представить себе две площадки, абсолютно идентичные по посещаемости, популярности, с одинаковой упоминаемостью в интернете и идентичной аудиторией. A/B тестирование — это про изменение состояния одного, в нашем случае, бара, пожалуйста, не вводите людей в заблуждение.

Я не очень понимаю, почему вы думаете, что стоить умозрительную модель двух баров, различающихся только одной деталью не корректно

Как минимум потому, что такой вариант подразумевает, что у пользователя есть выбор. Обычно же A/B тестирование работает довольно ультимативно и как раз не предоставляет пользователю выбора (хотя бы потому, что выбор это очень сложно и дискомфортно). В рамках аналогии с баром, это было бы верно, если бы в баре 10% пользователей наливали бы pepsi вместо колы.

В моей модели для описания A/B тестов пользователь попадает в один из двух баров совершенно случайным образом. Никакого выбора!

Ну, тогда вы вместо модели без выбора предлагаете модель с выбором. Как уже указали раньше, люди очень часто не выбирают "лучшее" ...

Как пользователя, меня иногда раздражает A/B тестирование.
Прилетаешь, допустим, куда-нибудь, открываешь приложение чтобы посмотреть например локацию отеля, а кнопка уже не там, где была раньше и немного тупишь. Продакт менеджменту оно, конечно, удобно, а мне, как пользователю — нет.
Я согласна, что это раздражает (особенно если потом кнопка вернется на место). Продакт менеджеры знают, что абсолютно любое изменение будет вызывать раздражение активной лояльной аудитории, даже если оно объективно улучшает продукт и готовы к этому. Дуров так и не вернул стену.
Я стараюсь смотреть на это как на цену, которую нам всем приходится платить за то, чтобы продукты становились лучше.
Тем более, что пользователю обычно абсолютно наплевать, где кнопка, ему нужен результат. А продакт-менеджементу нужно оправдывать свое паразитирование на бюджетах, придумывая несуществующие проблемы и якобы эффективные решения оных.
Если продакт-менеджер своими экспериментами не увеличивает значимые для бизнеса метрики, то не очень понятно, зачем команда и компания с ним работает.
По хорошему а/б тест должен производиться на новых юзерах. Не затрагивая тех, кто уже использовал продукт и привык к цвету, расположению или форме кнопки.
Если изменение планруется ввести для всех, то так делать нельзя. Изменение надо тестировать на всех, кого оно затронет, смысл в том, чтобы понять результат изменения.
Ну если вы довольно долго используете какой либо сервис, практически всегда, любое изменение будет казаться вам не удобным и не нужным. Имхо
Человек порой выбирает не самое лучшее, а самое привычное, самое известное и т.п.

Если в баре (американском) будут на выбор кока-кола и (например) хлебный квас, то большинство выберет кока-колу. Хотя если лишить людей кока-колы (скажем, на неделю) и оставить только квас, то (возможно) люди оценят вкус хлебного кваса и никогда уже не купят кока-колу.
Эта проблема на самом деле, кажется, не зависит от методики тестирования, на результаты А/Б этот эффект тоже повлияет. Для этого есть специальный вид экспериментов, если в гипотезу заложено начальное отторжение. Обычно выделяют не очень большую когорту пользователей, и подвергают длительному воздействию. Из-за того что такие эксперименты длинные по природе, нужны очень веские основания, чтобы тратить ресурсы на то, чтобы «переучивать» пользователей.
А не подскажете какого-нибудь практического руководства как этим пользоваться? Что-то по середине между постом в блоге и научной работой. Звучит очень интересно, хотелось бы попробовать, но без глубокого погружения в теорию. Про обычные A/B, стат значимость и пр я знаю довольно хорошо, базовое понимание тер вера имеется.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории