Обновить
9
0
Анастасия Соколова@okolonasty

Пользователь

Отправить сообщение

Спасибо большое за статью! Читали всей A/B платформой WB, и мне лично очень понравилось) Но у меня возник ряд вопросов:

1. Правильно ли я понимаю, что алгоритм принятия решений, предлагаемый в статье, заключается в следующем:
- При заранее расчитанном объеме выборки запускается тест. В какой-то момент времени происходит подглядывание. Если z стат вышел за границы, предлагаемые в статье, то останавливаем и считаем, что мы пронаблюдали эффект на уровне альфа. Если z стат оказался в серой зоне, то продолжает тест? Предполагается ли возможность остановить тест во втором случае, и заключить то, что разницы нет между тестом и контролем.

Причина первого вопроса: в статье утверждается, что мы немного теряем в мощности при росте кол-ва подглядываний, это же атоматически означает, что мы растим ошибку второго рода - не найти эффект там где он действительно есть. Но вот еще раз смотрим на представленный алгоритм действия и принятия решения. Если мы до конца теста не останавливает тест, если z находтся внутри интервала, то, кажется, что таким образом мы не можем увеличить ошбику второго рода, мы не принимаем тест серым досрочно, насколько я понимаю. Я при этом понимаю, что выборка, на которой мы принимаем решение меньше, и это теоретически мощность понижает, однако если при последовательном тестировании не предполагается останавливать серый тест досрочно, то мы как будто бы уже и не подглядывем в случае серого теста, и можем ли мы в таком случае говорить про уменьшение мощности?

2. Даже если мощность действительно падает, то я не понимаю, почему именно от кол-ва подглядываний. Интуитивно кажется, что чем раньше мы подглядываем, тем мощность меньше, чем ближе к концу теста, тем мощность будет больше. Как кол-во подглядываний изменяет мощность?

Спасибо)

Спасибо большое за методологический вопрос и интерес к статье! Если под "тем же самым результатом" имеется в виду то, что тест не отловит значимых отличий, если мы его дольше подержим, то данный вопрос будет достаточно накладно проверить в жизни. Чтобы догнать по количеству наблюдений тест с исходными интервалами, нам понадобится минимум 230 дней (10 у нас было, а еще 230 для того чтобы получить 240 наблюдений в сумме). Это получается, что нам бы пришлось держать тест  больше полугода. В комментарии ранее я рассказывала, что сейчас целевое решение вообще видоизменилось: карта вышла вперед, то есть мы физически не может продолжать этот эксперимент столь долго, да и боюсь к тому времени актуальность этого теста явно упала бы. К слову сказать, мы действительно подержали тест еще немного, и выводы остались все теми же. Про качественные методы, подскажите пожалуйста, какие на ваш взгляд методы могли бы это быть? Надеюсь, мне удалось ответить на ваш вопрос!

Спасибо большое за такой хороший вопрос и интерес к статье! Из моей практики, на принятие того или иного продуктового решения чаще всего влияет целый ряд факторов. К примеру, в данном конкретном кейсе, разработка этого варианта экрана стоила нам относительно дешево: мы уже имели шаблон этой страницы, который слегка перекрасили и изменили смысловое содержание. Цель этого аб-теста была скорее исследовательской и мы искали ответы на вопросы: "каким образом нарастить долю людей с геолокацией". В итоге, увидев неэффективность этого решения, мы пришли к решению не катить этот экран, Также у нас в планх было вынести карту в приложении в самое начало пути юзера, вне зависимости от результатов теста (во время этого теста во всех вариантах первым шел экран саджестов, и лишь после него можно было выйти на карту). Таким образом, после завершения теста, мы решили измерить, не принесет ли вынос карты нам желаемый прирост в доле людей с геолокацией, раз уж мы все равно это выкатываем (в итоге от вынесения карты вперед долю людей с геолокаций действительно выросла).Что касательно затрат на разработку, то  если считать затраты на разработку этого решения, то они оказались даже меньше затрат на работу аналитика на анализ данного аб-теста. Также для выпила старого варианта и поддержку нового было бы все-равно необходимо совершить некие затраты. И так как новый вариант прибыли не приносит, и в этом случае мы как будто бы в убытке. Я как аналитик хочу верить, что стоимость разработки пошла в накопленный аналитический опыт, мы смогли лучше понять наших пользователей, в дальнейшем не проводить подобных исследований, мы получили возможность принимать более выгодные и правильные  решения с бОльшим количеством информации, что в итоге дало нам нарастить конверсию  не в моменте, но в более долгом периоде. Надеюсь, мне удалось ответить на ваш вопрос, но если я что-то упустила, пожалуйста пишите!

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность