Каждый продуктовый аналитик или менеджер рано или поздно сталкивается с A/B-тестированием. На первый взгляд всё кажется простым: разделили трафик, показали разные кнопки, сравнили цифры. Но на практике 80% успеха теста закладывается ещё до его старта — на этапе дизайна.
В этой статье мы разберем, что такое «карточка теста», почему это не про картинки и какие 8 пунктов спасут ваш эксперимент от провала.
Что такое дизайн A/B-теста?
Дизайн теста — это не визуальное оформление элементов сайта. Это документированная стратегия эксперимента, в которой зафиксированы все математические параметры, гипотезы и ограничения до того, как первая порция трафика попадет в тест.
Без дизайна вы рискуете попасть в ловушку «подглядывания» (peeking problem) или получить результаты, которые невозможно интерпретировать.
8 столпов качественного дизайна
1. Продуктовая гипотеза
Забудьте о формулировке «давайте попробуем». Гипотеза должна строиться по шаблону:
«Если мы [сделаем X], то это повлияет на [метрику Y], потому что [логическое обоснование], и мы ожидаем рост на [N%].»
2. Ошибки I и II рода (alpha и beta)
alpha (Альфа): Вероятность увидеть разницу там, где её нет (ложноположительный результат). Стандарт — 5%. Но если цена ошибки велика (например, тест влияет на финансовое ядро), стоит снизить её до 1%.
beta (Бета): Вероятность пропустить реальные изменения. Обычно мы ориентируемся на мощность теста ($1 - \beta$) в 80%.
3. Целевая метрика
Это «звезда» вашего теста. Она должна быть максимально близка к тому изменению, которое вы внедряете. Если вы меняете цвет кнопки «Купить», целевой метрикой будет конверсия в клик или переход в корзину.
4. Дополнительные и защитные метрики
Защитные (Guardrail): Те показатели, которые не должны упасть. Растим конверсию, но следим, чтобы не выросло количество возвратов или не упала выручка.
Прокси-метрики: Если целевая метрика слишком «тяжелая» (например, годовое удержание), мы выбираем что-то более чувствительное и краткосрочное.
5. MDE (Minimal Detectable Effect)
Это минимальный порог изменений, который нам важно поймать. Мы не ищем «хоть какой-нибудь» плюс. Мы заранее решаем: «Нам интересно изменение только от 2% и выше, всё что меньше — шум, который не окупит разработку».
6. Размер выборки (Sample Size)
На основе alpha, beta, MDE и текущей базовой конверсии рассчитывается количество пользователей. Нельзя просто запустить тест «на недельку». Нужно знать четкое число: например, по 5 000 человек в каждой группе.
7. Длительность теста
Рассчитывается как Необходимая выборка / Ваш ежедневный трафик.
Важно: Всегда учитывайте недельную сезонность. Даже если вы набрали выборку за 2 дня, тест стоит держать минимум 7 дней, чтобы учесть разницу в поведении пользователей в будни и выходные.
8. Сегментация
На кого мы катим? Все пользователи или только новые? Только мобильное приложение или десктоп? Это должно быть зафиксировано «на берегу».
Практический кейс:
Представим, что мы хотим добавить огонёк («Популярный товар») в листинге продуктов.
Гипотеза: Добавление визуального акцента на популярных товарах поможет пользователям быстрее принимать решение и повысит конверсию в добавление в корзину на 1%.
Расчет параметров:
Базовая конверсия (Baseline): 14%.
MDE: 2% (абсолютных).
Результат калькулятора: Нам нужно примерно 10 000 человек суммарно. При трафике 1 000 человек в день тест будет идти минимум 10 дней.
Что пошло не так без дизайна?
Если бы мы не определили защитную метрику (например, средний чек), мы могли бы радостно внедрить «огоньки» на дешевые товары, поднять конверсию, но при этом обрушить общую выручку компании.
Резюме
Дизайн A/B-теста — это страховка аналитика. Он защищает бизнес от принятия неверных решений, а команду — от бессмысленной работы. Помните: если эксперимент нельзя измерить правильно, его не стоит запускать.
Если вам интересна аналитика как профессия или вы рассматриваете вход в неё осознанно, я делюсь практическими наблюдениями, кейсами и разбором ошибок в своём Telegram-канале!
