Pull to refresh
1303.44
OTUS
Цифровые навыки от ведущих экспертов

Дизайн А/В-теста: пошаговая инструкция с теоретическими основами

Level of difficultyEasy
Reading time7 min
Views14K
Автор статьи: Кристина Курдюмова

Кристина Курдюмова - ментор продактов, product manager Avito, стрим активация новых пользователей

Что такое АВ тест 

АВ-тест (или A/B-тест) - это метод экспериментального исследования, используемый в маркетинге и продуктовом менеджменте для сравнения двух или более вариантов одного элемента или стратегии с целью определения наиболее эффективного решения. В А/В-тесте обычно сравниваются две версии (варианта A и варианта B) одного и того же элемента, такого как веб-страница, рекламный баннер, электронное письмо и т.д., чтобы определить, какой из них приводит к лучшим результатам или большей конверсии.

Принцип А/В-теста заключается в том, что случайно выбранная аудитория делится на две группы: одна группа видит вариант A, а другая группа - вариант B. Затем собираются данные о поведении и реакции пользователей на каждый вариант. Сравнивая результаты двух групп, можно определить, какой вариант более успешный или эффективный.

А/В-тесты позволяют проводить эксперименты с минимальными рисками, так как изменения применяются только к выбранным группам пользователей. Они могут помочь в оптимизации веб-сайтов, улучшении пользовательского опыта, повышении конверсии и максимизации эффективности маркетинговых кампаний и продуктовых стратегий.

Данному типу тестирования уже много лет. Инструмент еще в начале 20 века применял математик Вильям Госсет на производстве пива Guinness. Он использовал в производстве продукции разные виды ячменя, чтобы определить наиболее лучшее сочетание, которое понравится потребителю больше всего.

Еще один пример — тестирование 41 оттенка синего в поисковой выдачи Google в начале 2000-х годов. Специалисты компании вывели гипотезу: существует оттенок синего, который воспринимается человеческим глазом лучше остальных и это может повысить кликабельность.

Технологические компании, такие как Google, Amazon, Facebook, Airbnb,  Netflix выстроили непрерывный процесс экспериментирования. Количество экспериментов в единицу времени - поражает: Airbnb 700 проверяет гипотез в неделю, Uber, Amazon проверяют 1200 гипотез в неделю. 

Как сделать дизайн АВ? - давайте разбираться. 

Как сделать дизайн АВ 

Дизайн АВ тестирования состоит из нескольких шагов:  

  1. Формулируем гипотезу.

  2. Выбираем целевую, прокси и контр-метрики.

  3. Определяем сегмент АВ теста.

  4. Запускаем эксперимент.

Формулируем гипотезу

В основе любого A/B теста лежит проблема (ситуация), которую нам надо решить (разрешить) или некое поведение пользователя, которое нам нужно изменить или, наоборот, закрепить. Выявив проблему, продакт менеджер формулирует гипотезу — предположение, которое либо подтверждается, либо опровергается в результате эксперимента. 

Для правильной оценки результатов выделяют два типа гипотез:

  • Нулевая. Изменения ни к чему не приведут, конверсия остается прежней (задача — опровергнуть гипотезу).

  • Альтернативная. Изменения приведут к повышению метрики до х%.

Если с нулевой все понятно, то альтернативную необходимо сформулировать по правилам: 

  1. Используем “Если мы сделаем…то это приведет…”.

  2. Определяем целевую метрику и направление (рост / падение / на месте).

Примеры продуктовых гипотез из моей практики: 

  • если мы сделаем таббар в мобильной веб. версии, то у нас увеличатся контакты с избранного на 10%.

  • если мы поменяем мотивацию о скачивании предложения на баннере, то увеличим конверсию в скачивание приложения на 15% .

  • если мы закроем в онбординге для новых пользователей барьер о том, что в продукте “не безопасно”, то увеличим конверсию в контакт на 5% .

Выбираем целевую, прокси и контр метрики 

Целевая метрика метрика, на которую вы намерены позитивно повлиять.

Целевая метрика должна быть: 

  • простая, интерпретируемая.

  • стабильная.

Прокси метрика это косвенная мера целевой метрики, с которой она сильно коррелирует.

Прокси метрика должна: 

  • коррелировать с целевой.

  • быть чувствительной (то есть способна реагировать на изменения в продукте). 

Контр метрики — те метрики, которые вы можете подвергнуть падению в вашем АВ тесте. 

 Чтобы подобрать контр-метрики, можно задать себе вопросы: 

  1. Что я могу упустить из вида, если буду смотреть только на целевые метрики? 

  2. С какими рисками мы можем столкнуться при оптимизации целевых метрик?

Если у вас есть трудности с определением метрик или проведением АВ тестов - приходите на менторство - пишите в telegram @product_kris.

Определяем сегмент АВ теста

Определение сегмента для А/В теста - это важный шаг, который может влиять на точность и репрезентативность результатов тестирования. Поэтому важно тщательно подходить к этому процессу.

Размер выборки для А/В тестирования можно рассчитать с помощью специальных калькуляторов, например 

Некоторые из них:

В этих калькуляторах вы можете ввести значения уровня значимости, мощности теста, ожидаемого эффекта и стандартного отклонения, чтобы получить размер выборки для А/В тестирования.

Определяем важные нюансы

  1. Определяем допустимый уровень значимости 

Допустимый уровень значимости (α - Альфа) - это вероятность того, что мы ошибочно отклоняем нулевую гипотезу, то есть гипотезу о том, что между двумя группами не существует статистически значимых различий. Обычно допустимый уровень значимости для А/В тестирования составляет 0,05 (или 5%). Это означает, что если у нас есть статистически значимый результат с уровнем значимости 0,05, то вероятность того, что мы сделали ошибку и нулевая гипотеза на самом деле верна, составляет 5%.

  1. Считаем Minimum Detectable Effect

MDE (Minimum Detectable Effect) - это минимальный обнаруживаемый эффект, т.е. минимальное изменение метрики, которое вы сможете обнаружить с заданной вероятностью и статистической значимостью в А/В тесте.

Считать  MDE необходимо ДО эксперимента - чтобы понять заранее, сможем ли мы прокрасить метрику или нам не хватит объема аудитории. 

  1. Определяем продолжительность тестирования

Для получения достоверных результатов рекомендуется проводить тестирование минимум 7 дней. За 7 дней ваша аудитория проходит и будни и выходные дни и устраняется сезонность. Сезонность в данном случае, это когда аудитория может активнее использовать ваш продукт в выходные дни или, наоборот, в будние.

Запуск эксперимента

Несколько советов перед запуском: 

  1. За несколько дней необходимо уведомить customer support об эксперименте для того, чтобы они могли помочь пользователям, которые обращаются в поддержку.

Рекомендую: 

  • уведомить заранее (минимум 1 неделя).

  • предоставить UX/UI наглядные иллюстрации типа “ДО/ПОСЛЕ”.

  • подготовить вопросы, которые могут возникнуть у пользователей и сразу предоставить ответ тех поддержке.

  1. Чтобы понять, будут ли баги при полной раскатке на весх пользователей - раскатывайте изменения плавно на трафик. Сначала запустите изменения на 5% трафика => 10% трафика => 50% => 100%.

  2. Поместите себя в группу

Продакт должен быть в курсе всего, что он делает. В некоторых компаниях продакт подключается на этапе тестирования, чтобы заранее понять как новый функционал будет на продакшене выглядеть. 

После запуска - тестируйте самостоятельно, попробуйте выполнить разные кейсы с новым функционалом, это поможет вам в интерпретации результатов. 

  1. Расслабьтесь и наблюдайте 

Не стоит в первый день анализировать результаты - данные могут быть не стат значимы. 

Иногда на начальных этапах можно увидеть подтверждение альтернативной гипотезы. И в этом случае новички допускают ошибку: прекращают тестирование раньше намеченного срока. Да, сначала изменения могут положительно повлиять на ключевую метрику, но уже в конце эксперимента может быть выявлено реальное отсутствие эффекта (если вообще не отрицательный результат). Поэтому ждите строго до конца запланированного периода.

Или наоборот,  видите негативный эффект ключевой метрики и завершаете АВ тест. В некоторых АВ тестах с сильными изменениями, такой как наш пример - необходимо больше времени, для получения реальной картины. В Авито, называют это “дождаться привыкания” - то есть +7/14 дней для того, чтобы посмотреть на поведение пользователей с новым UX.  

Всех обобщенных нюансов здесь не написать, так как в вашей компании и для каждого теста есть свои особенности, узнать которые помогает лишь опыт. 

Анализ результатов

Анализ результатов A/B-теста включает несколько этапов:

  1. Проверка статистической значимости: необходимо убедиться, что различия между контрольной и тестовой группами не являются случайными. Для этого используются статистические тесты, такие как t-тест или z-тест. Если различия статистически значимы, то можно считать, что изменения, внесенные в тестовую группу, действительно влияют на показатели.

  2. Анализ ключевых метрик: необходимо определить, какие метрики были затронуты изменениями в тестовой группе. Если изменения положительно повлияли на ключевые метрики (например, увеличили конверсию), то можно считать, что изменения успешны.

  3. Анализ поведения пользователей: необходимо изучить, как пользователи взаимодействуют с продуктом после внесенных изменений. Если пользователи начали чаще использовать новые функции или продукт стал более удобным в использовании, то можно считать, что изменения были успешны.

  4. Анализ побочных эффектов: необходимо изучить, как изменения повлияли на другие аспекты продукта или бизнеса. Например, изменения могут повлиять на время загрузки страницы или количество обращений в службу поддержки. Если изменения не вызвали негативных побочных эффектов, то можно считать, что они успешны.

Принятие решения

На основе результатов анализа необходимо принять решение о том, следует ли внедрять изменения в продукт или нет. Если изменения были успешны и не вызвали негативных побочных эффектов, то их можно внедрить. Если изменения не были успешны, то можно провести новый A/B-тест, чтобы определить, какие изменения могут быть более эффективными.

Важно помнить, что результаты A/B-теста могут быть различными в зависимости от выбора метрик, контрольной и тестовой групп, продолжительности тестирования и других факторов. Поэтому необходимо проводить A/B-тестирование с учетом всех этих факторов и применять наиболее подходящие методы анализа результатов.

Дополнительные вопросы про АВ тесты: 

Какие ошибки самые популярные в АВ тестировании:

  1. Наличие нереалистичной гипотезы.

  2. Запуск слишком большого количества сравнений одновременно.

  3. Тестирование с неправильными аудиториями (например, трафику из Google показывать 1 кнопку , трафику из Яндекса другую кнопку).

  4. Запуск слишком короткий или слишком длинный.

Делитесь этой статьей с коллегами, друзьями и партнерами. Пишите отзывы - мне будет приятно получить от вас обратную связь. 

Также хочу порекомендовать вам бесплатный вебинар "Лайфхаки трудоустройства продакт-менеджера". Вы узнаете как оформить резюме и выбирать вакансии, как подготовиться к интервью. Поймете, как правильно оформить резюме и сопроводительное письмо, узнаете, как готовиться к интервью и увидите разборы резюме.

Подписывайтесь на меня в других соц.сетях и получайте больше пользы: 

 

Tags:
Hubs:
Total votes 8: ↑7 and ↓1+9
Comments3

Articles

Information

Website
otus.ru
Registered
Founded
Employees
101–200 employees
Location
Россия
Representative
OTUS