Автор статьи: Кристина Курдюмова
Кристина Курдюмова - ментор продактов, product manager Avito, стрим активация новых пользователей
Что такое АВ тест
АВ-тест (или A/B-тест) - это метод экспериментального исследования, используемый в маркетинге и продуктовом менеджменте для сравнения двух или более вариантов одного элемента или стратегии с целью определения наиболее эффективного решения. В А/В-тесте обычно сравниваются две версии (варианта A и варианта B) одного и того же элемента, такого как веб-страница, рекламный баннер, электронное письмо и т.д., чтобы определить, какой из них приводит к лучшим результатам или большей конверсии.
Принцип А/В-теста заключается в том, что случайно выбранная аудитория делится на две группы: одна группа видит вариант A, а другая группа - вариант B. Затем собираются данные о поведении и реакции пользователей на каждый вариант. Сравнивая результаты двух групп, можно определить, какой вариант более успешный или эффективный.
А/В-тесты позволяют проводить эксперименты с минимальными рисками, так как изменения применяются только к выбранным группам пользователей. Они могут помочь в оптимизации веб-сайтов, улучшении пользовательского опыта, повышении конверсии и максимизации эффективности маркетинговых кампаний и продуктовых стратегий.
Данному типу тестирования уже много лет. Инструмент еще в начале 20 века применял математик Вильям Госсет на производстве пива Guinness. Он использовал в производстве продукции разные виды ячменя, чтобы определить наиболее лучшее сочетание, которое понравится потребителю больше всего.
Еще один пример — тестирование 41 оттенка синего в поисковой выдачи Google в начале 2000-х годов. Специалисты компании вывели гипотезу: существует оттенок синего, который воспринимается человеческим глазом лучше остальных и это может повысить кликабельность.
Технологические компании, такие как Google, Amazon, Facebook, Airbnb, Netflix выстроили непрерывный процесс экспериментирования. Количество экспериментов в единицу времени - поражает: Airbnb 700 проверяет гипотез в неделю, Uber, Amazon проверяют 1200 гипотез в неделю.
Как сделать дизайн АВ? - давайте разбираться.
Как сделать дизайн АВ
Дизайн АВ тестирования состоит из нескольких шагов:
Формулируем гипотезу.
Выбираем целевую, прокси и контр-метрики.
Определяем сегмент АВ теста.
Запускаем эксперимент.
Формулируем гипотезу
В основе любого A/B теста лежит проблема (ситуация), которую нам надо решить (разрешить) или некое поведение пользователя, которое нам нужно изменить или, наоборот, закрепить. Выявив проблему, продакт менеджер формулирует гипотезу — предположение, которое либо подтверждается, либо опровергается в результате эксперимента.
Для правильной оценки результатов выделяют два типа гипотез:
Нулевая. Изменения ни к чему не приведут, конверсия остается прежней (задача — опровергнуть гипотезу).
Альтернативная. Изменения приведут к повышению метрики до х%.
Если с нулевой все понятно, то альтернативную необходимо сформулировать по правилам:
Используем “Если мы сделаем…то это приведет…”.
Определяем целевую метрику и направление (рост / падение / на месте).
Примеры продуктовых гипотез из моей практики:
если мы сделаем таббар в мобильной веб. версии, то у нас увеличатся контакты с избранного на 10%.
если мы поменяем мотивацию о скачивании предложения на баннере, то увеличим конверсию в скачивание приложения на 15% .
если мы закроем в онбординге для новых пользователей барьер о том, что в продукте “не безопасно”, то увеличим конверсию в контакт на 5% .
Выбираем целевую, прокси и контр метрики
Целевая метрика — метрика, на которую вы намерены позитивно повлиять.
Целевая метрика должна быть:
простая, интерпретируемая.
стабильная.
Прокси метрика — это косвенная мера целевой метрики, с которой она сильно коррелирует.
Прокси метрика должна:
коррелировать с целевой.
быть чувствительной (то есть способна реагировать на изменения в продукте).
Контр метрики — те метрики, которые вы можете подвергнуть падению в вашем АВ тесте.
Чтобы подобрать контр-метрики, можно задать себе вопросы:
Что я могу упустить из вида, если буду смотреть только на целевые метрики?
С какими рисками мы можем столкнуться при оптимизации целевых метрик?
Если у вас есть трудности с определением метрик или проведением АВ тестов - приходите на менторство - пишите в telegram @product_kris.
Определяем сегмент АВ теста
Определение сегмента для А/В теста - это важный шаг, который может влиять на точность и репрезентативность результатов тестирования. Поэтому важно тщательно подходить к этому процессу.
Размер выборки для А/В тестирования можно рассчитать с помощью специальных калькуляторов, например
Некоторые из них:
Optimizely Sample Size Calculator: https://www.optimizely.com/sample-size-calculator/
VWO A/B Test Duration Calculator: https://vwo.com/ab-test-duration/
AB Testguide Sample Size Calculator: https://www.abtestguide.com/ab-test-sample-size-calculator/
AB Tasty Sample Size Calculator: https://www.abtasty.com/sample-size-calculator/
Evan Miller Sample Size Calculator: https://www.evanmiller.org/ab-testing/sample-size.html
В этих калькуляторах вы можете ввести значения уровня значимости, мощности теста, ожидаемого эффекта и стандартного отклонения, чтобы получить размер выборки для А/В тестирования.
Определяем важные нюансы
Определяем допустимый уровень значимости
Допустимый уровень значимости (α - Альфа) - это вероятность того, что мы ошибочно отклоняем нулевую гипотезу, то есть гипотезу о том, что между двумя группами не существует статистически значимых различий. Обычно допустимый уровень значимости для А/В тестирования составляет 0,05 (или 5%). Это означает, что если у нас есть статистически значимый результат с уровнем значимости 0,05, то вероятность того, что мы сделали ошибку и нулевая гипотеза на самом деле верна, составляет 5%.
Считаем Minimum Detectable Effect
MDE (Minimum Detectable Effect) - это минимальный обнаруживаемый эффект, т.е. минимальное изменение метрики, которое вы сможете обнаружить с заданной вероятностью и статистической значимостью в А/В тесте.
Считать MDE необходимо ДО эксперимента - чтобы понять заранее, сможем ли мы прокрасить метрику или нам не хватит объема аудитории.
Определяем продолжительность тестирования
Для получения достоверных результатов рекомендуется проводить тестирование минимум 7 дней. За 7 дней ваша аудитория проходит и будни и выходные дни и устраняется сезонность. Сезонность в данном случае, это когда аудитория может активнее использовать ваш продукт в выходные дни или, наоборот, в будние.
Запуск эксперимента
Несколько советов перед запуском:
За несколько дней необходимо уведомить customer support об эксперименте для того, чтобы они могли помочь пользователям, которые обращаются в поддержку.
Рекомендую:
уведомить заранее (минимум 1 неделя).
предоставить UX/UI наглядные иллюстрации типа “ДО/ПОСЛЕ”.
подготовить вопросы, которые могут возникнуть у пользователей и сразу предоставить ответ тех поддержке.
Чтобы понять, будут ли баги при полной раскатке на весх пользователей - раскатывайте изменения плавно на трафик. Сначала запустите изменения на 5% трафика => 10% трафика => 50% => 100%.
Поместите себя в группу
Продакт должен быть в курсе всего, что он делает. В некоторых компаниях продакт подключается на этапе тестирования, чтобы заранее понять как новый функционал будет на продакшене выглядеть.
После запуска - тестируйте самостоятельно, попробуйте выполнить разные кейсы с новым функционалом, это поможет вам в интерпретации результатов.
Расслабьтесь и наблюдайте
Не стоит в первый день анализировать результаты - данные могут быть не стат значимы.
Иногда на начальных этапах можно увидеть подтверждение альтернативной гипотезы. И в этом случае новички допускают ошибку: прекращают тестирование раньше намеченного срока. Да, сначала изменения могут положительно повлиять на ключевую метрику, но уже в конце эксперимента может быть выявлено реальное отсутствие эффекта (если вообще не отрицательный результат). Поэтому ждите строго до конца запланированного периода.
Или наоборот, видите негативный эффект ключевой метрики и завершаете АВ тест. В некоторых АВ тестах с сильными изменениями, такой как наш пример - необходимо больше времени, для получения реальной картины. В Авито, называют это “дождаться привыкания” - то есть +7/14 дней для того, чтобы посмотреть на поведение пользователей с новым UX.
Всех обобщенных нюансов здесь не написать, так как в вашей компании и для каждого теста есть свои особенности, узнать которые помогает лишь опыт.
Анализ результатов
Анализ результатов A/B-теста включает несколько этапов:
Проверка статистической значимости: необходимо убедиться, что различия между контрольной и тестовой группами не являются случайными. Для этого используются статистические тесты, такие как t-тест или z-тест. Если различия статистически значимы, то можно считать, что изменения, внесенные в тестовую группу, действительно влияют на показатели.
Анализ ключевых метрик: необходимо определить, какие метрики были затронуты изменениями в тестовой группе. Если изменения положительно повлияли на ключевые метрики (например, увеличили конверсию), то можно считать, что изменения успешны.
Анализ поведения пользователей: необходимо изучить, как пользователи взаимодействуют с продуктом после внесенных изменений. Если пользователи начали чаще использовать новые функции или продукт стал более удобным в использовании, то можно считать, что изменения были успешны.
Анализ побочных эффектов: необходимо изучить, как изменения повлияли на другие аспекты продукта или бизнеса. Например, изменения могут повлиять на время загрузки страницы или количество обращений в службу поддержки. Если изменения не вызвали негативных побочных эффектов, то можно считать, что они успешны.
Принятие решения
На основе результатов анализа необходимо принять решение о том, следует ли внедрять изменения в продукт или нет. Если изменения были успешны и не вызвали негативных побочных эффектов, то их можно внедрить. Если изменения не были успешны, то можно провести новый A/B-тест, чтобы определить, какие изменения могут быть более эффективными.
Важно помнить, что результаты A/B-теста могут быть различными в зависимости от выбора метрик, контрольной и тестовой групп, продолжительности тестирования и других факторов. Поэтому необходимо проводить A/B-тестирование с учетом всех этих факторов и применять наиболее подходящие методы анализа результатов.
Дополнительные вопросы про АВ тесты:
Какие ошибки самые популярные в АВ тестировании:
Наличие нереалистичной гипотезы.
Запуск слишком большого количества сравнений одновременно.
Тестирование с неправильными аудиториями (например, трафику из Google показывать 1 кнопку , трафику из Яндекса другую кнопку).
Запуск слишком короткий или слишком длинный.
Делитесь этой статьей с коллегами, друзьями и партнерами. Пишите отзывы - мне будет приятно получить от вас обратную связь.
Также хочу порекомендовать вам бесплатный вебинар "Лайфхаки трудоустройства продакт-менеджера". Вы узнаете как оформить резюме и выбирать вакансии, как подготовиться к интервью. Поймете, как правильно оформить резюме и сопроводительное письмо, узнаете, как готовиться к интервью и увидите разборы резюме.
Подписывайтесь на меня в других соц.сетях и получайте больше пользы: