Привет, хабровчане. Уже завтра мы запускаем курс «Product Manager IT-проектов». В преддверии старта курса спешим поделиться с вами опытом наших действующих преподавателей.
Один из самых популярных инструментов продакт-менеджера — A/B-тесты, и именно этой теме был посвящён очередной вебинар в OTUS. В нём приняли участие сразу три специалиста:
Сергей Колосков — Product Manager в OZON.
Александр Поваров — Product Manager в TransferWise.
Андрей Менде — Product Owner в Booking.com.
Дискуссия получилась содержательной и жаркой. Обсудили:
Что интересно — действительно сошлись во мнениях по поводу границ применения А/В-тестов. Но давайте обо всём по порядку.
A/B-тестирование — известный метод маркетингового исследования. Если говорить о нём простыми словами, то мы делим аудиторию на сайте на какие-то равные или неравные когорты и выполняем на сайте одно изменение/улучшение, в результате чего выясняем, какая из страниц более эффективно решает задачи бизнеса и продукта в целом. Проверяем в рамках одного теста не более одной гипотезы (максимум — двух).
Реальный пример A/B-теста на OZON:
В этом примере мы выкатили кнопку покупки в один клик для некоторых категорий товаров. По ходу эксперимента просматривали метрики и воронки, проверяя гипотезу о том, будет ли лучше пользователям использовать сценарий в один клик, не «проваливаясь» в «Корзину», т. е. не делая лишних телодвижений. Категории товаров были выбраны неслучайно — речь шла о продукции, которая по статистике чаще всего покупается именно одним товаром.
Как правило, в процессе A/B-тестирования мы смотрим метрики, среди которых:
Вот реальный дашбоард в OZON для наглядности:
Обратите внимание, что есть возможность настройки сегментов, что также важно для A/B-тестирования, ведь мы можем увидеть, на какую аудиторию влияет конкретное улучшение. Допустим, это могут быть пользователи из Москвы в возрасте от 35 до 50 лет со средним чеком более 2500 рублей и ребёнком в семье.
По мнению Андрея Менде, внутри Booking.com существует твёрдая уверенность в том, что своего успеха компания достигла за счёт тестирования. Сюда относятся и A/B-тесты, без которых сейчас в Booking.com не делается почти ничего. Количество одновременно доступных версий сайта Booking.com очень велико, а A/B-тесты здесь проводятся разные, причём тестируется практически всё, что касается продукта, и любые изменения вносятся лишь после A/B-тестов. К слову, такой подход помог избежать очень многих глупостей.
Но есть и другая сторона медали: долгосрочная статистика Booking.com говорит о том, что 90 % гипотез проваливаются по результатам теста. И это на самом деле хорошо, так как позволяет быть уверенным в оставшихся 10 %. Однако не стоит пробовать все гипотезы подряд, играя в своеобразную лотерею, т. к. вы тратите на разработку и проверку любой гипотезы и время, и деньги.
Разберем любопытный кейс: допустим, на сайте есть поиск списком и поиск по картам. Согласно статистике, у пользователей, которые ищут по карте, конверсия выше. Это заметил «умный» продакт, чем не преминул воспользоваться. Он начал отправлять посетителей на карты самыми разными способами, иногда даже коварными. Например, пользователи приходят с поиска — оказываются на карте, что-нибудь сравнивают, — опять же, услужливо высвечивается кнопка «Показать на карте» и т. п. На нововведение было потрачено много времени, но результат оказался нулевой. И если пользователь не приходил на карты по своей инициативе, ничего не работало. Очень часто становится хуже, никогда не становится лучше. А всё потому, что перед нами прекрасный пример Selection bias (смещённой выборки):
Тут можно вспомнить известную историю про самолёты, одни из которых вернулись на базу, а другие нет. Пробоины на их корпусе изучались, чтобы понять, где нужно больше брони. Речь идёт о так называемой систематической ошибке отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») данных практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».
Схожая ситуация и у нас: мы изучали людей, которые дошли до этапа бронирования на Booking.com через карты, но не изучали людей, которые не дошли до этого этапа. В результате были сделаны ложные выводы.
Идём дальше. Чем же супер полезна культура, в которой A/B-тесты играют важную роль:
Плюсы A/B-тестов очевидны:
По мнению Александра Поварова, успех Booking.com — это, конечно, похвально. Но если мы говорим о качественных тестах, они потребуют большого количества данных. У Booking.com — огромная аудитория и возможность экспериментировать со многими вещами одновременно. Если же мы говорим про какой-нибудь средний проект, то очень часто в таких проектах данных и трафика недостаточно. Если же трафика выше крыши, то и это не панацея, ведь пользователь может приходить к вам на сайт для решения разных юз-кейсов, что связано со спецификой продукта. Если это интернет-банк, то кто-то приходит заплатить за телефон, а кто-то посмотреть выписку. И так далее. Кроме того, зачастую вы тестируете одним A/B-тестом всего лишь одно действие пользователя.
Если сделать краткий вывод, то у A/B-тестирования есть следующие ограничения:
Следующий момент — A/B-тестирование не даёт кратного роста:
Если речь идёт про сложный продукт, то играя с A/B-тестами, вы вполне вероятно зацепите соседние воронки, и конверсия на них может упасть. Самый банальный пример — когда на промо-странице большого сервиса продаётся сразу несколько фичей. Подсвечивая одну, обязательно просядет конверсия в другие. Но даже если всё пройдёт отлично, у вас начнётся история взаимодействия с пользователем, который ежедневно пользуется вашим продуктом и на это всё конверсия, которую вы как-то улучшили, вообще никак не влияет.
Таким образом, как считает Александр Поваров, ресурс продакт-менеджеров лучше использовать, чтобы растить продукт кратно. В идеале следует искать такие точки роста продукта, которые помогут вырасти в десятки процентов.
На что можно направлять свою энергию:
Можно с уверенностью сказать, что продуктовая фича в разы лучше оптимизации лендинга. Например, в Яндекс.Деньги запустили цветные пластиковые карты, причём очень классные и с одним прозрачным слоем. Их просто выкатили, а люди отреагировали высоким спросом, т. к. банально захотели себе такие карты. И никакого A/B-теста не надо. То есть воронка выпуска подросла и находится теперь на значительно более высоком уровне, причём сам продукт как финансовый сервис вообще не поменялся!
Да, не каждая продуктовая фича даст прирост в десятки процентов. С другой стороны, никакое улучшение в рамках A/B тестирования не даст кратного роста.
И ещё один момент: новая аудитория даст больше, чем улучшение конверсии. Для наилучшего понимания этого момента давайте приведём пример реального кейса для компании TransferWise:
На картинке выше мы видим форму оплаты, к которой у опытного продакт-менеджера могут возникнуть вопросы. И, скорее всего, он будет прав, ведь с помощью A/B-тестов, можно в течение нескольких итераций сделать эту форму более приятной и даже повысить конверсию, скажем, спустя полгода.
Однако в компании TransferWise пошли по пути поиска точек роста продукта. Ниже представлен график, где зафиксирован показатель MNU — число присоединившихся новых пользователей:
В чём причина роста? Дело в том, что компания занимается денежными переводами, а для одной из стран поддержка оплаты картами отсутствовала, но трафик оттуда наблюдался. Добавив возможность поддержки карт для этой страны, получили больше инсайтов и повысили активную пользовательскую базу. А наша далеко не оптимальная форма оплаты так и осталось неоптимальной. Да и вообще, мы бы никогда не добились такого роста, затратив полгода времени на оптимизацию формы оплаты.
Это ещё раз говорит о том, что не менее важно концентрироваться на сущностном росте продукта, то есть на вещах, которые меняют ваш продукт, принося новых пользователей.
После того, как преподаватели выступили, настало время оживлённой дискуссии, которую лучше смотреть вживую. Мы же сразу подведём её итог.
Особенности и границы применения А/В-тестов:
При этом, безусловно, сплит-тестирование — это самый прозрачный ответ на любой вопрос и возможность не прибегать к интуиции и не думать за пользователя. Кроме того, А/В-тесты — это и хороший друг, на базе которого можно получать инсайты для имеющихся продуктов. А ещё, благодаря A/B-тесту улучшаются продуктовые метрики и NPS, поэтому тесты рекомендуется использовать всегда, если это недорого, и если мы ищем точки роста на существующих продуктах. Но всё же A/B-тесты — это скорее про выжимание максимума из текущей бизнес-модели и продукта.
А где же искать рост продукта и бизнеса (Сергей Колосков)?
Он в CustDev’е, анализе конкурентов (посредством того же Similar Web), аналитике своего продукта (при анализе ключевых воронок и сопутствующих метрик, где ищутся и находятся инсайты), аналитике рынка и проектировании пользовательских сценариев (CJM, где видно, что радует, а что огорчает пользователя).
К примеру, одно из элегантных решений, принятых когда-то в OZON после анализа конкурентов и проведения сессий интервью и проектирования пользовательских сценариев, — Trade-in на технику. Идея не нова, но дает новые точки роста бизнеса. И в самом деле, что делать, если ваша девушка захотела новый айфон, тогда как предыдущая версия, купленная, кстати, тоже за ваши кровные, ещё не покрылась пылью? Выход прост — получить существенную скидку на новый айфон, отдав взамен старый. Для этого даже из дома выходить не потребуется:
Именно продукты, дающие рост бизнесу, становятся базой труда продакт-менеджера. Именно работа, которая приносит деньги компании, должна быть у продакта первым приоритетом. Про это нужно помнить всегда.
Пожалуй, на этой позитивной ноте и закончим. Если тема интересна, смотрите видео полностью. Заодно, увидите дополнительные кейсы и прочие подробности.
И до встречи на курсе!
Один из самых популярных инструментов продакт-менеджера — A/B-тесты, и именно этой теме был посвящён очередной вебинар в OTUS. В нём приняли участие сразу три специалиста:
Сергей Колосков — Product Manager в OZON.
Александр Поваров — Product Manager в TransferWise.
Андрей Менде — Product Owner в Booking.com.
Дискуссия получилась содержательной и жаркой. Обсудили:
- в каких случаях лучше всего применять A/B-тесты?
- как определять метрики и правильно интерпретировать результаты?
- как можно навредить A/B-тестами?
- какие могут быть альтернативы А/В-тестов?
- чем лучше проводить тестирование?
- кейсы финтеха, e-commerce и маркетплейсов.
Что интересно — действительно сошлись во мнениях по поводу границ применения А/В-тестов. Но давайте обо всём по порядку.
Что такое A/B тесты?
A/B-тестирование — известный метод маркетингового исследования. Если говорить о нём простыми словами, то мы делим аудиторию на сайте на какие-то равные или неравные когорты и выполняем на сайте одно изменение/улучшение, в результате чего выясняем, какая из страниц более эффективно решает задачи бизнеса и продукта в целом. Проверяем в рамках одного теста не более одной гипотезы (максимум — двух).
Реальный пример A/B-теста на OZON:
В этом примере мы выкатили кнопку покупки в один клик для некоторых категорий товаров. По ходу эксперимента просматривали метрики и воронки, проверяя гипотезу о том, будет ли лучше пользователям использовать сценарий в один клик, не «проваливаясь» в «Корзину», т. е. не делая лишних телодвижений. Категории товаров были выбраны неслучайно — речь шла о продукции, которая по статистике чаще всего покупается именно одним товаром.
Как правило, в процессе A/B-тестирования мы смотрим метрики, среди которых:
- конверсии (доля совершивших ключевые действия);
- финансовые показатели (рост GMV, выручки, среднего чека);
- поведенческие метрики (клики, переходы).
Вот реальный дашбоард в OZON для наглядности:
Обратите внимание, что есть возможность настройки сегментов, что также важно для A/B-тестирования, ведь мы можем увидеть, на какую аудиторию влияет конкретное улучшение. Допустим, это могут быть пользователи из Москвы в возрасте от 35 до 50 лет со средним чеком более 2500 рублей и ребёнком в семье.
Использование A/B-тестов в Booking.com (Андрей Менде)
По мнению Андрея Менде, внутри Booking.com существует твёрдая уверенность в том, что своего успеха компания достигла за счёт тестирования. Сюда относятся и A/B-тесты, без которых сейчас в Booking.com не делается почти ничего. Количество одновременно доступных версий сайта Booking.com очень велико, а A/B-тесты здесь проводятся разные, причём тестируется практически всё, что касается продукта, и любые изменения вносятся лишь после A/B-тестов. К слову, такой подход помог избежать очень многих глупостей.
Но есть и другая сторона медали: долгосрочная статистика Booking.com говорит о том, что 90 % гипотез проваливаются по результатам теста. И это на самом деле хорошо, так как позволяет быть уверенным в оставшихся 10 %. Однако не стоит пробовать все гипотезы подряд, играя в своеобразную лотерею, т. к. вы тратите на разработку и проверку любой гипотезы и время, и деньги.
Разберем любопытный кейс: допустим, на сайте есть поиск списком и поиск по картам. Согласно статистике, у пользователей, которые ищут по карте, конверсия выше. Это заметил «умный» продакт, чем не преминул воспользоваться. Он начал отправлять посетителей на карты самыми разными способами, иногда даже коварными. Например, пользователи приходят с поиска — оказываются на карте, что-нибудь сравнивают, — опять же, услужливо высвечивается кнопка «Показать на карте» и т. п. На нововведение было потрачено много времени, но результат оказался нулевой. И если пользователь не приходил на карты по своей инициативе, ничего не работало. Очень часто становится хуже, никогда не становится лучше. А всё потому, что перед нами прекрасный пример Selection bias (смещённой выборки):
Тут можно вспомнить известную историю про самолёты, одни из которых вернулись на базу, а другие нет. Пробоины на их корпусе изучались, чтобы понять, где нужно больше брони. Речь идёт о так называемой систематической ошибке отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») данных практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».
Схожая ситуация и у нас: мы изучали людей, которые дошли до этапа бронирования на Booking.com через карты, но не изучали людей, которые не дошли до этого этапа. В результате были сделаны ложные выводы.
Идём дальше. Чем же супер полезна культура, в которой A/B-тесты играют важную роль:
Плюсы A/B-тестов очевидны:
- Во-первых, тестируется очень много всего и есть соответствующая база знаний. Если вам приходит «гениальная» идея, вы можете за 15 секунд узнать, что ваша гениальная идея, оказывается, уже приходила в голову одному из продактов года два назад, причём он её успел проверить, и она провалилась с треском. Как тут не вспомнить классиков:
«Слушайте, что я накропал вчера ночью при колеблющемся свете электрической лампы: «Я помню чудное мгновенье, передо мной явилась ты, как мимолетное виденье, как гений чистой красоты». Правда, хорошо? Талантливо? И только на рассвете, когда дописаны были последние строки, я вспомнил, что этот стих уже написал А. Пушкин. Такой удар со стороны классика! А?»
Цитата Остапа Бендера из романа «Золотой телёнок», И. Ильф, Е. Петров - Во-вторых, в такой культуре комфортно работать, т. к. почти нет соревнования мнений. Решения по продукту, что называется, выкристаллизовываются, в том числе и путём тестирования. И не важно, кто ты, сеньор или джуниор — пока у тебя нет хорошего теста, никакое изменение ты никуда не выкатишь.
- В-третьих, сейчас очень популярно машинное обучение и умные машинные алгоритмы. А Machine learning и A/B-тесты — это просто гремучая смесь, которая будет определять развитие продукта в самом ближайшем будущем.
Иной взгляд на A/B-тесты от стартапов (Александр Поваров)
По мнению Александра Поварова, успех Booking.com — это, конечно, похвально. Но если мы говорим о качественных тестах, они потребуют большого количества данных. У Booking.com — огромная аудитория и возможность экспериментировать со многими вещами одновременно. Если же мы говорим про какой-нибудь средний проект, то очень часто в таких проектах данных и трафика недостаточно. Если же трафика выше крыши, то и это не панацея, ведь пользователь может приходить к вам на сайт для решения разных юз-кейсов, что связано со спецификой продукта. Если это интернет-банк, то кто-то приходит заплатить за телефон, а кто-то посмотреть выписку. И так далее. Кроме того, зачастую вы тестируете одним A/B-тестом всего лишь одно действие пользователя.
Если сделать краткий вывод, то у A/B-тестирования есть следующие ограничения:
- требуют большого количества данных;
- подходят только для однородных юз-кейсов;
- направлены на один шаг (клик).
Следующий момент — A/B-тестирование не даёт кратного роста:
- прирост конверсии 1 пп (например, 1 % → 2 %);
- даже за 30 итераций не вырасти 1 % → 31 %;
- вероятно, ухудшатся соседние воронки;
- конверсия улучшится, но на одном шаге.
Если речь идёт про сложный продукт, то играя с A/B-тестами, вы вполне вероятно зацепите соседние воронки, и конверсия на них может упасть. Самый банальный пример — когда на промо-странице большого сервиса продаётся сразу несколько фичей. Подсвечивая одну, обязательно просядет конверсия в другие. Но даже если всё пройдёт отлично, у вас начнётся история взаимодействия с пользователем, который ежедневно пользуется вашим продуктом и на это всё конверсия, которую вы как-то улучшили, вообще никак не влияет.
Таким образом, как считает Александр Поваров, ресурс продакт-менеджеров лучше использовать, чтобы растить продукт кратно. В идеале следует искать такие точки роста продукта, которые помогут вырасти в десятки процентов.
На что можно направлять свою энергию:
- улучшение пользовательского опыта;
- создание дополнительной ценности;
- улучшение юнит-экономики;
- поиск новых продуктов/бизнес-моделей.
Можно с уверенностью сказать, что продуктовая фича в разы лучше оптимизации лендинга. Например, в Яндекс.Деньги запустили цветные пластиковые карты, причём очень классные и с одним прозрачным слоем. Их просто выкатили, а люди отреагировали высоким спросом, т. к. банально захотели себе такие карты. И никакого A/B-теста не надо. То есть воронка выпуска подросла и находится теперь на значительно более высоком уровне, причём сам продукт как финансовый сервис вообще не поменялся!
Да, не каждая продуктовая фича даст прирост в десятки процентов. С другой стороны, никакое улучшение в рамках A/B тестирования не даст кратного роста.
И ещё один момент: новая аудитория даст больше, чем улучшение конверсии. Для наилучшего понимания этого момента давайте приведём пример реального кейса для компании TransferWise:
На картинке выше мы видим форму оплаты, к которой у опытного продакт-менеджера могут возникнуть вопросы. И, скорее всего, он будет прав, ведь с помощью A/B-тестов, можно в течение нескольких итераций сделать эту форму более приятной и даже повысить конверсию, скажем, спустя полгода.
Однако в компании TransferWise пошли по пути поиска точек роста продукта. Ниже представлен график, где зафиксирован показатель MNU — число присоединившихся новых пользователей:
В чём причина роста? Дело в том, что компания занимается денежными переводами, а для одной из стран поддержка оплаты картами отсутствовала, но трафик оттуда наблюдался. Добавив возможность поддержки карт для этой страны, получили больше инсайтов и повысили активную пользовательскую базу. А наша далеко не оптимальная форма оплаты так и осталось неоптимальной. Да и вообще, мы бы никогда не добились такого роста, затратив полгода времени на оптимизацию формы оплаты.
Это ещё раз говорит о том, что не менее важно концентрироваться на сущностном росте продукта, то есть на вещах, которые меняют ваш продукт, принося новых пользователей.
Так нужны A/B-тесты или нет?
После того, как преподаватели выступили, настало время оживлённой дискуссии, которую лучше смотреть вживую. Мы же сразу подведём её итог.
Особенности и границы применения А/В-тестов:
- большая аудитория (DAU, MAU);
- не более одной (максимум двух) гипотез в проверке;
- продуктовый успех в 10 % тестов на уровне роста одного процентного пункта и отсутствие результата в 90 % тестов;
- ограниченность влияния на бизнес-метрики этих самых гипотез;
- неприменимость для В2В-продуктов и ограниченная применимость для финтех-продуктов (где каждый клик на счету).
При этом, безусловно, сплит-тестирование — это самый прозрачный ответ на любой вопрос и возможность не прибегать к интуиции и не думать за пользователя. Кроме того, А/В-тесты — это и хороший друг, на базе которого можно получать инсайты для имеющихся продуктов. А ещё, благодаря A/B-тесту улучшаются продуктовые метрики и NPS, поэтому тесты рекомендуется использовать всегда, если это недорого, и если мы ищем точки роста на существующих продуктах. Но всё же A/B-тесты — это скорее про выжимание максимума из текущей бизнес-модели и продукта.
А где же искать рост продукта и бизнеса (Сергей Колосков)?
Он в CustDev’е, анализе конкурентов (посредством того же Similar Web), аналитике своего продукта (при анализе ключевых воронок и сопутствующих метрик, где ищутся и находятся инсайты), аналитике рынка и проектировании пользовательских сценариев (CJM, где видно, что радует, а что огорчает пользователя).
К примеру, одно из элегантных решений, принятых когда-то в OZON после анализа конкурентов и проведения сессий интервью и проектирования пользовательских сценариев, — Trade-in на технику. Идея не нова, но дает новые точки роста бизнеса. И в самом деле, что делать, если ваша девушка захотела новый айфон, тогда как предыдущая версия, купленная, кстати, тоже за ваши кровные, ещё не покрылась пылью? Выход прост — получить существенную скидку на новый айфон, отдав взамен старый. Для этого даже из дома выходить не потребуется:
Именно продукты, дающие рост бизнесу, становятся базой труда продакт-менеджера. Именно работа, которая приносит деньги компании, должна быть у продакта первым приоритетом. Про это нужно помнить всегда.
Пожалуй, на этой позитивной ноте и закончим. Если тема интересна, смотрите видео полностью. Заодно, увидите дополнительные кейсы и прочие подробности.
И до встречи на курсе!