А/В-тесты не работают. Проверьте, что вы делаете не так / Хабр

Про А/В-тесты не слышали, наверное, только самые зеленые маркетологи и продакт-менеджеры, но как их проводить и что делать с результатами — иногда не знают даже опытные специалисты. Именно из-за этого можно часто услышать, что А/В-тестирование не работает и в целом бесполезно.

Чтобы развеять слухи, мы поговорили с практиком А/В-аналитики из агентства Agima Сергеем Филатовым, и он рассказал нам о работающих методологиях А/В-тестирования, инструментах, которые помогают провести тесты для мобильного приложения, и о перспективах, которые открывает овладение этим пулом умений и навыков.

А/В-тесты — это вообще-то любое исследование, посвященное тому, чтобы выбрать лучший вариант из нескольких. Штука в том, что термин очень широк: это и тесты у маркетологов, и тип анализа цифровых продуктов. Это часто вызывает путаницу, когда видишь кейс, что «компания провела А/В-тестирование», и надо разбираться какое — общее или все же техническое. Мы будем говорить именно об А/В-тестах для оценки функционала мобильных приложений. (Впрочем, эти знания можно будет легко перенести и в сферу маркетинговых исследований.)

Этот материал — часть серии, подготовленной к запуску совместного курса онлайн-университета Skillbox и агентства Agima, «Fullstack мобильный разработчик». Мы уже рассказали, как с первого раза попасть в AppStore, и про то, как разрабатывать интерфейсы приложений, в процессе раздав несколько десятипроцентных скидок и четыре скидки в 20%.

Тем, кто уже разгадал два ребуса и хочет еще (чтобы нарастить суммирующуюся скидку), сегодня достанется загадка про инструмент тестирования. Ищите ее в тексте! А остальные хаброюзеры всё так же могут заказать любой курс на 10 000 рублей дешевле, использовав промокод «Хабр» (напомним, что со скидками, которые дают разгаданные ребусы, это не суммируется).

А/В-тестирование обычно воспринимают как аналитический инструмент, который позволяет оценить влияние изменений продукта на его конверсию — увеличение количества лидов, переходящих в заказы. Конверсия здесь не обязательно покупка чего-либо: это и любой переход пользователя с одного этапа на другой по мере прохождения им воронки заказа, и каждое его взаимодействие с формами и элементами сервиса на этом пути.

А/В-тест нужен для того, чтобы:

выбрать из нескольких вариантов экрана или страницы лучший;
оценить возможности изменения тех или иных показателей вашего продукта;
вычислить результативность замены тех или иных элементов на странице или экране;
понять, как повысить конверсию на каждом этапе воронки продаж, а следовательно, увеличить их количество;
внутри мобильного приложения А/В-тесты дают возможность улучшить пользовательский опыт, позволив удобнее расположить элементы и сделать контент интереснее и полезнее для пользователя.

Постановка задачи

Любой А/В-тест начинается с гипотезы. Они бывают двух видов. Первые — более маркетинговые, нацеленные на увеличение трафика, количества людей, совершающих то или иное действие и уточнение того, на какую аудиторию ориентировано приложение. В данном случае тестируются не столько функционал самого приложения, сколько маркетинговые каналы и конверсии с каждого рекламного инструмента. Мы же сосредоточимся на втором типе гипотез.

Он заключается в том, что, изменив тот или иной внутренний функционал — элемент или блок, связь между ними или логику их взаимодействия, — мы можем добиться изменения определенных показателей работы приложения (впрочем, всё это применимо и к сайтам).

Эти гипотезы могут касаться либо элементов, которые располагаются на экранах сервиса, либо связей экранов внутри него. К сожалению, тестирование связей между экранами технически проблематично из за трудностей настройки теста, поэтому обычно аналитик ограничивается работой над конкретными блоками и отдельными экранами.

Суть А/В-тестирования в этом случае заключается в том, что одной группе пользователей демонстрируется один вариант расположения или конфигурации интерфейса, а второй — другой.

А вот и ребус! Напомним, что английский здесь может мешаться с русским, а тематика загадки — мобайл. И не забывайте, что мы будем тщательно следить за комментариями и удалять из них подсказки и ответы! Промослово, зашифрованное в ребусе, следует назвать, когда с вами свяжется наш менеджер после того, как вы отправите заявку на курс. Скидки за разгаданные ребусы суммируются между собо�� (с учетом этой статьи их уже три), но не со скидками на сайте. Слишком медлить не стоит — промо работает до 30 августа 2018 года.

От желаемого результата до поиска решений

У гипотез этого вида есть одно общее правило: на старте задается определенный конечный показатель, который мы хотим увеличить или уменьшить. Гипотезы могут формулироваться на основании отчетов и другой подобной аналитической информации, но часто они делаются без специальной подготовки, на основании эвристических предположений разработчиков.

Мы начинаем с того, что формулируем проблему, которую хотим решить: низкую конверсию, маленькое количество кликов по тому или иному элементу, отсутствие свайпов или доскроллов.

Затем мы выбираем конкретные действия, которые потенциально могут привести к желаемому результату. Это может быть добавление новых кнопок, смена расположения блоков на экране или, например, изменение организации меню с «бургера» слева на нижний сайд-бар, как это сделано в Instagram.

Пример того, как оценивается эффективность тестируемых изменений в приложении Optimizely.

То есть мы начинаем придумывать различные способы влияния на ключевой показатель. Так гипотеза приобретает законченный вид.

Обязательные составляющие гипотезы:

формула «если — то»;

глагол — он описывает действие, которое мы совершаем по отношению к выбранному элементу;

описание ожидаемого результата.

«Если мы увеличим размер размер шрифта и перекрасим кнопку в зеленый, то конверсия вырастет на 15%».

Качество превращается в количество

С помощью А/В-тестов можно проводить два вида исследований: качественные и количественные.

Качественные исследования нацелены на работу с эмоциональным опытом человека, на то, чтобы узнать, нравится ли ему решение, которое мы применяем: удобно ли оно для восприятия, влияет на время взаимодействия или нет. Такие тесты ориентированы на то, чтобы разобраться, какие чувства вызывает у пользователя работа с приложением или сервисом.

Количественные исследования направлены на то, чтобы увеличить определенную цифру в целевом показателе: объем кликов по кнопке, подсказки для роста вероятности продажи и прочее. Это сухой подсчет переходов, трафика, продаж, движения по воронке.

Все показатели, которые нужно узнать, должны быть переведены в числовые метрики. Например вопрос «интересен ли пользователю контент» превращается в показатели количества времени, проведенного на экране, глубины скроллинга, клика по определенному ключевому элементу.

Важно! Соблюдайте правило: один экран — один эксперимент. Не проверяйте две гипотезы, связанные с элементами на одном экране одновременно. Тем более — две гипотезы, связанные с одним элементом, иначе вы не сможете разобраться с результатами (если в описании гипотезы значится «поменять два элемента местами» — это одно действие).

Типы А/В-тестов и глубина исследования

Мультивариативные тесты предполагают комбинирование нескольких вариантов. Например, у нас есть блок, который состоит из кнопки и призыва к действию. В таком случае можно сформировать все возможные виды этой кнопки с разными призывами. Но важно помнить, что такие тесты подходят только для крупных приложений с большим объемом трафика.

Сплит-тесты — это тестирование целых экранов, для того чтобы понять, какой из них вызывает больший отклик. Например, вы можете сравнивать разные варианты стартового экрана-туториала, чтобы понять, читают ли пользователи подготовленные вами советы или пропускают их, переходя сразу к функционалу приложения.

В рамках обычного поэлементного А/В-теста можно оценивать хэдеры, ссылки, расположение меню, качество призывов к действию, наличие и эффективность тех или иных функциональных или текстовых блоков и иллюстраций, взаимодействие пользователя с приложением в зависимости от устройства и попавшего к нему при тесте варианта адаптивной версии приложения.

Бывают тесты А/В/С/N, в рамках которых мы не обязательно выбираем только из двух вариантов. Они тоже подходят не всем сервисам: для их проведения нужен большой трафик, иначе тест просто не пройдет порог статистической достоверности. Чтобы мы могли быть уверены в том, что изменение ключевого показателя не было случайным, на экране должно побывать достаточно пользователей.

Для небольшого проекта, который при тестировании предлагает только варианты А и В, вполне может быть достаточно тысячи человек, совершивших действие. Для крупных их число может быть гораздо больше.

Обычные сроки эксперимента — от двух недель до полутора месяцев. Это нужно для того, чтобы удостовериться, что на его ход не повлияли никакие внешние факторы: например, рекламные кампании, погодные условия или что-то еще. (Погода здесь — это не только про настроение пользователей, но и про то, что, например, для приложений по доставке важно учитывать, идет сейчас дождь или нет — это влияет на конверсию).

Если же ваш продукт (или конкретный тестируемый элемент в нем) никак не зависит от погодных условий, моды или маркетинговой активности конкурентов, то выводы о целесообразности изменений можно сделать уже из действий первой тысячи пользователей. После сбора данных вы можете приступать к их интерпретации и внедрению изменений, которые оказались оправданными.

Инструменты А/В-тестирования

На сайтах эксперименты проводить куда проще благодаря гибкости их настройки из панелей управления но, к счастью, для мобайла существует несколько решений, которые зарекомендовали себя в качестве best practices.

Optimizely — один из самых популярных инструментов. Он обладает интуитивным и приятным интерфейсом, визуальным редактором и широкой интеграцией с классами, имеет встроенные возможности редактирования функционала элементов и навешивания прикреплением к ним новых событий. Однако сервис доступен далеко не всем разработчикам из-за высокой цены.

Five Second Test более релевантен для проведения юзабилити-исследований и изучения эффективност�� и понятности дизайна конкретных блоков и элементов.

Convert Experiments — самая доступная из платформ, стоимость подписки на сервис начинается от $9 за месяц. При этом в ней есть визуальный редактор, позволяющий тестировщику работать с элементами, не обладая навыками программиста. Здесь меньше доступных метрик и не такая продвинутая внутренняя аналитика, но для того, чтобы быстро настроить А/В-тест и запустить его, программа вполне подходит.

Apptimize обладает более расширенной системой внутренней аналитики и SDK, который достаточно просто освоить. В наличии есть и визуальный редактор.

Google Analytics Experiments ориентирован на мобильные приложения, созданные на базе web-технологий, и на гибридные приложения.

А/В-тесты и обновление приложений

Буквально несколько лет назад для запуска А/В-тестов не нужно было публиковать обновленную версию приложения: изменения вносились «на лету», путем внедрения в код определенных сниппетов. Однако из за того, что такой подход позволял обойти политику безопасности и ограничения Apple и Google, эта возможность была закрыта для разработчиков. Сегодня для проведения А/В-теста вам понадобится выкатить обновленную версию своего приложения.

Чему учиться и куда расти

Для проведения А/В-тестирования не обязательно быть крутым аналитиком — достаточно понимать показатели и делать на их основе правильные выводы.

Один из главных навыков специалиста, проводящего А/В-тесты, — способность интерпретировать количественные показатели в качественные и, наоборот, декомпозировать качественные гипотезы в цифры, доступные для анализа.

Начинающим специалистам стоит глубже познакомиться с правилами продуктовой аналитики, поскольку ее практики ближе к А/В-тестированию, чем то, что используется в web-аналитике и e-commerce.

Полезно изучить гибкие методологии, в частности line startup. Для тестировщика продукт становится его «внутренним стартапом». А значит, такие решения хорошо ему подойдут. Много полезной информации о проведении исследований можно получить, посещая бизнес-инкубаторы и их мероприятия; к тому же это сильный источник вдохновения. Там же можно вживую увидеть множество вариантов А/В-тестов — как автоматических, так и таких традиционных, как опросы и глубинные интервью.

Конечно же, необходимы и навыки работы с цифрами — от проведения социологических опросов до опыта в прикладной математике и информатике. Без этого у вас возникнут проблемы с обработкой результатов тестов.

Все эти навыки позволят со временем, если возникнет желание, двинуться в сторону работы в маркетинге в качестве стратега, UI/UX-аналитике или к позиции product owner’а и даже к созданию собственного проекта. Везде, где возникают сомнения, где непонятно, куда идти, где нужно разведать почву, прощупать аудиторию и ее настроения, — во всех этих областях знания, приобретенные в ходе А/В-тестирований, смогут найти применение.

Так что, научившись проходить путь от сбора предварительных данных к гипотезе, разработке вариантов решений и их проверке с последующим анализом — что, по сути, и скрывается за коротким термином «А/В-тестирование», — вы сможете открыть для себя куда больше перспектив, чем просто развитие в роли QA или аналитика.

Skillbox рекомендует тематические курсы:

Мобильный разработчик с нуля

Дизайн мобильных приложений (feat. Redmadrobot!)

UX-дизайн

Напоминаем: Для всех читателей Хабра — скидка 10 000 рублей при записи на любой курс Skillbox по промокоду «Хабр».

Впереди еще несколько материалов из нашей серии по мобильной разработке, и пришла пора спросить: а что вы хотели бы прочитать? Расскажите в комментах, какие темы, связанные с мобайлом, кажутся вам важными, но недостаточно раскрытыми, а мы постараемся удовлетворить ваш интерес.

А/В-тесты не работают. Проверьте, что вы делаете не так