Photo by Brooke Cagle on Unsplash
Вы читаете третью статью из серии «Дизайнер и метрики». В первой мы поразмышляли, нужны ли продуктовому дизайнеру метрики, а во второй посмотрели, какие вообще бывают метрики. Если вы ещё не читали эти статьи, то советую начать с них.
В этой статье речь пойдет о том, как ответить на вопрос, улучшили мы продукт или нет.
Дни после релиза
После раскатки нового функционала каждый дизайнер спрашивает себя: что изменилось? Удалось ли нам улучшить продукт?
Чтобы ответить на эти вопросы, нужно посмотреть, как изменились метрики после релиза функционала. Ведь зачастую результат работы дизайнера — это разница между метриками до релиза нового функционала и после него.
На первый взгляд кажется, что сравнить эти метрики очень просто: посмотрел на цифры до релиза и после, сравнил одно с другим, и если стало лучше — значит, все было не зря, а если хуже, то все надо переделывать.
Но такой подход часто ведет к ошибкам — поэтому прежде чем прыгать к выводам, нужно обратиться к математике и немного посчитать.
Как сравнить метрики «до» и «после»
Реальное значение метрики против замеренной
У каждой метрики есть её реальное значение — назовем его R (реальное), — а есть значение, которое мы получили через замеры — Z (замеренное).
И первое, с чем нам надо справиться это понять, что R ≠ Z.
Разберемся на примере
Допустим, перед нами стоит вопрос, сколько в России людей, которые работают в силовых структурах. Вариант загуглить и узнать — не наш выбор в этой статье.
Допустим, теоретически мы могли бы опросить каждого человека в России, силовик он или нет, и получить реальное значение, то есть R.
Но поскольку практически это невозможно, мы опрашиваем столько людей, сколько смогли найти — допустим, 300 человек (выборку формируем по науке), и потом просто экстраполируем эти данные на всю Россию.
Так мы получаем Z, то есть замеренную метрику. Думаю, теперь стало понятно, что почти всегда Z ≠ R.
Как из замеренной метрики получить реальную?
На этот вопрос как раз и отвечает математика. С помощью математической формулы мы можем получить промежуток значений, в котором находится R.
Вернемся к примеру с силовиками. Предположим, что после опроса 300 человек, 5 из них ответили, что являются сотрудниками силовых структур, то есть приблизительно 1,7%.
Этих данных достаточно, чтобы получить промежуток значений в котором находится R. Для этого нам необходимо:
- Замеренное значение метрики — в случаем с силовиками это 1.7%
- Количество выборки, на которой сделан замер — 300 человек
- Количество потенциальной выборки (не обязательно) — в нашем случае наслеление России — 146 млн человек.
- Выбрать точность, с которой мы хотим получить результат. Обычно используют 90, 95 и 99%
Эти данные нужно ввести в специальный калькулятор для расчета доверительного интервала и нажать «вычислить».
На выходе мы получим промежуток, в котором содержится R с вероятность 90, 95 и 99% (в зависимости от того, какой процент мы выбрали при расчёте).
Если вернуться к примеру с силовиками, то после этих расчётов можно сказать, что R находится в промежутке (или доверительном интервале) от 0% до 3,59% от всего населения России.
А значит, если умножить этот процент на население России, то получим интервал от 0 человек до 5 268 274 человек. (В этом интервале действительно содержится верный ответ — в реальности это 2,6 миллиона).
Чтобы получить более точный промежуток, нам нужно опросить больше людей.
А как же все-таки сравнить метрики «до» и «после»
Теперь нам уже достаточно знаний, чтобы ответить на этот вопрос. Осталось дело за малым: надо просто посчитать доверительный интервал для метрики «до» и для метрики «после» и посмотреть, есть ли между ними пересечение.
Если пересечения нет, то мы получили статистически значимые результаты и можно утверждать, что мы что-то изменили в продукте.
А если пересечение есть, то значит данных недостаточно, чтобы утверждать, что что-то изменилось в продукте. А полученную разницу в данных надо воспринимать как погрешность измерения.
Разберемся на примере маркетинговой кампании
Допустим, мы подготовили 2 креатива, и их посмотрели по 5 000 пользователей. Первый показал значение CTR 2% (это процент нажавших на креатив и перешедших на лендинг), а другой 3%. Можно ли сказать, что второй лучше первого?
Чтобы ответить на этот вопрос, нам надо собрать все данные для измерения доверительного интервала:
По первому банеру:
- Значение метрики — 2%
- Сколько людей увидело этот банер — 5 000
- Опускаем потенциальную выборку
- Выбираем точность 95%
Получаем, что R по первому креативу с 95% вероятностью находится между [ 1,61% – 2,39% ]
Тоже самое проделываем по второму банеру (его посмотрело тоже 5 000 человек) и получаем интервал [ 2,53% – 3,47% ]
Видим, что интервалы не пересекаются друг с другом, а значит, второй банер успешнее первого.
Подытожим
- Чтобы оценить работу дизайнера, недостаточно просто посмотреть метрики до и после, нужно сравнить их доверительные интервалы.
- Посчитать доверительный интервал можно с помощью специального калькулятора.
- Если доверительные интервалы «до» и «после» не пересекаются — значит, работа дизайнера точно дала положительный результат.
Что дальше
Это была 3 и последняя статья из серии «Дизайнер и метрики».
В следующей статье я планирую рассказать, почему у пользователя нельзя спрашивать, что ему нравится, а что нет. Подписывайтесь, чтобы не пропустить!