Автор перевода: телеграм-канал Анализ данных и BI
Предисловие
Сегодня у нас замечательный приглашённый автор — Olga Berezovsky! Ольга — лидер в аналитике и data science, сосредоточенная на создании действительно полезных data-продуктов и помощи бизнесу в превращении инсайтов в более качественные управленческие решения. Она отлично умеет соединять бизнес и технологии и искренне увлечена менторством аналитиков и развитием высокоэффективных команд по работе с данными.
Когда я попросил Ольгу написать статью, мне хотелось, чтобы она была посвящена навыкам, которым специалистов по данным обычно не учат напрямую.
В сети не так много материалов о том, как доносить результаты анализа так, чтобы они действительно производили впечатление на руководителей.
Даже когда речь заходит о самом анализе, многим из нас приходилось буквально на ощупь искать правильный путь. Недавно я разговаривал с другим лидом в области data science — он рассказал, что в какой-то момент руководителю пришлось отвести его в сторону и прямо сказать, что его аналитика была не на должном уровне.
Таких навыков очень много, и и аналитикам, и инженерам приходится осваивать их уже в процессе работы. При этом почти никто не объясняет, что считается хорошей практикой, а что — нет.
Поэтому давайте поговорим о некоторых из этих навыков, над которыми вам стоит начать работать уже сейчас.
1. Как развивать аналитическую интуицию
Многие компании на собеседованиях задают кандидатам вопросы, которые на первый взгляд кажутся совершенно неожиданными. Например: сколько стоматологов в мире?
На самом деле таким образом они пытаются оценить вашу аналитическую интуицию.
Проще говоря, способны ли вы, имея задачу и очень ограниченное количество информации, предложить разумную модель рассуждений или подход к решению — или хотя бы понять, какие данные вам нужно будет найти, чтобы ответить на вопрос в дальнейшем.
Вот несколько советов для тех, кто хочет прокачать свою аналитическую интуицию.

Умение задавать разумные диапазоны и раскладывать оценку по выборкам
Пример: сколько окон в Нью-Йорке? Сколько учителей в мире?
Как действовать: начните с обоснованного предположения, опираясь на что-то смежное с вопросом — на прокси-показатель, по которому у вас уже есть интуитивное понимание. Затем шаг за шагом двигайтесь к порядку величины, используя средние значения и логику масштабирования.
Критическое мышление: что растёт — должно и снижаться
Если какой-то показатель растёт, в какой-то момент он с сопоставимой величиной должен и снижаться, и наоборот. Именно поэтому мы используем непрерывные распределения и вероятности — чтобы учитывать естественную вариативность, а не рассматривать разрозненные изменения.
Если вы только знакомитесь с датасетом или проектом, первое, что нужно сделать, — понять уровень естественных колебаний трафика и базовую дисперсию. Это помогает отделить ожидаемые изменения от тех, что вызваны внешними факторами, и понять, какое отклонение считается «нормальным».
Математика и дроби: часть от целого
Любая метрика — это дробь. Всего лишь один элемент более широкой экосистемы, состоящей из других взаимосвязанных частей. Допустим, вы выяснили, что успешность платежей составляет 25 %. Это означает, что 25 % пользователей успешно завершают транзакцию. Но это также означает, что 75 % — нет. Чем больше связанных метрик вы выявите, тем проще будет перепроверять результаты.
Та же логика применима к воронкам и конверсиям. Каждая метрика — это часть целого. Если что-то растёт, значит, что-то другое либо (а) должно снижаться, либо (б) тоже расти. Если вы не видите ни (а), ни (б) — ставьте под сомнение всё. Когда вы понимаете взаимосвязи между метриками, гораздо проще разобраться, что именно падает и почему.
Выработайте привычку к проверкам: случайные пользователи, путь сессии, сравнение через diff-инструменты
Для каждой выборки или отчёта отберите 5–10 случайных пользователей из датасета и вручную проверьте их атрибуты: уплаченную цену, детали инвойса, тарифный план, страну, количество транзакций и так далее.
Сделайте ручные spot-проверки и перекрёстные сверки обязательной частью каждого отчёта или дашборда. Не полагайтесь слепо на инструменты и автоматизацию.
2. Как проводить анализ первопричин (root cause analysis)

Мы применяем анализ первопричин, когда метрика ведёт себя неожиданным образом. Например:
средний DAU постепенно снижается месяц к месяцу, но MAU остаётся на том же уровне;
количество новых транзакций растёт на 5 % неделя к неделе, а общий доход не меняется;
отток клиентов с годовой подпиской удваивается;
конверсия из триала в платную подписку падает на 10 %.
Ключевое слово здесь — «неожиданно». Аналитики владеют понятием базового уровня (baseline) — это оценочное значение (смоделированное или спрогнозированное) с учётом сезонности, изменений месяц к месяцу и год к году.
Например, вы можете заметить, что общее число транзакций резко снижается в сентябре по сравнению с августом. Такое падение может быть ожидаемым, если аналогичный паттерн повторяется каждый год в этот период. А может указывать на баг. А может быть сочетанием и того, и другого. Чтобы в этом разобраться, нужно знать свой baseline — сколько транзакций вы обычно ожидаете в это время месяца и года и насколько это значение изменилось.
Первым делом убедитесь, что данные корректны.
Найдите как минимум два дополнительных источника данных, которые показывают похожее снижение, чтобы подтвердить, что оно реально.
Возможные проблемы: сломанный ETL, праздничные расписания, которые «ломаются» из-за длинных выходных, и т. п.
Если вы уверены, что данные верны и снижение действительно произошло, переходите к моделированию различных гипотез о том, в чём может быть причина.
Анализ: сформулируйте несколько гипотез, которые нужно подтвердить или опровергнуть.
Продуктовая гипотеза: падение связано с багом в продукте или конкретным релизом. Если это баг, обычно наблюдается резкое падение. При релизах снижение может быть более плавным, так как команды часто делают постепенные выкладки: сначала 1 % трафика, затем 20 % → 50 % → 100 %. Кроме того, эффект может проявляться только для определённого сегмента пользователей (например, только для новых или только для платящих).
Рыночная или конкурентная гипотеза: на рынке мог появиться новый инструмент, который оттянул на се��я долю. Или сократились расходы пользователей, или изменилась стратегия привлечения. В таких случаях вы, как правило, увидите постепенное снижение, не обязательно привязанное к конкретной кампании или акции.
Гипотеза, связанная с пользователями: чаще всего это постепенное и неравномерное падение. С учётом того что (а) доли разных персон со временем меняются и (б) они не всегда связаны с сезонностью (скорее — с маркетинговыми кампаниями, которые их привели), уловить начало такого снижения бывает сложно. Здесь нужно проверять метрику по разным когортам пользователей: зарегистрированные, но неактивные; активные, но находящиеся на грани оттока; power users; платящие или бесплатные; бизнес-клиенты или частные лица — в зависимости от того, с какими сегментами вы работаете.
Внешние факторы: пандемия, война или крупные социальные движения (#MeToo, BLM, законы об абортах и т. д.). Они могут вызвать резкое падение (или рост) использования по множеству ключевых действий, возможностей продукта и платформ.
После того как вы подтвердили гипотезу на основе данных — будь то баг в продукте, маркетинговая проблема или изменение поведения пользователей, — эскалируйте вопрос в соответствующую команду, чтобы собрать дополнительный контекст. В идеале вы уже на несколько шагов впереди: у вас подготовлены гипотезы и анализ того, какая именно метрика падает и на какую величину.
3. Как сформировать KPI и связать его с действиями

KPI могут быть финансовыми, ориентированными на клиентов или на процессы.
Существует несколько типов метрик:
Метрики верхнего уровня — показатель стратегического направления и эффективности бизнеса. Каждая такая метрика настраивается и адаптируется под конкретную бизнес-модель, среду и стратегию. Именно здесь контекст и нюансы имеют решающее значение. Метрики верхнего уровня и KPI обычно рассматриваются и отчётируются на ежемесячной и квартальной основе.
North Star Metric — отражает одну ключевую цель компании. Согласно определению Mixpanel: «Чтобы считаться North Star, метрика должна выполнять три условия: приводить к выручке, отражать ценность для клиента и измерять прогресс». Это может быть DAU, LTV, MRR или другие показатели. Её основная задача — выровнять все команды вокруг одной главной цели.
Вторичные метрики — более детальные индикаторы здоровья продукта и операционные цели. Они показывают, насколько успешны продукт и процессы. Вторичные метрики чувствительны к любым изменениям в продукте, поэтому именно по ним оценивают A/B-тесты, внедрение новых возможностей или влияние багов. Из-за высокой чувствительности такие метрики обычно отслеживаются и отчётируются еженедельно.
Vanity metrics — впечатляющие, но бесполезные и неоперациональные показатели, которые не ведут ни к росту, ни к выручке и не связаны с реальными действиями по их улучшению. Чаще всего они слишком примитивны и игнорируют контекст. Примеры: количество подписчиков в соцсетях или общее число зарегистрированных пользователей. Это как в зале качать только руки и полностью забывать про корпус. Подробнее о vanity metrics.
OMTM (One Metric That Matters) — одна метрика, которая имеет значение. Она отличается от North Star Metric и используется как временная цель, объединяющая все команды компании вокруг одной конкретной проблемы. Например, если ваш софт взломали и все пользовательские аккаунты были удалены, OMTM будет количество восстановленных аккаунтов. Менее драматичный пример — начало миграции: тогда OMTM может быть число успешно перенесённых аккаунтов. Или, если отток непропорционально сильно приходится на новые аккаунты и продления, вам придётся поставить всё на паузу и сосредоточиться на удержании.
Правильная метрика должна быть:
Релевантной — отражать именно тот результат, который вы хотите получить. Если вы вносите изменения в пользовательский флоу, измерять нужно шаги пользователя и последующие действия, а не чистый прирост выручки.
Измеримой — есть ли у вас вообще данные для расчёта этой метрики? Доверяете ли вы источнику данных?
Конкретной — достаточно детализированной, чтобы показать корректное движение продукта. Удержание пользователей — не лучшая метрика для оценки A/B-теста. А вот частота и/или тип совершаемых действий — да.
Приоритизированной — важно понимать, что среди всех метрик является наиболее приоритетным. Нужно уметь отличать метрики «приятно иметь» от действительно обязательных для отчётности.
Сбалансированной — предназначенной для оценки как положительных, так и отрицательных эффектов. Если вы видите рост трафика по одной возможности, скорее всего, где-то в другом месте есть падение.
Типы метрик
Скорее всего, вы это уже знаете, но в целом выделяют четыре основные категории метрик, каждая из которых служит своей цели:
Суммы и количества — Daily Active Users, сумма продаж, уникальное число отписавшихся и т. п.
Распределения (среднее, медиана, мода, перцентили) — средний объём используемой памяти, процент от MAU, медианная длительность сессии и другие показатели.
Вероятности и коэффициенты — если вы меняете layout экрана, нужно измерять click-through rate или вероятность клика.
Отношения — соотношение месячных и годовых подписок, соотношение использования мужчинами и женщинами и т. д.
Вот несколько примеров распространённых метрик в разных доменах:
Рост и маркетинг: уникальные посетители, первые визиты, возвращающиеся посетители, bounce rate, установки, регистрации, стоимость привлечения клиента (CAC), click-through rate (CTR), стоимость за показ (CPI), стоимость за действие (CPA), time to value, конверсия из посетителя в регистрацию, конверсия из регистрации в платёж, уровень принятия продукта или возможностей, виральность, показатель сетевого эффекта, окупаемость рекламных расходов (ROAS), количество квалифицированных лидов, конверсия лидов, средний скор лида, стоимость лида (CPL), отписки.
Выручка: ежемесячная повторяющаяся выручка (MRR), годовая повторяющаяся выручка (ARR), чистая выручка, удержание чистой выручки, платящие клиенты, активированные триалы, конверсии из бесплатных в платные, понижения с платных тарифов на бесплатные, churn выручки, churn клиентов, ежемесячное/еженедельное количество клиентов, совершающих первый заказ, дневной/месячный общий объём покупок, пожизненная ценность клиента (LTV), средняя выручка на аккаунт (ARPA), конверсия апсейла в платёж, выручка от расширения, возврат инвестиций (ROI) и другие.
Вовлечённость: MAU, WAU, DAU, смежные пользователи, удержание Day 0, Day 1+, Day 7+ и Day 28, процент удержания за 1 или 2 года, количество возвращающихся пользователей, дневное/часовое количество действий, общее время просмотра, общее время использования, частота визитов, количество страниц за сессию, глубина скролла, средняя длительность сессии, exit rate, показатель отказа от продукта и другие.
Успех клиентов: индекс удовлетворённости клиентов (CSAT), Net Promoter Score (NPS), индекс «здоровья» клиента, доля закрытых тикетов, среднее время решения, среднее время ответа, индекс усилий клиента (CES), время первого ответа, дневное/месячное количество обращений в поддержку.
Платформа / инженерия: стоимость поддержки продукта, затраты на R&D, доля аутсорсинга, индекс эффективности затрат (CPI), индекс выполнения сроков (SPI), аптайм, средний даунтайм в месяц/год, коэффициент простоя оборудования, процент планового обслуживания, количество релизов, эксплуатационные затраты, количество багов, число pull request’ов, загрузка мощностей, использование памяти, количество запросов в минуту (RPM), ошибок в минуту и другие.
4. KPI, сделанные неправильно: как исправить типичные ошибки в отчётности

Не усложняйте KPI. Если вы не уверены, как измерить инициативу, придерживайтесь простых метрик: уникальные просмотры, клики по CTA и процент пользователей, совершивших клик по CTA. Не всё обязательно привязывать к LTV или MRR.
Используйте эффективную прокси-метрику — чувствительную и независимую. Если для расчёта прокси-метрики нужны сложные вычисления, значит, это плохая прокси.
Не зацикливайтесь на бенчмарках — лучше сосредоточьтесь на росте конверсии из регистрации в платящих пользователей месяц к месяцу.
Не переносите определения метрик с прошлой работы в текущий проект. Каждый продукт уникален, с разным жизненным циклом пользователей. В одних приложениях есть месячные и годовые подписки, в других — 18 платёжных периодов. Формулы churn’а будут отличаться. Формируйте KPI, которые подходят именно этому бизнесу и продукту.
Заключение
По мере роста в роли аналитика или инженера данных вы начнёте воспринимать многие навыки как нечто само собой разумеющееся. Но все они откуда-то появились.
Надеюсь, эта статья поможет вам сформулировать знакомые интуитивные идеи словами или станет статьёй, которой вы поделитесь с теми, кто только начинает путь в мире данных.
Как всегда, спасибо за чтение.
Больше материала про анализ данных и BI я публикую в своём телеграм-канале. Буду рада вашей подписке :)
