Уроки 10-летнего опыта в Uber, Meta и быстрорастущих стартапах
Данные помогают принимать более обоснованные решения.
К сожалению, большинство компаний лучше справляются с их сбором, нежели чем с интерпретацией. Они утверждают, что используют подход, основанный на данных, но на практике для принятия решений полагаются на свой опыт.
Ваша задача, как аналитика данных (или Data Scientist-а) — помочь заинтересованным сторонам бизнеса понять и интерпретировать данные, чтобы они могли принимать более взвешенные решения.
Ваше влияние определяется не самим анализом или моделями, которые вы создаёте, а тем, каких бизнес‑результатов вы помогаете достичь. Это главный фактор, который отличает старших Data Scientist‑ов от младших.
Чтобы помочь вам в этом вопросе, я подготовил пошаговое руководство, основанное на моём опыте превращения данных в полезные инсайты, полученном во время работы в Rippling, Meta и Uber.
Я расскажу о следующем:
Какие метрики отслеживать: Как определить уравнение дохода и дерево драйверов для вашего бизнеса.
Как отслеживать: Как настроить мониторинг и избежать распространённых ошибок. Мы разберём выбор правильного временного горизонта, учёт сезонности, работу с когортными данными и многое другое.
Извлечение инсайтов: Как структурированно и повторяемо выявлять проблемы и возможности. Мы обсудим основные типы тенденций, с которыми вы столкнётесь, и как их интерпретировать.
Звучит достаточно просто, но дьявол кроется в деталях, поэтому давайте разбираться по пунктам.
Часть 1: Какие метрики отслеживать
В первую очередь вам нужно определить, какие метрики следует отслеживать и анализировать. Чтобы максимизировать влияние, вы должны сосредоточиться на тех метриках, которые действительно влияют на доход.
Начните с уравнения дохода на высоком уровне (например, «Доход = Показатели * CPM / 1000» для бизнеса, основанного на рекламе), а затем разбейте каждую часть, чтобы добраться до базовых драйверов. Конкретное уравнение дохода зависит от типа бизнеса; здесь можно найти самые распространённые примеры.
Полученное дерево драйверов, где на вершине находится результат, а внизу — входные параметры, показывает, что определяет результаты в бизнесе и какие дашборды вам нужно создать для проведения комплексных расследований.
Пример: Ниже представлено (частичное) дерево драйверов для B2C‑продукта, основанного на рекламе:
Понимание ведущих и запаздывающих метрик
Уравнение дохода может создать впечатление, что входные данные немедленно преобразуются в выходные результаты, но в реальности это не так.
Самый очевидный пример — воронка маркетинга и продаж: вы генерируете лиды, они превращаются в квалифицированные возможности, и, наконец, сделка закрывается. В зависимости от вашего бизнеса и типа клиента этот процесс может занять несколько месяцев.
Иными словами, если вы анализируете метрику результата, такую как доход, вы часто смотрите на последствия действий, совершённых за недели или месяцы до этого.
Согласно общему правилу, чем ниже вы спускаетесь по дереву драйверов, тем больше метрика влияет на конечный результат; чем выше вы поднимаетесь, тем более запаздывающей она становится.
Измерение задержки
Стоит изучить исторические окна конверсии, чтобы понять степень задержки, с которой вы имеете дело.
Это позволит вам лучше проводить ретроспективный анализ (например, если вы видите колебания дохода, вы будете понимать, насколько глубоко в прошлое нужно заглянуть, чтобы найти причину) и прогнозировать будущее (сможете понять, сколько времени потребуется, чтобы увидеть эффект от новых инициатив).
По моему опыту, разработка общих правил (например, сколько требуется времени, чтобы новый пользователь стал активным) позволяет получить 80–90% ценности, поэтому излишняя детализация здесь не обязательна.
Часть 2: Настройка мониторинга и избегание распространённых ошибок
Итак, у вас есть дерево драйверов. Как использовать его для мониторинга эффективности бизнеса и получения инсайтов для заинтересованных сторон?
Первый шаг — создание дашборда для отслеживания ключевых метрик. Я не буду углубляться в сравнение различных BI‑инструментов (возможно, я сделаю это в другой статье).
Всё, о чём я говорю в этой статье, легко реализуется в Google таблицах или другом подобном инструменте, поэтому выбор BI‑программного обеспечения не станет ограничивающим фактором.
Вместо этого я хочу сосредоточиться на нескольких лучших практиках, которые помогут вам разобраться в данных и избежать типичных ошибок.
1. Выбор подходящих временных рамок для каждой метрики
Хотя важно улавливать тенденции как можно раньше, нужно быть осторожным, чтобы не попасть в ловушку анализа слишком детализированных данных и попыток извлечь инсайты из того, что в основном является шумом.
Учитывайте временные интервалы измеряемых вами действий и возможность реагировать на полученные данные:
Данные в реальном времени полезны для B2C‑маркетплейсов (например, Uber), поскольку:
Транзакции имеют короткий жизненный цикл (поездка Uber обычно запрашивается, принимается и завершается менее чем за час).
Uber обладает инструментами для мгновенной реакции (например, динамическое ценообразование, стимулирование водителей, коммуникация с ними).
В отличие от этого, ежедневные данные о продажах в B2B SaaS‑бизнесе будут «шумными» и менее полезными из‑за длительных циклов сделок.
Вам также следует учитывать временные интервалы целей, которые вы устанавливаете в отношении метрики. Если у ваших команд‑партнёров цели рассчитаны на месяц, то по умолчанию отображение этих метрик должно быть помесячным.
НО: Основная проблема месячных метрик (или данных за более длительные периоды) заключается в том, что у вас мало точек данных для анализа, и вам приходится долго ждать обновления информации о производительности.
Хорошим решением может быть использование скользящего среднего для отображения метрик: в этом случае вы сможете уловить актуальные тренды, устраняя при этом значительную часть шума за счёт сглаживания данных.
Пример: Смотря на ежемесячные данные (слева), можно сделать вывод, что мы мы находимся в выгодном положении для достижения цели на апрель. Однако, глядя на 30-дневное скользящее среднее, становится очевидно, что доход резко снизился и нужно срочно разбираться в причинах.
2. Установление бенчмарков
Чтобы извлечь инсайты из метрик, необходимо интерпретировать их в контексте.
Самый простой способ — отслеживать метрику во времени: показатель улучшается или ухудшается? Конечно, ещё лучше, если вы точно знаете, какого показателя хотите достичь.
Если у вас есть официальная цель для метрики — отлично. Но даже если цели нет, можно понять, идёте ли вы в нужном направлении, выведя предполагаемые ориентиры.
Пример:
Допустим, у команды продаж есть месячная квота, но нет официальной цели по объёму «входящего пайплайна», который им нужно создать для её выполнения.
В этом случае можно рассмотреть историческое соотношение открытого пайплайна к квоте («Pipeline Coverage») и использовать его как эталон.
Однако имейте в виду: таким образом вы предполагаете, что производительность останется на одном уровне (в данном случае, что команда конвертирует пайплайн в доход с неизменной скоростью).
3. Учёт сезонности
Практически в любом бизнесе для корректной интерпретации данных нужно учитывать сезонность. Другими словами, имеет ли метрика повторяющиеся закономерности в зависимости от времени суток, дня недели, времени месяца или календарного месяца?
Пример:
Рассмотрите этот месячный тренд нового ARR в B2B SaaS‑бизнесе:
Если взглянуть на снижение нового ARR в июле и августе на простой столбчатой диаграмме, можно запаниковать и начать масштабное расследование.
Однако, если наложить данные за разные годы друг на друга, можно выявить сезонный паттерн и обнаружить, что это всего лишь ежегодный летний спад, после которого в сентябре бизнес восстанавливается:
Сезонность может проявляться не только на уровне месяцев, но и в более коротких периодах времени — например, в зависимости от дня недели, который влияет на результаты, или же в том, что бизнес обычно активизируется ближе к концу месяца.
Пример:
Предположим, вы хотите оценить, как команда продаж работает в текущем месяце (в нашем примере это апрель). Сегодня 15-й рабочий день месяца, и вы уже достигли $26,000 из цели в $50,000. Если игнорировать сезонность, может показаться, что команда не достигнет цели, так как осталось всего 6 рабочих дней.
Однако вы знаете, что команда, как правило, закрывает большое количество сделок в последние дни месяца.
В этом случае можно построить график накопительных продаж и сравнить его с предыдущими месяцами, чтобы выявить закономерности. С его помощью мы обнаружим, что для текущего времени месяца мы находимся в хорошей позиции, так как динамика продаж не является линейной.
4. Работа с «недозревшими» метриками
Одна из самых распространённых ошибок при анализе метрик — это использование данных, которые ещё не «созрели», то есть не достигли окончательного значения.
Вот несколько распространённых примеров:
Воронка привлечения пользователей: Вы измеряете конверсию от трафика к регистрации и покупки, но не знаете, сколько из недавних регистраций ещё конвертируется в покупку.
Воронка продаж: Средний цикл сделки длится несколько месяцев, и вы не знаете, сколько из недавних открытых сделок будет закрыто.
Удержание: Вы хотите понять, насколько хорошо определённая когорта пользователей сохраняет свою активность.
Во всех этих случаях показатели недавних когорт кажутся хуже, чем они есть на самом деле, потому что данные ещё не являются окончательными.
Если вы не хотите ждать, у вас есть три основных варианта решения этой проблемы:
Вариант 1: Разбить метрику по периодам времени
Самый простой способ — разделить совокупные метрики на периоды времени (например, конверсия за первую неделю, за вторую неделю и т. д.). Это позволяет получить ранние данные, сохраняя корректность сравнения (по принципу «сравнивать сопоставимое») и избегая смещения в пользу более старых когорт.
Затем можно отобразить результат в виде когортной тепловой карты. Вот пример для воронки привлечения пользователей, в котором прослеживается динамика конверсии от регистрации до первой транзакции:
Таким образом, можно увидеть, что при сравнении сопоставимого конверсия действительно ухудшается (конверсия за первую неделю снизилась с >20% до ~15% в недавних когортах). Анализируя только совокупную конверсию (последний столбец), мы бы не смогли отличить реальное снижение от неполных данных.
Вариант 2: Изменить определение метрики
В некоторых случаях можно изменить определение метрики, чтобы избежать работы с неполными данными.
Например: вместо того чтобы анализировать, сколько сделок, добавленных в пайплайн в марте, было закрыто к настоящему моменту, можно рассматривать, сколько из закрытых в марте сделок были выиграно или проиграно. Это число не изменится со временем, тогда как для получения окончательных результатов по когорте сделок за март может потребоваться несколько месяцев.
Вариант 3: Прогнозирование
На основе предыдущих данных можно спрогнозировать, каковы будут финальные результаты когорты. Чем больше времени проходит и чем больше данных собирается, тем ближе прогноз будет к реальному значению.
Однако будьте внимательны: прогнозирование показателей когорты требует тщательного подхода, здесь легко допустить ошибку. Например, в B2B‑бизнесе с низкими коэффициентами выигрыша одна сделка может значительно изменить показатели когорты. Точно спрогнозировать это крайне сложно.
Часть 3: Извлечение инсайтов из данных
Все эти данные полезны, но как получить из них инсайты?
У вас наверняка не будет времени регулярно анализировать каждую метрику, поэтому начните с приоритизации самых больших разрывов и изменений:
Где команды не достигают своих целей? Где вы видите неожиданные успехи?
Какие метрики резко снижаются? Какие тренды разворачиваются?
После выбора интересующей вас тенденции нужно будет углубиться в анализ и выявить основную причину, чтобы бизнес‑партнёры смогли разработать точечные решения.
Чтобы придать углублённым исследованиям структуру, я рассмотрю ключевые типы тенденций метрик, с которыми вы вероятнее всего столкнётесь, и приведу конкретные примеры для каждого из них, основанные на реальном опыте.
1. Нейтральные движения метрик
Когда вы замечаете резкое изменение метрики, сначала поднимитесь вверх по дереву драйверов, прежде чем спускаться вниз. Вы поймёте, влияет ли данное изменение на то, что действительно важно для вас и вашей команды. Если нет, то поиск первопричины становится менее приоритетным.
Пример:
На изображении выше видно, что конверсия с визитов в регистрации на сайте резко упала. Вместо того чтобы паниковать, вы смотрите на общее количество регистраций и видите, что оно остаётся стабильным.
Выясняется, что снижение средней конверсии вызвано скачком низкокачественного трафика на сайт; эффективность вашего «основного» трафика осталась неизменной.
2. Числитель против знаменателя
При изменении метрик‑отношений (ratio metrics) — например, показы на активного пользователя, поездки на водителя и т. д. — сначала проверьте, изменился числитель или знаменатель.
Люди часто предполагают, что изменился числитель, так как в краткосрочной перспективе мы обычно стараемся увеличить метрику вовлечённости или продуктивности. Однако нередко это оказывается неверным.
Примеры:
Вы видите снижение количества лидов на одного продавца, потому что к команде только присоединилась новая группа сотрудников, а не из‑за проблемы с генерацией спроса.
Количество поездок на одного водителя Uber в час снизилось не потому, что уменьшилось количество запросов от пассажиров, а потому что команда увеличила стимулы, и больше водителей вышли на смену.
3. Изолированные / концентрированные тренды
Многие изменения метрик обусловлены событиями, происходящими только в определённой части продукта или бизнеса, и агрегированные данные не дают полной картины.
Общий процесс диагностики для выявления первопричины выглядит следующим образом:
Шаг 1: Продолжайте декомпозировать метрики, пока не сможете изолировать тренд или пока не достигнете точки, в которой метрики больше нельзя разложить.
Так же, как в математике любое число можно разложить на простые множители, любую метрику можно разбить вплоть до фундаментальных входных данных.
Сделав это, вы сможете изолировать проблему в определённой части дерева драйверов, что значительно упростит понимание происходящего и выбор правильного ответа.
Шаг 2: Сегментируйте данные, чтобы изолировать соответствующий тренд
Сегментация помогает определить, является ли конкретная область бизнеса причиной проблемы. Сегментируя данные по следующим параметрам, можно выявить более 90% проблем:
География (регион / страна / город)
Время (период месяца, день недели и т. д.)
Продукт (разные SKU или разделы продукта, например, лента Instagram vs. Reels)
Демография пользователей или клиентов (возраст, пол и т. д.)
Отдельные субъекты / участники (например, сотрудник отдела продаж, продавец, пользователь)
Рассмотрим конкретный пример:
Предположим, вы работаете в DoorDash и видите, что количество завершённых доставок в Бостоне сократилось по сравнению с предыдущей неделей. Вместо того чтобы разрабатывать идеи для увеличения спроса или повышения показателя завершения заказов, попробуем изолировать проблему, чтобы разработать более целевые решения.
Первый шаг — разложить метрику «Завершённые доставки»:
На основе дерева драйверов мы можем исключить проблемы со стороны спроса. Вместо этого становится очевидным, что в последнее время мы испытываем сложности с привлечением водителей для выполнения заказов (на этапе же передачи заказа от ресторана курьеру или доставки еды клиенту проблем нет).
Последний шаг — проверить, носит ли эта проблема массовый характер. В этом случае одними из самых перспективных разрезов для анализа будут география, время и поставщик (ресторан). Анализ данных по поставщикам показывает, что проблема широко распространена и затрагивает множество ресторанов, что не помогает нам сузить круг.
Однако, создав тепловую карту времени и географии для метрики «заказы на доставку, для которых не удалось найти курьеров», мы обнаруживаем, что проблема в основном затрагивает окраины Бостона в ночное время:
Что делать с этой информацией?
Умение точно выявить проблему позволяет направить усилия на целевое привлечение курьеров и предоставление стимулов именно в эти промежутки времени и в этих локациях, а не распределять ресурсы равномерно по всему Бостону.
Другими словами, изоляция первопричины позволяет использовать ресурсы более эффективно.
Другие примеры концентрированных трендов, с которыми вы можете столкнуться:
Большая часть внутриигровых покупок в онлайн‑игре совершается небольшим числом так называемых «китов» — поэтому команда сосредотачивает усилия на удержании и вовлечении этих пользователей.
Большинство эскалаций заявок в техподдержке до инженерного отдела вызвано действиями небольшого числа сотрудников поддержки — что предоставляет компании возможность освободить время инженеров путём обучения этих сотрудников.
4. Сдвиги в структуре (Mix Shifts)
Одной из наиболее распространённых причин путаницы при анализе производительности являются сдвиги в структуре и парадокс Симпсона.
Под сдвигами в структуре подразумеваются изменения в структуре общей совокупности.
Парадокс Симпсона описывает контринтуитивный эффект, при котором тренд, наблюдаемый в общей совокупности, исчезает или меняется на противоположный при анализе её составляющих (и наоборот).
Как это выглядит на практике?
Допустим, вы работаете в YouTube или любой другой компании, размещающей рекламу. Вы замечаете, что доходы падают, и, углубляясь в данные, видите, что CPM (затраты на тысячу показов) уже некоторое время снижается.
CPM как метрика не может быть дальше декомпозирована, поэтому вы начинаете сегментировать данные, но не можете обнаружить первопричину. Например, CPM во всех географических регионах остаётся стабильным:
Здесь и вступают в игру сдвиги в структуре и парадокс Симпсона.
CPM в каждом отдельном регионе остаётся неизменным, но если вы посмотрите на состав показов по регионам, то обнаружите, что их доля смещается от США к региону APAC.
Так как CPM в APAC ниже, чем в США, общий CPM уменьшается.
Знание точной первопричины позволяет разрабатывать более целевые решения. Основываясь на этих данных, команда может:
Попробовать восстановить рост в регионах с высоким CPM.
Рассмотреть дополнительные возможности монетизации для APAC.
Сосредоточиться на компенсировании более низкой ценности отдельных показов за счёт значительного увеличения объёма показов на крупном рынке APAC.
Заключительные мысли
Помните, данные сами по себе не имеют ценности. Они становятся полезными, когда используются для генерации инсайтов или рекомендаций для пользователей или внутренних заинтересованных сторон.
Следуя структурированному подходу, вы сможете надёжно выявлять значимые тренды в данных, а также, используя приведённые советы, выделять полезную информацию из шума и избегать неверных выводов.
В завершение темы приглашаем всех желающих на открытые уроки:
6 февраля: «Цифры решают все: как внедрение метрик и KPI ускоряет достижение целей». Подробнее
11 февраля: «От запроса к решению: как разобраться в потребностях заказчика и не упустить главное». Подробнее
Посмотреть полный список бесплатных уроков по аналитике и анализу, а также по другим ИТ-направлениям можно в календаре.