В 5 способов соврать с помощью графика: как нас обманывают цифры мы разобрали визуальную ложь. Мы разобрали, как обрезанная ось Y превращает микроскопические колебания в «стремительный рост», как игры с перспективой в 3D-графиках искажают доли рынка до неузнаваемости и почему «накопительный итог» — это лучший способ спрятать падения выручки продукта.

Казалось бы, рецепт защиты прост: проверяй шкалы, требуй исходники и игнорируй дизайнерские украшательства. Если график построен по всем правилам геометрии — ему можно верить.

Но что, если график безупречен?

Что, если ось честно начинается с нуля, масштаб линейный, а пропорции соблюдены с точностью до пикселя? Значит ли это, что перед нами истина?

К сожалению, нет. Самая опасная манипуляция происходит задолго до того, как данные превращаются в картинку. Она прячется в таблицах Excel, в формулах агрегации и в выборках.

Цифры обладают опасной аурой объективности. «Цифры не врут», — говорит нам внутренний голос. «Против математики не попрешь», — вторит ему здравый смысл. Но правда в том, что статистика — это не просто математика, это искусство интерпретации. И в умелых руках аналитика или маркетолога одни и те же сырые данные могут рассказать две совершенно разные истории.

Сегодня мы отложим в сторону графические редакторы и заглянем «под капот» расчетам. Разберем 5 способов, которыми нас обманывают с помощью абсолютно верных математических формул: от среднего арифметического до парадоксов, ломающих логику.

1. Среднее значение: Почему ваша зарплата меньше «средней»

(Mean vs Median)

Мы привыкли к среднему арифметическому со школы. Сложи все числа, подели на их количество — и получишь «объективную» картину. Проблема в том, что среднее арифметическое (Mean) ведет себя прилично только в условиях нормального распределения (кривая Гаусса), где большинство значений сгруппировано в центре.

Но в реальной жизни — особенно когда речь идет о деньгах, метриках продукта или зарплатах — распределение часто бывает с «тяжелыми хвостами». И здесь среднее значение превращается в инструмент обмана.

Пример на пальцах: Билл Гейтс в баре

Представьте обычный бар, где сидят 10 работяг с зарплатой 50 000 рублей.

  • Средняя зарплата в баре: 50 000 руб.

  • Медианная зарплата: 50 000 руб.

Вдруг в бар заходит Билл Гейтс (допустим, его доход в этот момент — $10 млн в месяц). Статистика в баре мгновенно меняется:

  • Средняя зарплата: ~60 миллионов рублей.

Если судить по среднему, то каждый работяга в баре внезапно стал рублевым мультимиллионером. Но в реальности богаче стал только владелец бара, который продал Гейтсу напиток. Статус остальных не изменился ни на копейку.

В этом суть выбросов (outliers). Одно экстремальное значение перетягивает на себя всё одеяло среднего арифметического, создавая иллюзию благополучия.

Бизнес-кейс: Иллюзия роста среднего чека

Представьте, что вы менеджер продукта или владелец интернет-магазина.

У вас есть 100 клиентов, каждый из которых платит по 10 в месяц. Ваша выручка 1000, средний чек (ARPU) — 10.

В следующем месяце от вас уходят 20 клиентов (катастрофа!), но приходит один крупный корпоративный заказчик, который платит $500.
Оставшихся мелких клиентов: 80 (800) + 1 крупный (500). Итого выручка 1300.

Считаем новый средний чек: 1300 / 81 клиент ≈ 16.

Как это подать в отчете:

«Несмотря на оптимизацию клиентской базы, наш средний чек (ARPU) вырос на 60%! Мы стали зарабатывать больше с каждого пользователя!»

Реальность:
Бизнес теряет массовый сегмент (отток 20%), а вся красивая статистика держится на одном «ките». Если этот кит уйдет, график рухнет, но «среднее» до последнего момента будет скрывать структурную проблему.

Как не дать себя обмануть

  1. Требуйте Медиану (Median): Это число, которое делит выборку ровно пополам. В примере с Гейтсом медиана осталась бы 50 000 руб., показав, что для большинства людей ничего не изменилось. Если Среднее сильно отличается от Медианы — значит, в данных есть мощные выбросы или перекос.

  2. Смотрите на Моду (Mode): Это самое часто встречающееся значение. Оно покажет, сколько реально получает типичный сотрудник или платит типичный клиент.

2. Эффект низкой базы: Громкие проценты из пустоты

(The Low Base Effect / Relative vs Absolute)

Проценты — это макияж для статистики. Они позволяют маленькому казаться большим, а незначительному — грандиозным. Главный фокус здесь строится на знаменателе дроби: чем меньше стартовое значение (база), тем внушительнее выглядит любой, даже самый ничтожный рост.

Страх и ужас в заголовках

Журналисты обожают этот прием. Представьте заголовок:

«Смертность от нового вируса выросла на 100% за сутки!»

Звучит как начало апокалипсиса. Вы уже бежите за гречкой. Но если открыть отчет Минздрава, выяснится: вчера в городе умер 1 пациент (к сожалению), а сегодня — 2.
Математически — это честные 100% роста.
Фактически — это статистическая погрешность в масштабах мегаполиса.

Бизнес-кейс: Стартап «Рога и Рога»

Особенно часто этим грешат стартапы на ранней стадии (Pre-Seed) и менеджеры, пытающиеся спасти квартальный отчет.

Представьте слайд для инвесторов:

«Мы растем взрывными темпами! Наша пользовательская база увеличилась на 50% всего за месяц!»

Инвестор видит «клюшку» (hockey stick curve) и тянется за чековой книжкой. Но давайте посмотрим на абсолютные числа:

  • Январь: У сервиса было 2 пользователя (основатель и его мама).

  • Февраль: Зарегистрировался брат основателя. Стало 3 пользователя.

Рост действительно 50%. Но бизнес-ценность этого роста равна нулю. Для сравнения: гигант с миллионом пользователей, выросший на «скучный» 1%, привлек 10 000 новых людей. Но 1% на слайде выглядит не так, как 50%.

Маркетинговый трюк: Правило большего числа

В ритейле и e-commerce существует негласное правило: показывай то число, которое выглядит внушительнее.

  • Если вы продаете спички за 10 рублей и делаете скидку 5 рублей, вы напишете: «СКИДКА 50%!». (Потому что «скидка 5 рублей» звучит смешно).

  • Если вы продаете ноутбук за 100 000 рублей и делаете скидку 5 000 рублей, вы напишете: «СКИДКА 5 000 ₽». (Потому что «скидка 5%» выглядит жалко).

Суть акции одна и та же, но мозг цепляется за большую цифру, игнорируя валюту (проценты или деньги).

Как не дать себя обмануть

Относительные величины (проценты) без контекста — это информационный шум.

  1. Закон парных чисел: Никогда не принимайте процент без абсолютного значения. Если вам говорят «рост на 500%», первый вопрос: «500% от чего?». От нуля? От одного?

  2. Оценивайте значимость: Рост на 0.1% для ВВП страны — это миллиарды. Рост на 100% для ларька с шаурмой — это лишние 10 проданных лавашей.

  3. Ищите «звездочки»: Часто за громким процентом скрывается крошечная выборка или очень короткий период времени, специально подобранный для создания красивой цифры.

3. Ошибка выжившего и смещенная выборка: Кого мы забыли спросить?

(Selection Bias / Survivorship Bias)

Самые опасные данные — это те, которых у вас нет. Наш мозг устроен так, что мы анализируем только то, что видим, игнорируя то, что исчезло из поля зрения. В статистике это называется систематической ошибкой отбора. Мы делаем выводы о всей популяции, глядя только на «выживших».

Классика: Дырки в самолетах

Эта история известна многим, но без нее нельзя понять суть. Во время Второй мировой военные анализировали вернувшиеся с боя бомбардировщики. Они были ирешечены пулями, особенно крылья и хвост.
Логика генералов: «Нужно укреплять броню там, где больше всего дырок».
Логика математика Абрахама Вальда: «Броню нужно вешать туда, где дырок нет».

Почему? Потому что самолеты с пробитыми крыльями возвращались на базу и попадали в статистику. А самолеты с пробитым двигателем или бензобаком падали и в выборку не попадали. «Чистые» места на вернувшихся самолетах — это и есть самые уязвимые точки.

Анекдот из жизни: Интернет-опросы

«По результатам опроса, проведенного в интернете, 100% россиян пользуются интернетом».

Смешно, но именно так работает большинство социологических и маркетинговых исследований. Вы не можете узнать мнение людей, у которых нет телефона, если проводите опрос по SMS. Выборка изначально смещена (biased) в пользу технически грамотных людей.

Бизнес-кейс: Ловушка идеального рейтинга

Вы заходите на сайт сервиса и видите гордый баннер: «Нас оценивают на 4.9 из 5!».
Менеджер продукта показывает красивый график NPS (индекс лояльности), который растет квартал к кварталу. Премия в кармане, инвесторы счастливы.

Но откуда берутся эти цифры?
Обычно триггер для отправки письма «Оцените нас» срабатывает в определенных условиях:

  1. Клиент успешно оплатил заказ.

  2. Клиент пользуется приложением уже месяц.

  3. Клиент обратился в поддержку, и тикет был закрыт со статусом «Решено».

Кого мы забыли спросить?

  • Того, кто не смог зарегистрироваться из-за бага на форме логина.

  • Того, кто увидел цену доставки и молча ушел к конкурентам.

  • Того, кто удалил приложение через 5 минут, потому что оно зависло.

Эти «мертвые души» не получают опросников. Их мнение (скорее всего, 1 из 5) никогда не попадет в отчет. В итоге компания оптимизирует продукт для тех, кто и так доволен, полностью игнорируя причины, по которым теряет новых клиентов.

Как не дать себя обмануть

Когда вам показывают данные опросов или аналитику по пользователям, всегда задавайте вопрос: «Чье мнение здесь НЕ учтено?».

  1. Ищите данные: Анализировать нужно не тех клиентов, которые с вами остались (churn retention), а тех, кто отвалился на первом шаге воронки.

  2. Смотрите на методологию сбора: Если опрос о качестве жизни проводится только среди посетителей фитнес-клубов премиум-класса, его результаты нельзя проецировать на весь город.

4. Ловушка корреляции: После — не значит вследствие

(Correlation does not imply Causation)

Человеческий мозг — это машина по поиску паттернов. Если шаман ударил в бубен и пошел дождь, наш внутренний пещерный человек делает вывод: «Бубен вызывает дождь». В логике это называется ошибкой Post hoc ergo propter hoc.

Но самый страшный грех аналитика — путать корреляцию (взаимосвязь) и каузальность (причинно-следственную связь).

Классика: Мороженое и бассейны

Представьте график.

  • Красная линия: Продажи мороженого.

  • Синяя линия: Количество несчастных случаев на воде.

Летом обе линии синхронно ползут вверх. Осенью так же синхронно падают. Коэффициент корреляции — почти идеальный!
Если судить только по графику, можно сделать абсурдный вывод: «Поедание мороженого приводит к проблемам плавания».

На самом деле здесь есть третья скрытая переменная (confounding variable) — температура воздуха. Жара гонит людей и к ларькам с пломбиром, и на пляжи. Мороженое и купальщики связаны статистически, но не причинно.

Любимый пример дата-сайентистов: количество фильмов с Николасом Кейджем за год идеально коррелирует с числом падений в бассейны в США. Кейдж не виноват (мы надеемся), просто так совпали цифры.

Бизнес-кейс: «Гениальный» маркетинг

Особенно часто на эти грабли наступают менеджеры, когда нужно объяснить успех.

Ситуация:
Вы запускаете новый лендинг, меняете цвет кнопки на зеленый и запускаете баннер. Через неделю продажи подскакивают на 30%.
Вывод менеджера: «Зеленая кнопка работает! Это прорыв! Выпишите мне премию».

Реальность:
На самом деле, у вашего главного конкурента в это время упал сервер. Или просто наступила неделя перед 1 сентября, и сезонный спрос вырос сам по себе. Ваш редизайн мог даже ухудшить конверсию, но мощный внешний фактор (сезонность/конкуренты) перекрыл негатив, и вы увидели общий рост на графике.

Опасность в том, что вы начнете масштабировать ошибочное решение (зеленую кнопку), и когда внешний фактор исчезнет, показатели рухнут.

Как не дать себя обмануть

Сам по себе факт, что два графика двигаются синхронно, не значит ровным счетом ничего.

  1. Ищите третью переменную: Всегда спрашивайте: «А что еще могло повлиять на оба этих показателя?». Сезон? Погода? Курс валют? Праздники?

  2. Корреляция — это только гипотеза: Если вы видите связь, это повод проверить её, а не праздновать победу.

  3. Золотой стандарт — A/B тесты: Единственный способ доказать причинность — провести эксперимент. Разделите аудиторию пополам. Одним покажите старую кнопку, другим — новую. Исключите влияние времени и сезона. Если разница сохранится — поздравляю, это каузальность. Если нет — это было просто «мороженое».

5. Парадокс агрегации: Как улучшить показатели по отдельности, но провалить всё в целом

(Aggregation Paradox / Composition Effect)

Это самый «умный», неочевидный и опасный вид статистической ловушки. Он ломает интуицию, потому что противоречит здравому смыслу.
Представьте: у вас растут продажи в Москве. У вас растут продажи в регионах. Но общие продажи по стране... падают.
«Как такое возможно?» — спросите вы. «Математика сломалась?»
Нет, просто изменилась структура ваших данных.

Суть парадокса

Тренды в разных группах могут исчезнуть или даже перевернуться на 180 градусов, если эти группы смешать в одну кучу. Это происходит, когда одна группа данных (обычно менее эффективная) начинает доминировать в объеме.

Бизнес-кейс: Ловушка дешевого трафика

Давайте разберем классический пример для IT и e-commerce, на котором погорели сотни маркетологов.

У вас есть мобильное приложение. Вы отслеживаете конверсию в покупку (CR) на iOS и на Android.

Месяц 1:

  • iOS: 100 посетителей -> 10 покупок. (Конверсия 10%)

  • Android: 100 посетителей -> 2 покупки. (Конверсия 2%)

  • Итого по больнице: 200 посетителей, 12 покупок. Общая конверсия = 6%.

Месяц 2 (Работа «эффективного» менеджера):
Менеджер решает оптимизировать продукт. Программисты потеют, выкатывают улучшения.
Одновременно маркетинг решает «масштабироваться» и закупает тонну дешевого трафика на Android.

Смотрим отчет за второй месяц:

  • iOS: Конверсия выросла до 11% (Ура! Рост!). Но посетителей осталось 100.

  • Android: Конверсия выросла до 3% (Ура! Рост на 50%!). Посетителей стало 10 000 (закупили рекламу).

Что видит директор в итоговом отчете?

  • Всего посетителей: 10 100.

  • Всего покупок: 11 (с iOS) + 300 (с Android) = 311.

  • Общая конверсия: 311 / 10 100 ≈ 3.07%.

Финал:

  1. Конверсия на iOS выросла (с 10% до 11%).

  2. Конверсия на Android выросла (с 2% до 3%).

  3. Общая конверсия бизнеса РУХНУЛА в два раза (с 6% до 3%).

Почему? Потому что доля «плохого» сегмента (Android с низкой конверсией) стала подавляющей. Она «размыла» весь успех.
Менеджер по платформам просит премию (KPI выполнены по каждой ОС!), а владелец бизнеса видит, что эффективность компании упала на дно.

Как не дать себя обмануть

Этот парадокс учит нас главному правилу аналитики: никогда не доверяйте агрегированным данным, если структура групп неоднородна.

  1. Сегментируйте всё: Смотрите данные в разрезе (по городам, по устройствам, по тарифам). Общая цифра часто скрывает структурный сдвиг.

  2. Следите за весами: Если вам показывают рост процентов, всегда проверяйте, как изменились абсолютные объемы групп.

  3. Бойтесь «среднего» при масштабировании: Когда вы резко наращиваете аудиторию, вы почти всегда теряете в качестве (конверсии/среднем чеке), и это может перечеркнуть любые локальные улучшения продукта.

Заключение

Статистика — это обоюдоострый инструмент. В руках профессионального аналитика она помогает найти точки роста и неочевидные инсайты. Но в руках хитрого маркетолога или менеджера, спасающего свой KPI, она превращается в идеальный способ замаскировать провал.

Мы привыкли доверять цифрам, потому что они кажутся нам оплотом объективности. «Математика не врет», — думаем мы. И это правда. Формулы нейтральны, Excel не имеет злого умысла. Врут люди, которые выбирают, какую именно часть правды вам показать, а какую — оставить за кадром.

Чтобы не стать жертвой манипуляций, выработайте у себя «аналитический иммунитет». Когда вы видите красивый график или громкий заголовок с процентами, задавайте неудобные вопросы:

  1. «А где медиана?» (Если речь о деньгах или зарплатах).

  2. «А сколько это в абсолютных числах?» (Если вам показывают только проценты роста).

  3. «Кого забыли спросить?» (Если рейтинг подозрительно высок, а выборка неясна).

  4. «А что еще повлияло на результат?» (Если два графика растут синхронно).

  5. «А как это выглядит в разрезе?» (Если общая цифра скрывает падение в ключевых сегментах).

Не позволяйте одной цифре определять ваше решение. Копайте глубже, требуйте «сырые» данные и помните: если статистика выглядит слишком хорошо, чтобы быть правдой — скорее всего, так оно и есть.

Анонсы новых статей, полезные материалы, а так же если в процессе у вас возникнут сложности, обсудить их или задать вопрос по этой статье можно в моём Telegram-сообществе. Смело заходите, если что-то пойдет не так, — постараемся разобраться вместе.

P.S. Это была вторая часть цикла о лжи в данных. В первой мы разбирали 5 способов соврать с помощью графика: как нас обманывают цифры, а сегодня — математические.