У доски стоит менеджер и обосновывает фичу, показывая медианные значения. На задней парте в обнимочку, с попкорном, сидят аналитик с датасайентистом.
А почему ты используешь здесь именно медиану?
Потому что она, в отличие от среднего, отбрасывает крайние значения.
Учитель по математике замер примерно в этой позе.

Этот пост я решила написать, потому что у меня подгорело. Продакты и исследователи накрепко запомнили, что среднее усредняет 2 крайних значения (это когда Катя ростом 1 метр, Вася ростом 2 метра, и по средним меркам им шьют джинсы на 1.50) и действительно стали почти повсеместно использовать медиану.
Её используют просто по умолчанию, в любой ситуации.
Буквально вчера в одном уважаемом исследовании я прочитала про «медианные зарплаты айтишников». Ну и да, когда их спрашиваешь, что такое медиана, ребята отвечают про то, что она корректнее показывает обычную зарплату и втихую гуглят определение.
Когда это верно и что не так? Давайте я напомню определение и проиллюстрирую примерами.
Медиана — грубо говоря, это значение в середине числового ряда.
Если представить реальные данные, то медиана почти ничего нам не говорит о крайних значениях. И ничто не мешает медиане совпадать с минимальным или максимальным значением.
Например, утверждение «медианная зарплата разработчика мидла — 400 тыс» может на самом деле выглядеть так: 50, 50, 400, 400, 400 или так 400, 400, 400, 900, 900.
Или вообще вот так: 50, 50, 400, 900, 900.
Есть разница на практике? Какой будет обычная зарплата?
Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.
Почему же уважаемые люди используют медиану?
Есть ситуация, в которой медиана действительно надёжнее: это когда данные близки к нормальному распределению: большинство значений собраны в центре графика в виде горба, и выбросов немного. В этом случае обычно среднее гораздо чувствительнее к выбросам, чем медиана.

Например, когда сырые данные опроса по зарплатам звучат вот так: 200, 390, 395, 400, 405, 410, 950.
Невооруженным глазом видно, что первое и последнее значение выбиваются, и если их не учитывать, получим зарплату в 400 тыс. А средним в нашем примере будет 450, или сколько угодно, если кому‑то повезло и он зарабатывает 3 миллиона в месяц.
Я Таня из Семейки Продактов (телеграм) У меня правда чуточку подгорела эта тема, и я очень надеюсь, что тут найдется кто‑то, кто поймет, о чем именно я говорю.
Но чаще всего распределение бывает нормальным на академических примерах, в той же теории вероятности с подбрасыванием кубика. То есть, когда результаты ни от чего не зависят и друг на друга не влияют.
А насколько часто такое бывает в жизни?

Ну то есть, вы можете думать, что у вас в даных обычный горб, а график на самом деле U‑образный график.
Что я хочу сказать? Использовать медиану, не показав или не понимая распределение данных — это манипуляшки. Расчет на то, что все мы плохо помним статистику, а научные термины настолько уважаем, что без достойного повода гуглить не будем.
Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. И что вы хотите проиллюстрировать, тоже надо учитывать. Там на задней парте, с попкорном уже сидят два профи, работа которых в этом и заключается, и если они говорят, что менеджеры загоняются — менеджеры загоняются.