Search
Write a publication
Pull to refresh

Comments 36

подгорела эта тема

Интересно, а как это будет на обычном русском?)

а график на самом деле U-образный график.

Где там U? Не увидел.

А в целом, все верно.

В примерах его и нет, возможно пропущен, правда и называется это "бимодальное распределение", а не "U-образный", хм. Там кстати с медианой всё вообще шоколадно :)

Не бимодальное, а биполярное, и не распределение, а расстройство. Всему вас учи)

Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.

Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении

где 50% выборки меньше, а 50% больше.

Меньше или равны медиане, больше или равны медиане.

Вот именно, обычно- то как раз мы берём не пять зарплат по отделу, а пять миллионов зарплат в стране, где 30% получают пенсию в 18 тысяч, основная масса где-то пыхтит за тысяч 40 - 100, и ещё в эту выборку попадёт пара десятков миллионеров и пара миллиардеров, и в среднем выйдет, что люди получают 340 тысяч в месяц. И я как научный сотрудник, который должен зарабатывать "200% от средней зп по региону" прекрасно знаю, как высчитывается эта цифра, чтобы и Путин с майскими указами был сыт, и ФОТы целы.

Так что медиана именно для зарплат рулит при любой более- менее показательной выборке.

Сейчас в РФ медиана 75к, средняя 90к.
Разница в 20% относительно большая, но не критичная.

Если взять 2021 год, то там 40к и 60к, что даёт разницу в 50%.
Т.е. прогресс в сторону выравнивания есть.

(Средняя-Медиана)/Медиана

PS. Зарплаты немного округлил, т.к. это комментарий, а не статья.

Всегда было интересно а есть ли цифры по России но без Москвы? и было бы интересно сравнить их с Москвой

Не мешайте научному работнику своим скучными цифрами. Ну хочет он 200% от медианы вместо средней — пожелаем ему успеха в его борьбе:)

Даже во всех представленных случаях медианное значение более показательно чем среднее.

А крайние значения (определенный процент в зависимости от цели) слева и справа обычно специально отбрасывается

Вообще то медиану используют потому, что это более правдивый показатель при любом распределении. Если медианная зарплата - значит половина людей точно получает эту сумму, а то и больше. А средняя зарплата вообще непонятно что показывает - может 10% людей получают такую сумму, а может и 45%, никто не знает.
Конечно лучше бы приводили 90ый-процентиль, но и медиана - уже хорошо!

Ну точно не. Автор в целом тему говорит, просто бугурт не туда

А средняя зарплата вообще непонятно что показывает

Нее. Понятно. Если ее умножить на количество сотрудников, то мы получим общую сумму, ушедшую на оплату труда в организации. Т.е. все от задачи зависит.

Так получается телега впереди лошади, среднее - это метрика, для которой общая сумма уже известна и является входным параметром для расчета. Средняя ЗП в стране 100 тугриков - ни о чем не говорит, потому что распределение непонятно, а вот средняя 100 тугриков, а медианная - 10 говорит о сильном перекосе зарплат.

это метрика, для которой общая сумма уже известна и является входным параметром для расчета.

Кому-то известна, кому-то - нет.

Да просто нельзя посчитать среднюю, не зная общей суммы. Вам правильно написали...

Ну если есть действительно репрезентативная выборка, то... :)

Если 100 рабовтников получает зп 10.000 тугриков, один получает 100.000, а ещё 100 (эффективных менеджеров) получает 1.000.000 - то какая будет медианная зп ?

А средняя? Вы сами то хоть считали? Даже в этом случае медиана лучше.

Вот прямо сегодня продакту рассказывал, что медиана для его кейса ни о чём не говорит и продукт на неё никак не влияет. Возили курьеры заказы и сами разбирались кто какой заказ повезёт. Решение за них стала принимать система. Заказов столько же, курьеров столько же, ставка такая же. Ни средняя ни мидиана не изменились и не должны были измениться. Другое дело, что раньше были курьеры, которые зарабатывали 7, а были кто зарабатывал 3. Но это уже другая история про отклонения и возможность найма ребят подешевле.

Медиана - робастная оценка.

Оценка, на которую не влияют выбросы, называется робастной (robust). 

Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть.

Ну тогда стоило привести примеры.
Когда медиана уместна, а когда другие более показательны.
А так это больше похоже на наброс, а не на конструктив.

Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.

"Когда кажется, креститься надо", ну или хотя бы самому разобраться, прежде чем писать.
Что вам среднее показывает того, что не показывает медиана в ваших данных?
Что вы хотели увидеть? Какая цель?

еще полезно динамику зп определять по "среднее геометрическое" : Предположим, например, что человек инвестирует 1000 долларов и получает годовую прибыль в размере +10%, −12%, +90%, −30% и +25%, в результате чего конечная сумма составляет 1609 долларов. Средний процентный рост — это среднее геометрическое годовых коэффициентов роста (1,10, 0,88, 1,90, 0,70, 1,25), а именно 1,0998, то есть среднегодовой рост составляет 9,98 %. Среднее арифметическое этих годовых доходов составляет 16,6 % годовых, что не является значимым средним показателем, поскольку темпы роста не складываются аддитивно.

Есть еще мода, или модальное значение - самое часто встречающееся число. Например в ряду 25, 50, 50, 50, 100, 400, 500, 1000000, 2000000, 1000000000 это будет 50. В статистике зарплат это самый интересный показатель, но чтобы что-то значимое получилось, надо округлять, допустим до десятков тысяч рублей.

а вы думаете в названии статьи МОДА в какой коннотации ? ))

Если честно, то ни средняя, ни медианная зарплата не имеет никакого практического смысла. Что реально имеет значение - это какая зарплата у тебя лично прямо сейчас)

Ну так медианная это и показывает: если ткнуть в случайного человека, то у него окажется медианная. А вот средняя с меньшей вероятностью, хотя автору почему-то средняя больше "нравится "

Для предпринимателей средняя как раз имеет смысл. Допустим, вы прикидываете, а не открыть ли IT-подразделение рыл так на 100. Среднюю зарплату айтишников можно тупо умножить на 100 и получить примерный размер ФОТ (фонда оплаты труда). И там уже будет учтён и директор, и стайка студентов-джунов. С медианой вы так не сделаете.

  1. Медиана не должна применяться вместо или без Средней.

  2. Средняя важнее, т.к. она применяется вместе с другими ключевыми техниками (ЦПТ, сигмы, квантильный анплиз)

  3. Сравнивать две совокупности/выборки по средним можно, по медианам - почти что нельзя.

  4. Средняя должна считаться по очищенным данным (выбросы - ошибки ввода убираем, выбросы - ЗП топов госкомпаний, протерев глаза, оставляем). В большинстве случаев в журналистике этого никто не делает. Ошибок все меньше, так что пункт самоликвидируется году так к 2030 (по зарплате в России).

  5. Зарплата - лучшая тема для рассуждений обо всем, равнодушных нет. В РФ с некоторыми рук. госкомпаний, получающими 4 млн в день - создаётся идеальная иллюстрация важности Медианы. Именно из-за этих счастливчиков средняя в РФ 90, а медиана 75. И хотя их мало - получают они так много, что дают те самые 20% разницы. Которые порождают 80% народного гнева (правило Парето, но в данном случае шутка).

Впрочем, ситуация сейчас меняется к лучшему, и это хорошо. Ещё некоторые недовольные забывают что 90 и 75 это до вычета налогов, а свою ЗП до удержаний они не знают. Там не только НДФЛ 13-15%, но и 20% людей с исполнительными листами, корпоративными ипотеками, распоряжениями по квартплате, начетами итд. Прочесть расчетный листок или 2-ндфл могут единицы процентов.

Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных.

Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже.

Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены.

Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше.

P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно.

Только мода сильно зависит от округления. Если брать с з/п с точностью до копеек, вполне может вылезти какое-нибудь странное число (зарплата стрелочника третьего разряда в ржд или минимальная зп в МСК). Если округлять до тысяч или десятков тысяч - тогда такого не случится, но точность будет ниже.

Sign up to leave a comment.

Articles