Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже.
Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены.
Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше.
P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно.
Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже.
Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены.
Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше.
P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно.
"если функция f(x) непрерывна, но имеет точки перегиба, то k=2" - мне кажется, подразумеваются точки излома, а не точки перегиба