Социальное неравенство и зарплаты чиновников

    Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!

    Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!

    Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.

    San-Francisco

    Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.

    Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.

    Распределение заработных плат


    В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.

    Вот так выглядит распределение базовых доходов сотрудников за 4 года:
    Базовые доходы

    Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.

    Теперь посмотрим на распределение общего дохода сотрудников:


    Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.

    В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.

    Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.

    Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:


    Как видно, медианный доход штатника составляет около $130.000 в год.

    Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.

    Проверим, так ли это:


    На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

    Социальное неравенство


    Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.

    Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):


    Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.

    На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.

    Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.

    Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:


    Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.

    Эффект Матфея


    Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!

    На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.


    Теперь давайте построим графики среднего дохода высшего и низшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в низшем дециле существенно упал на -12,6%.


    Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.

    Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.

    Карьерный рост


    Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.

    Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:


    Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.

    Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.

    Заключение


    Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.

    Мы можем отметить следующие тезисы:
    • зарплаты в муниципалитете очень скученны
    • хороший специалист может зарабатывать не меньше посредственного руководителя
    • медианная зарплата несильно отличается от средней
    • разрыв доходов между богатыми и бедными увеличивается
    • даже в спокойной госслужбе есть возможности для карьерного роста

    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.
    Поделиться публикацией
    Комментарии 62
      +1
      Свечки по-моему не репрезентативны, тем более с группировкой по годам. Гистограмма со смещением или график отношения к первому году выглядели бы более внятно.
        +22
        Я-то было подумал тут про РФ. Свечки были бы мягко говорят другими, я полагаю.
          +10
          «Свечки» в наших ареалах плавно превращаются в остроконечный скипетр, при этом конец скипетра пробивает не только небеса, но и вселенную…
            +11
            В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
            В статье есть ссылка на подборку статистики, можете ознакомиться.
              +6
              Не все же доходы попадают в статистику. Особенно, в России.
                +23
                Я вам — подробную статистику, а вы мне — голословные суждения. Нехорошо. Могли бы хоть википедией прикрыться.

                Если вкратце — есть способы засунуть «не все» доходы в статистику.
                  +1
                  Только вот эти способы смазывают всю картину или делают всю статистику нерепрезентативной. А часто подобное еще и «подкручивают», по разным причинам, до желаемых или просто неверных результатов. Как проводятся соцопросы случайных людей и фокус-групп знаю. Как и методы с предсказанием по особым группам. Единственная статистика, которой можно более-менее верить в этом — это как раз что-то вроде данных по которым вы сделали это исследование. Остальное — цифры чуть ли не с потолка или рассчеты по сомнительным методам, без научного подтверждения верности методов, нерепрезентативные выборки и т.д. Да даже о двойном слепом методе часто и не вспоминают.
                  0
                  Да даже если и попадают… Зарплата моей жены= МРОТ (бюджетник), а средняя з/п в регионе по данным статистики в 3-5 раз выше. Что же получается- в регионе очень мало работников бюджетной сферы? Или просто у кого-то (скажем, главврача местной больницы) доход на порядок выше?
                    0
                    Потому и есть смысл всегда указывать еще и медиану.
                      0
                      Кстати интересно, какой процент работающего населения занят в бюджетной сфере? На вскидку кажется должно быть около 15%
                        0
                        В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.
                      0
                      А вы думаете, что статистика неравенства доходов госслужащих совпадает с такой статистикой для населения в целом?
                        0
                        Неравенство для населения в целом будет существенно больше.

                        Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
                          0
                          Вот именно. Так что та ссылка, которую вы привели, не даёт оснований утверждать, что

                          статистически причин увидеть другие «свечки» нет


                          Если даже для США в целом такие причины есть!

                          Тем более даже не уточнив, например, идёт ли речь о всей РФ или о бюджетниках какого-нибудь аналогичного по статусу города.
                    –1
                    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе.

                    Ну вот как-то да…
                    На основе данных (например) Росстата было бы что-то более актуальное и интересное, наверное.
                    В любом случае, спасибо за статью.

                    Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

                    Я так понимаю ящик с усами построен с отсечением выбросов сверху? То есть в расчете средней и медианы выбросы не принимали участия?
                      0
                      Среднее точно считалось по всем данным.
                      Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
                        0
                        «усы» точно отбрасывают учитывают выбросы


                        Мм?
                          +1
                          Опечатался, поправил.
                      +4
                      Благодарю. Прекрасный короткий обзор, который может дальше использован как пример для подобного анализа для других стран и групп.
                      Кстати, Норвегия, наверно единственная страна в мире, где данные доходов, налогов и капиталов каждого человека доступны публично (с некоторыми ограничениями) для всех.
                      Вот например норвежский топ 100 богатых по доходам/налогам/капиталу по областям/районам
                      www.dn.no/skattelister/#!/Norge/2014/
                        0
                        О, спасибо за наводку!

                        И за комплимент. =)
                          +4
                          Статья классная! А уж если бы кто проанализировал данные по Норвегии, это было бы вообще очень ценно для понимания реальности.
                        +3
                        Только один вопрос — почему Вы называете это Data Science?
                          +6
                          Вспомним известную цитату.

                          Потому что Data Science, как и Big Data — это как секс в разговорах подростков.
                          Все это обсуждают, но никто не знает, что это такое на самом деле.
                            +62
                            Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.
                              –1
                              Сарказм засчитан :)
                            0
                            «На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному». Судя по диаграмме, это скорее распределение Релея, хотя возможно это случайность.
                              0
                              Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

                              Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
                              +4
                              По тексту до хабраката не понятно, что речь идет не о России. Нехорошо.
                                0

                                Здание transamerica pyramid известное вроде бы

                                +15
                                Смешанное чувство, когда твоя зарплата находится в зоне статистической погрешности… Снизу…
                                  –6
                                  Социальное неравенство это проблема? Мэр города должен получать столько же, сколько уборщица? На мой взгляд госслужащим наоборот недоплачивают, потому что не должен мэр получат меньше руководителя самой крупной корпорации в том же городе. А так сколько платим — такую власть и имеем, что туда только воровать с такой зарплатой идут, что у нас, что в США.
                                    0
                                    Главнее всех — бухгалтерия, а главный в бухгалтерии — главный бухгалтер.
                                      0
                                      Как в США-то воровать, посодют же.
                                        +4
                                        Роковая ошибка в вашей логике, что руководитель всегда работает на владельца.
                                        У компании владелец — это конкретный человек или группа. У города — население этого города.
                                          –1
                                          Бедные, бедные депутаты с зарплатой 400 т.р. (+ премии и овер 9000 льгот). На такую зарплату у нас можно только выживать, но не жить.
                                            0
                                            Подавляющие число людей, способных к административной борьбе (при этом могут слабыми работниками в целом), часто ненасытны в деньгах или власти, и не менее часто добиваются и того и другого не чистыми методами. Вывод, высокие зарплаты не гарантируют вообще ничего, кроме высокого ФОТ и потенциально, ещё большего воровства.
                                            +6
                                            Карьеру интересно изучать в разрезе распределения по отдельным профессиям
                                            у архитекторов, юристов и врачей видно «2-е дыхание»,
                                            тоже неплохо инженерам, пожарным, полицейским и мэрам)
                                            image

                                              +9
                                              Хорошая профессия — Animal.
                                                0
                                                я сначала подумал, что это всякие собаки на службе, питомцы зоопарка и т.п., но потом увидел

                                                код R
                                                query = «select Id,
                                                case when jobtitle like '%fire%' then 'Fire'
                                                when jobtitle like '%police%' then 'Police'
                                                when jobtitle like '%sherif%' then 'Police'
                                                when jobtitle like '%probation%' then 'Police'
                                                when jobtitle like '%Sergeant%' then 'Police'


                                                when jobtitle like '%MTA%' then 'Transit'
                                                when jobtitle like '%transit%' then 'Transit'
                                                when jobtitle like '%anesth%' then 'Medical'
                                                when jobtitle like '%medical%' then 'Medical'
                                                when jobtitle like '%nurs%' then 'Medical'
                                                when jobtitle like '%health%' then 'Medical'
                                                when jobtitle like '%physician%' then 'Medical'
                                                when jobtitle like '%Orthopedic%' then 'Medical'

                                                when jobtitle like '%health%' then 'Medical'
                                                when jobtitle like '%pharm%' then 'Medical'
                                                when jobtitle like '%airport%' then 'Airport'
                                                when jobtitle like '%animal%' then 'Animal'
                                                when jobtitle like '%architect%' then 'Architectural'
                                                when jobtitle like '%court%' then 'Court'
                                                when jobtitle like '%legal%' then 'Court'

                                                when jobtitle like '%MAYOR%' then 'Mayor'
                                                when jobtitle like '%librar%' then 'Library'

                                                when jobtitle like '%parking%' then 'Parking'

                                                when jobtitle like '%Public Works%' then 'Public Works'
                                                when jobtitle like '%Attorney%' then 'Attorney'
                                                when jobtitle like '%MECHANIC%' then 'Automotive'
                                                when jobtitle like '%automotive%' then 'Automotive'
                                                when jobtitle like '%custodian%' then 'Custodian'
                                                when jobtitle like '%engineer%' then 'Engineering'
                                                when jobtitle like '%engr%' then 'Engineering'
                                                when jobtitle like '%account%' then 'Accounting'
                                                when jobtitle like '%Gardener%' then 'Gardening'
                                                when jobtitle like '%General Laborer%' then 'General Laborer'
                                                when jobtitle like '%food serv%' then 'Food Service'
                                                when jobtitle like '%clerk%' then 'Clerk'
                                                when jobtitle like '%porter%' then 'Porter'
                                                else null
                                                end as JobType
                                                from Salaries»
                                                  +1
                                                  Кажется, код не опровергает вашу версию.
                                                    +3

                                                    Есть служба "Animal control" — это всякие собаколовы и т.п. Типа отлавливать шарящихся по мусоркам енотов, выдворять из города медведей и т.п.


                                                    Кстати, один местный рассказывал такую хохму — делал очень реалистичный маскот-костюм льва, надел его испытать, разлёгся у себя на заднем дворе — а соседи через забор увидели, и вызвали этот самый Animal Control — "У соседа во дворе ЛЕВ!!!"

                                                      +2

                                                      Кстати, вот он:


                                                      image


                                                      А если по отдельности, то вот так:


                                                      image

                                                +1
                                                Ужасающе узкие распределения в низкоквалифицированном труде.
                                                  +2
                                                  Это логично. В низкоквалифицированном труде расти некуда. Если ты грузчик, то ты будешь таскать ящики. Делать это более профессионально фактически невозможно. Все тонкости труда познаются за неделю в худшем случае.
                                                –3
                                                А в России можно посчитать что либо подобное — а то чем интереснее по той или стране данные тем тщательнее их берегут от любопытных.
                                                  +2
                                                  Я хочу компьютерную игру (RTS), в которой вот такая вот статья будет одной главой туториала…
                                                    0
                                                    Вспомнилась Tropico)
                                                      0
                                                      Не играл… Стоит?
                                                        +1
                                                        Экономический градостроительный симулятор-RTS.
                                                        Мне игра понравилась юмором (крайне удачно локализована на русский) и колоритом бананового островного квазигосудартсва на Карибах.
                                                        На вкус и цвет, как говорится, но мне доставила весьма, особенно 3-4 части, несмотря что я набрёл на неe только в прошлом году.
                                                    0
                                                    А почему вы подгоняли под нормальный закон? Видно же, что нужно что-то другое посмотреть. Тот же хи-квадрат, весьма похоже описывает данные — резкий рост в начале и постепенное снижение в дальнейшем.
                                                      0
                                                      Доходы населения моделируют распределением Парето обычно
                                                        +1
                                                        По-моему логнормальное тоже иногда используют…
                                                          +1
                                                          верно, главное exp
                                                        0
                                                        Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

                                                        Задачи параметризовать выборку каким-либо распределением не стояло.
                                                        0
                                                        медианная зарплата несильно отличается от средней

                                                        в муниципальной сфере в СФ. Все таки это гос учреждение, публичные люди и все такое. Имхо именно в этой выборке медиана и должна была быть максимально приближена к средней. А вот в реальной (конкурентной среде частного бизнеса), это были бы другие цифры.
                                                          0
                                                          Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
                                                          В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
                                                            –1
                                                            nmnmnmmnmnm
                                                              0
                                                              Прошу прощенья, это был случайный коммент
                                                            0
                                                            Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.
                                                              –1
                                                              Кроме того можно сравнить средние месячные зп за 2012-2014 (до волнений) в месяц по оф. статистике:
                                                              в Норвегии — 3313$, Росии — 377$, Украине — 116$ и Индии —
                                                                0
                                                                Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.
                                                                  0
                                                                  Это очевидно, однако мы живем в мире, в социуме, и все-таки резонно посмотреть не только вертикально, но и горизонтально, тем более в комментариях.

                                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                              Самое читаемое