Как изменились хабравчане за 5 лет? Или «280 недель спустя»

    Мы стали старше, женатых/замужних стало в полтора раза больше (влюбленных на треть меньше), а число терпимых к алкоголю выросло на четверть.

    Если вы хотите посмотреть, как изменились хабравчане за 5 с лишним лет, добро пожаловать под кат.


    Предыстория


    Поздней осенью 2014-го года я опубликовал статью «Кто подписан на Хабрахабр?». Она была результатом моих упражнений с VK API: я спарсил себе базу всех, кто подписан на группу Хабра в VK, а затем кратко проанализировал. Пол, страна, город, возраст и т.д. и т.п… В общем, все, что доступно из профиля в ВК.

    Среднестатистическим подписчиком Хабра оказался… Впрочем, лучше приведу цитату из комментариев:



    Прошел год, два, три… Я периодически напоминал себе о том, что неплохо бы написать такую же статью заново, сравнив показатели хабравчан с образцами конца 2014-го.

    Наконец-то, в феврале этого (2020-го) года, я решил, что «пора». Но тут меня ждал сюрприз.
    Скачать подписчиков Хабра больше не представлялось возможным.



    Что же делать? Отложить статью еще лет на пять? Ну уж нет! Старая база подписчиков то осталась (не буду описывать каких трудов стоило вспомнить об этом, а затем и достать ее).

    А значит можно сделать не менее интересное сравнение. Взять подписчиков из осени 2014-го, скачать их текущие данные и проанализировать, что изменилось у одних и тех же людей за эти 5 лет.

    База для исследования


    Раздобыв старую базу и скачав данные пользователей заново, необходимо было понять, а есть ли вообще кого с кем сравнивать?

    Во-первых, человек мог удалить профиль (я и сам удалял его на долгое время), во-вторых, он мог его закрыть, а значит данные не получить (у меня и у самого он закрыт).



    Ну и последнее: пользователь мог просто перестать быть активным. С одной стороны, ну и что, данные то можно скачать. Но если уж мы отслеживаем изменения, то кажется разумным брать тех пользователей, кто по сей день в VK захаживает. Редко появляющиеся пользователи вряд ли будут менять данные в анкете (да и активные то не факт, если честно).

    Под активными мы будем понимать заходивших на сайт хотя бы раз за последние 30 дней.

    И вот что получается:



    Вот тот самый верхний зеленый рукав и есть наша целевая аудитория. Не удалились, не закрылись, активность сохраняют.

    Из 350 тысяч, которых мы разбирали 5 лет назад, до наших дней таковых дожило лишь ~154к юзеров (~43%!). Если приплюсовать активных, но закрывших страницы, то получится около 200 тысяч или ~58%.

    Подобная картина, если честно, побуждает меня на размышления о судьбе социальных сетей вообще и ВК в частности, но я, пожалуй, посвящу им отдельную статью. Надеюсь, пораньше, чем через 5 лет.

    Итак, сравнивать мы будем 153 741 пользователя, оставшегося активным и открытым на просторах Вконтакта. Их данные из 2014-го, против их же данных из 2020-го. Поехали.

    Что вообще изменилось то?


    Стандартное примечание
    Здесь и далее речь идет лишь о данных, указанных в ВК самими пользователями. Конечно, же в них есть ошибки, а еще больше заведомо недостоверной информации. Выборка не является репрезентативной для всех пользователей Хабра и тем более для всех жителей России и/или ближнего зарубежья.

    Для удобства я буду говорить «хабравчане стали...». Но в действительности это надо читать как «пользователи ВК, подписанные на паблик Хабра, которые были активны в 2014-м году и активны сейчас, стали...»

    Не будем тянуть и сразу посмотрим на то, насколько неизменны те или иные поля в анкетах.
    Как известно, не все поля в профиле обязательны для заполнения, поэтому сравнивать изменения мы будем только по тем полям, которые были заполнены у юзера и в 2014-м, и сейчас.

    Пример.



    Довольно слов, давайте к цифрам.

    Процент неизменности поля.

    В скобках число юзеров, которые не изменили/изменили поле (напомню, учитываем только заполненные поля).



    Про каждое поле можно говорить отдельно, чем мы и займемся.

    Для начала, поля, которые я рассматривать не буду


    Пол, вуз, год выпуска

    Самые минимально изменившиеся параметры. Вряд ли тут нужны комментарии.

    Имя, религиозные взгляды, место работы

    С вашего позволения я пропущу эти поля, так как все они являются текстовыми, что сильно усложняет их анализ. А любое исправление опечатки или смена имени «Ваня» -> «Иван» (а именно таким образом обычно имя и меняют) лишь засорят выборку.

    Тип занятости и уровень образования

    Чтобы не затягивать статью, опущу и эти поля. Прошло 5 лет и абсолютно понятно, что произошло. Школьники стали студентами, бакалавры магистрами, студенты выпускниками и сотрудниками компаний. Вряд ли тут можно найти что-то интересное.

    Если вам вдруг хочется узнать что-то про изменения в этих параметрах, напишите в комментариях.

    А теперь к полям, которые рассмотрим подробно.

    Возраст


    Если честно, я думал, что в основном возраст меняют с/на фейковые даты типа 01.01.1905 или что-то в этом духе.

    Однако, нет. Возьмем пользователей, сменивших возраст. Возьмем дельту в днях (отрицательная — омолодили себя, положительная — состарили).

    Распределение будет выглядеть так:



    Конечно, есть и изменения на десятки лет, как я и предполагал. Но большинство изменений сконцентрировано около нуля. Взглянем поближе, оставив интервал лишь в ± 10 лет.



    Что это за пики, думаю, вы догадались. 365, 730, 1095 дней…

    Люди предпочитают менять возраст сразу на года, чего мелочиться.

    Зачем? Зачем сменить свою дату рождения на условный 1918-й год, я понимаю. Этакая демонстрация «не хочу показывать свой год рождения, не ваше дело». Обратная метаморфоза тоже естественна.

    А сдвинуть на пару лет… У меня нет точного ответа. Только предположение: если приглядеться, менять предпочитают в меньшую сторону, то есть немного себя омолаживая.

    И, да не обвинят меня в сексизме, но:



    Распределение скошено влево у обоих полов, но в правой его части почти нет женщин. (Если вас смутило, что у мужчин значения сами по себе больше, то это потому что их доля среди хабравчан выше).

    То есть менять возраст в меньшую сторону любят представители обеих полов, но женщины делают это чаще.

    Различия эти между полами очевидно статзначимы (что подтвердит и Манн-Уитни, и t-test при p<0.01), однако я им крайне удивлен. Кажется странным, что кто-то пытается скрывать свой реальный возраст в ВК, путем смены дат рождения.

    Впрочем, вполне вероятно, что я ошибаюсь и у данного поведения иные причины, нежели чем желание «омолодиться».

    Еще возможная гипотеза: школьники, которые зарегистрировались лет в 12 (официально регистрация возможна с 14 лет), а потому накинувшие себе пару лет, а теперь возвращающие реальные даты рождений обратно. Проверять ее, я, конечно, не буду (по крайней мере в рамках статьи).

    Если есть идеи, подскажите в комментариях, что еще я мог упустить.

    Страна


    Среди представителей ИТ-сектора миграция явление вполне обыденное.

    Возьмем страны, к которым относятся хотя бы 150 подписчиков Хабра, чтобы отфильтровать выбросы. И посмотрим на:

    1. Сколько людей «уехало»/«приехало» в страну
    2. Как изменилось общее число подписчиков, относящих себя к этой стране



    Лидер по относительному «приросту» — Нидерланды и Польша.

    Про Нидерланды ничего не могу сказать, видимо, хороший вариант для переезда ИТ специалиста (да у меня у самого знакомый туда переехал пару лет назад). Почему в лидерах Польша, узнаем чуть позже.

    Лидер по оттоку — Украина. Результат вполне объяснимый.

    Во-первых, если я верно помню, гражданам Украины теперь легче уехать на работу в страны ЕС.
    Второе направление возможной миграции — Россия. Соцсеть «ВКонтакте» заблокирована на Украине и вообще ассоциируется с Россией. Учитывая все то, что происходит между нашими странами последние годы, логично предположить, что в основном в ВК остались более-менее пророссийские пользователи из Украины, которые вполне могли и переехать в Россию на самом деле.

    Давайте посмотрим на то, откуда и куда уезжали (я оставил лишь страны, откуда «уехало» хотя бы 100 подписчиков).



    Большинство из уехавших переместилось в Россию, что логично, учитывая что VK российская соцсеть. Кстати, наименьший процент уехавших в РФ показывают белорусы. Зато становится понятно, почему на предыдущем графике в лидерах оказалась Польша (Украина тут тоже внесла свой вклад).

    Кстати, насчет перемещений из Украины в Россию, можно было бы предположить, что такая картина получилась в результате «переброски» юзеров из Крыма. Но и в старом, и в новом датасете есть пользователи из городов Крыма, которые относятся как к России, так и к Украине (не знаю как тут ВК действует: предлагает ли сам выбрать страну или зависит от даты регистрации, не знаю). Так что вряд ли дело в этом.

    Из самой же России предпочитают «уезжать», прежде всего, в США. Далее по списку Украина, Германия и Казахстан.

    Город


    Раз уж говорим о миграции, то и города надо затронуть.

    Оставлю только города, в которых относительные изменения численности по модулю были выше 10% и в которых живет (или жило) более-менее большое количество народу.



    Конечно, очень трагическая ситуация с Луганском и Донецком, думаю, тут все понятно без лишних комментариев.

    То что по абсолютам понаехавших приехавших лидируют Москва и Питер, в то время как в регионах отрицательный баланс, вполне ожидаемо, тут ничего не меняется:



    А вот лидерство Сочи и Краснодара по относительным показателям любопытно. Тренд на переезды в теплые края?

    Фамилия


    Если имя, как я говорил выше, корректируют не всерьез (в основном изменяя формы одного и того же имени), то фамилии чаще меняют по-настоящему. И причина очевидна: многие хабравчанки повыходили замуж.



    Отношения


    Раз уж заговорили о замужестве, то логично взглянуть на изменения в делах любовных. А точнее в поле «отношения».

    Вверху доля юзеров по различным статусам отношений и в разбивке «было/стало».
    Внизу — изменение доли конкретного статуса в процентах. Здесь и далее: синим — было, оранжевым — стало.



    Вполне логично, мы стали старше, а значит и максимальный прирост у статуса «в браке». Причем это единственное изменение в плюс. Все остальные статусы ушли в минус. И даже влюбленные.
    Романтиков стало меньше?



    Но не будем спешить с выводами, давайте посмотрим на матрицу «Было/стало».



    Чем меньше изменений, тем зеленее диагональ. Но это не так, что вполне логично — влюбленные, помолвленные и имевшие партнера в большинстве своем переженились (так что падение романтиков фиктивное, они просто сделали level-up).

    Стабильность же демонстрируют статусы «в браке» и свободен. А половина из тех, у кого все было сложно, свои проблемы решили. Причем почти с равновероятным исходом: свободны и в поиске стали 24% пользователей, ровно столько же обрели партнера (помолвлен, есть партнер, в браке). Куда относить влюбленных до конца не ясно. Любовь бывает безответной.

    Политические взгляды


    «Если в 20 лет вы не революционер, то у вас нет сердца...» Далее по тексту.
    А что происходит за 5 лет?

    Тут надо оговориться:
    Набор политических взглядов в ВК всегда был довольно странным. Чем отличаются индифферентные от умеренных? А ультраконсерваторы это кто? Это такое стыдливое название для ультраправых или, наоборот, для тех кто тоскует по СССР? В общем, это поле всегда вызывало кучу вопросов.



    Как мы видим, половина хабравчан по-прежнему сохранила умеренность или безразличие в политических вопросах. Затем идут либералы и монархисты.

    Единственный значимый рост показало либертарианское политическое течение. Думаю, это связано с увеличившейся популярностью этого движения в последние годы. Но в абсолютах это все равно крохи.

    Матрица в этот раз будет с четкой диагональю.



    Самыми неустойчивыми оказались коммунисты. Заветам Маркса и Энгельса остались верны только 3/4. У либертарианцев так же, и это несмотря на рост, о котором говорилось выше.

    Что, впрочем, не так далеко от консерваторов и социалистов. Самые стабильные же как раз политически умеренные и индифферентные хабравчане.

    Алкоголь




    Забавная, на мой взгляд, картина:) С течением времени оказывается, что алкоголь не так уж плох, и отношение к нему можно сменить на компромиссное, а то и положительное.

    Если считать «резко негативное» за 1, а «положительное» отношение за 5, то среднее скакнуло с 2.75 до 2.87 (различия будут значимы, p<0.001).

    Не знаю, с чем это связано. Возможно свою роль сыграла популяризация винной и пивной (крафтовой) культуры в последние годы, и употребление алкоголя перестало ассоциироваться с нажиранием в слюни. А возможно, люди с возрастом становятся менее радикальны во взглядах и вообще перестают воспринимать что-либо «резко негативно».

    Курение


    Наконец-то, последний пункт.



    Такая же динамика, как и с алкоголем, но в целом к курению отношение значительно более негативное, чем к алкоголю (данный факт я отмечал еще и в прошлой статье, это в целом общемировой тренд).

    И снова аналогичные гипотезы: или с возрастом становишься терпимее ко всему, либо свое дело сделала мода на вейпы/кальяны и прочие способы курения, декларируемые как менее вредная замена табаку.

    Заключение


    Ну вот и все. Никаких выводов не будет, статья пятничная. Просто надеюсь, что тебе, 29-летний женатый выпускник МГУ, имеющий умеренные политические взгляды и изредка попивающий вино, было хотя бы немного интересно.

    Средняя зарплата в IT

    110 000 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 8 580 анкет, за 2-ое пол. 2020 года Узнать свою зарплату
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 19

      0
      Впрочем, лучше приведу цитату из комментариев:

      Однажды с подобной практикой у меня вышел забавный случай.
      В разговоре с одним дядькой на меня повесили аккурат такое среднестатистическое описание, которое совершенно не про меня. Но я согласился с этим описанием и человек довольный довел до меня мысль о своих скиллах проницательности. В ответ на что, я ему признался о ложном ответе и у нас завязался диалог, как проверить истинность согласия при таких среднестатистических описаниях…
      Ведь если с вами согласились, это еще не значит, что вы оказались правы.
        0
        Так я ж тут за язык не тянул, Koncopd сам.
        Так что, надеюсь, с его стороны это было искренне
        • НЛО прилетело и опубликовало эту надпись здесь
          +1
          Знаю одну из причин менять возраст. Например, дети не могут зарегистрироваться на вк. Но они там есть. Потом, когда они подрастают и становятся читателями Хабра, они приводят свой возраст в соответствие с паспортным.

          PS. Подскажите, пожалуйста, как называется такая диаграмма, как на рисунке «Активность пользователей 2014 vs 2020»? И каким инструментом её можно сделать? Спасибо.
            0
            Например, дети не могут зарегистрироваться на вк. Но они там есть. Потом, когда они подрастают и становятся читателями Хабра, они приводят свой возраст в соответствие с паспортным.


            Да, я об этой гипотезе тоже пишу:
            школьники, которые зарегистрировались лет в 12 (официально регистрация возможна с 14 лет), а потому накинувшие себе пару лет, а теперь возвращающие реальные даты рождений обратно
              0
              Подскажите, пожалуйста, как называется такая диаграмма, как на рисунке «Активность пользователей 2014 vs 2020»? И каким инструментом её можно сделать? Спасибо.


              Sankey.
              Конкретно эта сделана с помощью Python'a пакет plotly.

              Вот код с захардкоженными значениями, как у меня в статье:

              data = dict(
                  type='sankey',
                  node = dict(
                    pad = 25,
                    thickness = 20,
                    line = dict(
                      color = "black",
                      width = 0.5
                    ),
                    label = ["Не удаленные (2014) 332 593", "Удаленные (2014) 22 092", 
                             "Не удаленные (2020) 285 201", "Удаленные (2020) 69 484", 
                             "Активные 203 538", "Не активные 151 147",
                             "Открытый профиль 153 741", "Закрытый профиль 49 797",
                             "Открытый профиль 148 391", "Закрытый профиль 2 756"
                            ],
                    color = ["lightgreen", "red", "lightgreen", "red", "lightgreen", "red", "lightgreen", "red", "red", "red"],
                  ),
                  link = dict(
                    source = [0,0,1,1,2,2,3,4,4,5,5],
                    target = [2,3,2,3,4,5,5,6,7,8,9],
                    value =[282530,50063,2671,19421,203241,81960,69484, 153741, 49797, 148391, 2756 ]
                ))
              
              layout =  dict(
                  title = "Активность пользователей 2014 vs 2020",
                  font = dict(
                    size = 10
                  )
              )
              
              fig = dict(data=[data], layout=layout)
              
              
              py.plot( fig, validate=False)
                0
                Спасибо, диаграммы Сэнкея просто прекрасны. Пожалуй, я впервые столкнулся с диаграммой, которую нельзя сделать в экселе.
              +1
              В 2014-м был радикально против любого алкоголя, но потом женился, появились дети, проекты стали напряжнее и пара бутылок вина в месяц просто необходимое лекарство для стабилизации нервов. Так что статистика не врет :))
                +3
                … пара бутылок вина в месяц просто необходимое лекарство для стабилизации нервов.


                Ну пара бутылок в месяц, ИМХО, это вообще чисто психологический эффект. Особенно если вино качественно, а сам процесс эстетичен: правильные бокалы, попытки различить всякие нотки в аромате и т.д. и т.п.
                  +3
                  2014 — Отрицание
                  Злость
                  Торг
                  Депрессия
                  2020 — Принятие
                  ))

                  У меня до сих пор отрицание алкоголя. Семьи нет, работа не нервная. Спокоен как Будда.
                    0
                    У меня до сих пор отрицание алкоголя. Семьи нет, работа не нервная. Спокоен как Будда.

                    Да вообще говоря, я не думаю, что наличие нервной работы или семьи самой по себе сильно влияет на принятие или отрицание алкоголя. Скорее важен круг общения, кмк. Что на работе, что вне ее.
                      0
                      В моём круге общения, к сожалению нет совсем не употребляющих. Лучший друг и тот, женившись и заведя ребёнка начал иногда по вечерам и всегда по праздникам в меру «расслабляться». Не думаю что его жена с ребёнком бухают и его заставляют, а на работе так вообще пить нельзя)
                • НЛО прилетело и опубликовало эту надпись здесь
                    +6
                    Я правильно понял, что автор анализировал хабровчан по профилям в ВК и таким образом получил 24-летнего холостого выпускника вуза? Если так, непонятно, какая связь между анализом аудитории ВК и анализом аудитории Хабра. Сделайте выборку из TikTok и вы получите 15-летнего школьника без политических взглядов со сложными отношениями. Выдерните данные из Livejournal и получите 45-летнего женатого айтишника. Как эти данные из отдельных соцсетей коррелируют с общей аудиторией Хабра?
                      +1
                      Я правильно понял, что автор анализировал хабровчан по профилям в ВК и таким образом получил 24-летнего холостого выпускника вуза?

                      24-летний холостой выпускник — это пять лет назад. В статье как раз я смотрю за тем, что у них изменилось за пять лет.

                      Сделайте выборку из TikTok и вы получите 15-летнего школьника без политических взглядов со сложными отношениями

                      Несомненно.
                      Но я же специально и в прошлой, и в этой статье делал примечание на эту тему:
                      Здесь и далее речь идет лишь о данных, указанных в ВК самими пользователями. Конечно, же в них есть ошибки, а еще больше заведомо недостоверной информации. Выборка не является репрезентативной для всех пользователей Хабра и тем более для всех жителей России и/или ближнего зарубежья.

                      Для удобства я буду говорить «хабравчане стали...». Но в действительности это надо читать как «пользователи ВК, подписанные на паблик Хабра, которые были активны в 2014-ом году и активны сейчас, стали...»
                      +1

                      Спасибо за интересную статью! Какими инструментами Вы пользовались для анализа? R / Python / коммерческие типа Statistica / SAS или же старый добрый Excel?

                        0
                        Python, визуализация — Tableau.
                        +3

                        А какие ресурсы читают выпускники топовых технологических университетов мира, возрастом 35+ и занимающие высокие должности?

                          +2
                          Как только такие люди начнут массово сидеть в ВК, сразу же дополню статью

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое