company_banner

Data Science: Про любовь, имена и не только. Часть II

    Потому что во многой мудрости много печали;
    И кто умножает познания, умножает скорбь.
    • Екклесиаст 1:18

    Кадры из фильма Казино Рояль (2006)


    Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.


    В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.


    В одном из комментариев я говорил о том, что вполне возможно, есть некоторый третий фактор, который коррелирует c именем и одиночеством. В качестве иллюстрации я привел пример с яблоками: положим, что одиночество зависит от того, сколько яблок ест девушка, и по какой-то причине девушки с именем Катя едят больше яблок, чем с имеем Маша. Понятно, что для каждой конкретной Маши или Кати это не значит ровным счетом ничего, но в среднем выходит, что одни одиноки более, чем другие, из-за того, что едят яблоки в разном количестве.


    На самом деле проблема сводится к другой ровно такой же: почему люди с одним именем едят яблок больше, чем другие? Однако объяснение этой корреляции может оказаться более простым.


    Cherry picking и статистическая значимость


    Прежде чем я продолжу, я сделаю несколько замечаний по поводу выборки в предыдущей статье, потому что мы продоложим с ней работать. С одной стороны, я действительно предпочитаю качественные аргументы. С другой стороны, я понимаю людей, который задают вопрос почему выборка была именно такой и статистически значимы ли результаты. Я сознательно ничего не писал про статистическую значимость, потому что ситуация, когда два "случайных" процесса ведут себя одинаково в разных системах, с разными людьми и механикой постановки статуса кажется мне совершенно невероятной. Что касается выбора имен, тут есть элемент случайности (я старался брать не только имена своих знакомых девушек, но и заполнять недостающие в частотном смысле части распределения), но я не делал ничего специально, кроме ограничения себя в количестве, а полученная таблица содержала 3 стабильные части совершенно независимо от моего желания.


    Однако, по просьбе трудящихся (как написано в одном из комментариев), я взял 100 абсолютно случайных имен, для которых было достаточно статистики в Одноклассниках и проверил, что будет если перемешать сами имена. Если бы я получил точно такое же распределение (после подсчета u), как предсказывали некоторые люди, то можно было бы говорить, что результат статистически не значим и в лучшем случае можно говорить о зависимости лишь от частоты имени. Однако тест Манна-Уитни показал p-value = 0.000256, т.е. начальное распределение и то, что получилось при перемешивании — совершенно разные вещи.


    Поэтому я и дальше буду использовать изначальные таблицы, считая их в достаточной степени репрезентативными для нашего исследования.


    У меня будут проблемы с вами, Бонд?


    Мой опыт работы в СПбГУ натолкнул меня на следующую мысль (мне кажется, она посетила не меня одного): а что если более умные люди более одиноки? То есть весь этот диалог между Бондом и Веспер на картинке из фильма Казино Рояль — это своего рода тавтология в вероятностном смысле.


    Хорошо известно, что IQ тесты не очень репрезентативны, да и померить IQ на прямую в социальной сети не представляется возможным. Но мы можем сделать следующее предположение: люди, которые имеют высшее образование, в среднем более умные, чем те, кто его не имеют. Конечно, это так себе критерий, потому что высшее образование есть почти у всех. Поэтому можно попробовать взять более или менее элитные учебные заведения, но такие, чтобы diversity по специализации было достаточно хорошим. Поэтому мы попробуем сделать следующее: для города Санкт-Петербург мы посмотрим распределение имен среди студентов СПбГУ, а для Москвы — соответственно среди студентов МГУ. Это опять же спекулятивное предположение, но в среднем оно вполне жизнеспособно для наших целей.


    Сделаем следующее: просто найдем тех, кто учился в СПбГУ и МГУ с заданным именем и поделим на число всех с таким именем в нужном городе. По правде говоря, имя Лейла тут стоило бы убрать, т.е. оно имеет некоторую "региональную специфику", но для полноты картины мы ничего трогать не будем.


    Давайте посмотрим, что же получилось и сравним с теми таблицами по городам Санкт-Петербург и Москва, что я сделал для предыдущей статьи:






    Здесь p = edu / all, т.е. доля девушек с данным именем (согласно статистике ВКонтакте), которые учились или учатся в СПбГУ в общем объеме людей с таким же именем в Санкт-Петербурге.


    Теперь тоже самое для МГУ:






    Давайте еще раз взглянем для сравнения на таблицы из предыдущей статьи. Вот распределение по Санкт-Петербургу (q — это унифицированный показатель "одиночества", полный спектр обозначений можно найти в первой части статьи).


    Статистика по Санкт-Петербургу



    Для Москвы распределение выглядит следующим образом:


    Статистика по Москве



    Видно, что по крайней мере верхняя и нижняя часть таблицы при сортировке по p и q более или менее совпадают, средняя немного перемешана, но каких-то существенных перестановок между частями не наблюдается. В случае имени Инессы есть некоторое несовпадение, для точного анализа нужно было бы отделить имя Инна и Инесса и посмотреть детали распределения по Москве и Санкт-Петербургу. Но здесь мы этого делать не будем, ограничимся лишь качественной оценкой. Для этого построим "зависимость" q от p для случая Санкт-Петербурга:




    Теперь такой же график для МГУ:




    То есть выходит так, что более умные и хорошо образованные девушки более одиноки. Это все конечно условно, и возможно например, что это лишь означает более поздний брак.


    Рейтинг университетов


    На самом деле, если есть корреляция между одиночеством и хорошим образованием, то, наверное, одиночество можно считать некоторой мерой качества образования и интеллекта (конечно, в вероятностном смысле). Поэтому я взял несколько хороших университетов, которые смог сходу вспомнить (и которые с некоторым трудом мне удалось найти в поиске в ВК) и решил посчитать для них те самые показатели q, u и v, которые в прошлой статье я сосчитал для множества имен. Как и в случае имен я взял и сделал сортировку по q (в качестве дополнительного параметра я посчитал diversity d = all / (all + all_m) по гендерному признаку, где all_m — это количество молодых людей в университете):


    Рейтинг одиночества


    Вам это ничего не напоминает? Правильно, если погуглить рейтинг университетов, то можно найти следующее (это верхушка национального рейтинга):


    Национальный рейтинг университетов


    Кто хочет увидеть полный рейтинг, тому сюда: Национальный рейтинг университетов 2017. Конечно в моей таблице не все ВУЗы, и для университетов с низким рейтингом это так не работает (к примеру, для РГПУ им. Герцена), однако это точно заставляет задуматься.


    Вместо заключения


    Трудно сказать, насколько сильно мы приблизились к пониманию происходящего. Однако корреляция между образованием и одиночеством уже не выглядит так безумно, как корреляция между именем и одиночеством.


    Здесь я использовал данные Одноклассников только для проверки статистической значимости результатов предыдущей статьи, а все остальное было построено целиком на данных ВКонтакте.

    Одноклассники

    93,00

    Делимся экспертизой

    Поделиться публикацией

    Похожие публикации

    Комментарии 38
      +3

      Думаю, еще немного, и вы окончательно откроете Америку — в среднем "более одиноки" женщины, чей социальный статус позволяет независимость.

        0
        Думаю, еще немного, и вы окончательно откроете Америку — в среднем «более одиноки» женщины, чей социальный статус позволяет независимость.

        Таки да! К томуже, умным людям одиночество не так страшно (тут-же на хабре была публикация об исследовании и в предыдущей статье автора, кто-то ссылку даван на эту публикацию). Однако, в соотвествии с этими таблицами можно сказать, что образованных девушек с именем Кира больше, чем с именем Екатерина. И если Вы хотите найти умную (или образованную) и одинокую девушку, то шанс что её имя будет Кира, статистически выше.

        Однако, я подозреваю что значение имеет не само имя, а среда в которой дают те или иные имена. Т.е. Василий и Екатерина из Мусохранска, с большей вероятностью назовут дочь Еленой или Наташей или Таней, чем Кирой.
          +1
          Как представитель «мухосранска» заявляю Вам, что мода на имена распространяется гораздо быстрее, чем Вы себе предполагаете ;)
            0
            1. Вы неверно прочитали название города.
            2. Я даже спорить не буду о скорости распространения, особенно в наш век когда расстояния, благодаря Интернет, особого значения не имеют.
            3. Eсть зависимость пупулярности имени от региона: 1, 2
            4. В одном я точно ошибался:
            И если Вы хотите найти умную (или образованную) и одинокую девушку, то шанс что её имя будет Кира, статистически выше.

            Это толькоисходя из статистики автора статьи.
          0
          Мне кажется, эти «очевидные» логические рассуждения не очень ценны. С одной стороны, да, конечно, чего тут считать-то, очевидно, что сильные женщины — более самостоятельны, чем слабые. Но с другой — они же и имеют больше возможностей для выбора хорошего мужа, то есть, должны быть «менее одиноки». И так на каждый аспект есть множество сил, которые в одну сторону действуют, и множество в другую. Куда бы движение не было — мы его легко обоснуем, назовем те очевидные силы. Но вот куда будет направлена эта равнодействующая сила — можно узнать только из статистики.

          Как в том анекдоте про аналитиков: Ты мне скажи, что происходит, а объяснить я и сам могу.
          +5

          Главное до закона выжившего не дойти.

            +1
            Помоему ничего удивительного, это все естественный отбор и регулирование популяции.

            «Умники» нужны как катализатор для поддержания уровня популяции, не более того. Можно сказать, что «умники», это разведчики посланные узнать новые места кормления и развития. Если ему это удастья, популяция начнет равняться на него и копировать его систему поведения и ценностей. (см. Билл Гейтс, Илон Маск, Дуров ...) Система примет его, иначе… он просто расходный материал.

            «Умник» очень опасный зверь, так как знает что хочет и постоянно ищет пути того, как это получить. Подобное «реактивное» движение губительно для систем главной задачей которых является поддержка собственной целостности. По этому система должна, и в нашем случае имеет средства контроля.

            «Умник» может дать оценку другим, чем может занизить самооценку других особей, а соответственно всей популяции в целом (вспомним отношение обладателей высшего образования к выпускникам пту и лицеев) Поэтому система, для которой мнение единицы мало что значит, защищает себя как на ментальном («батан», «ученый, поешь г… толченого» и т.п.), так и на физиологическом («на б...» и удар в лицо), и на программном (на детях гениев природа отдыхает).

            Вот такие дела ;)
              +3
              Так самая разумная версия была озвученя в комментариях к прошлой серии — фейковые профили. Они 1) чаще всего берут популярные имена 2) Записаны одинокими
              а теперь можно добавить, что еще и не пишут, что закончили престижный вуз

              По моему эта теория объясняет все наблюдения
                +1
                Если бы было одновременно 1) и 2) то все было бы иначе. Мне как раз кажется, что сама история с образованием много чего объясняет.
                  0
                  Ну вот Вы подумайте — создаёт фейковый профиль проститутка. Она будет выберет Кира или Наташа? Запишет себя одинокой илои замужем? Запишет что учится в МГУ или про образование ничего не напишет?
                    +5

                    Распределение имен проституток хорошо известно: распределение имен проституток.
                    Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.

                      0
                      а нельзя ли по странице в одноклассниках или Вк сделать предположение о реальности профиля?
                        0
                        По вк можно с очень высокой вероятностью. В зависимости: количество друзей, стоп-слова в именах, статусах, интересах, дата регистрации, вступление в узкие (немногочисленные) группы, наличие личных фото с лицами с разными датами загрузки и другие параметры…
                        0

                        А как в этот список попала Лариса Ивановна? :)

                  0
                  Факторов очень много. Встречал например такой, что образование это вероятность обеспеченной старости. Если вероятность обеспеченной старости низка, то требуются те, кто поможет выжить в старости — дети. На примере стран без пенсий было
                    +3
                    Есть еще вероятность, что более умные не создают профили в соцсетях. Выпускники вузов покруче чаще уезжают за границу, чаще знают языки и регистрируются в facebook/linkedin а не в vk/одноклассники.
                      0
                      Зачем студенту «вуза покруче» отказываться от вк, если чуть менее, чем все люди с его потока сидят имено там? (Говорю на примере МФТИ, к другим вузам, насколько я знаю, это тоже относится) И потом, те, кто уехал, свои профили вк обычно не удаляют.
                        –1
                        Закончите — потрёте или перестанете использовать. I did it. МФТИ.
                          0
                          Вы 1982 г.р(судя по профилю), так что, когда вк только появился, вам было 24 года…
                            0
                            Думаете, все люди идут учиться в ВУЗы сразу после школы и только один раз?
                      0

                      Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение q0 = single / married. Для девушек при сортировке по q0 поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (по q все как у девушек и по q0 тоже).

                        –2

                        Корреляция не означает причинно следственную связь. В англо-вики даже есть статья с примерами на эту тему: Correlation does not imply causation.


                        Это основа основ а статистике!


                        То, что вы нашли корреляцию между именем и одиночеством, вовсе не означает, что одно вызывает другое.

                          0

                          И еще раз


                          В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.
                            –1

                            И дальше идёт какой-то непонятный пример с яблоками, из которого опять следует, что вероятность быть одинокой зависит от имени, если я правильно понял. Но у этих явлений может просто быть общая причина. Например, у вторых детей в семье, распределение имён вероятно другое, чем у первых, и, одновременно с этим различается поведение, так как они вырастают в разных условиях. Или, например, в разных социальных группах дают разные имена.

                              0
                              Вне всякого сомнения, это просто пример того, как могут быть устроены корреляции (и зависимости). Более того, пока я думаю, что здесь как раз такая ситуация: именно образование коррелирует с именем и вместе с тем коррелирует с «одиночеством». Почему так, это отдельный вопрос, и социальные группы как раз отличное объяснение.
                          0
                          Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

                          Странная какая-то фраза. С чего это вдруг не может?
                          Может быть, вы просто хотели сказать, что вы этой статьёй не хотите никого обидеть? Ну так так и написали бы.
                            0
                            Разумеется, обидеть я уж точно никого не хотел.
                            0
                            Но ведь чтобы искать такие коррелляции нужно было добавить популярность этих же имен в года рождения. Так если мы видим что в универе учатся:
                            Кир — 964
                            Алин — 3662,
                            и из них Кир рожденных, например, в 2000 году — 150, а Алин — 1000, то стоит проверить сколько в 2000 году было названо девочек Кирами и Аленами, и если окажется что соотношение осталось таким же (Кир — 10000, Алин — 67000), то и зависимость поступления от имени исчезает.

                            P.S. следует учитывать еще и регион проживания, в разных регионах предпочтения в именах могут существенно отличаться.
                              +1

                              Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину d0) — думаю, что пока это основной вопрос и тема для следующей статьи.

                              +1

                              Образование родителей влияет на образование детей и их имена. А то, что образование для женщин плохо для демографии давно известно.

                                +1
                                Согласен, но это требует еще которых расчетов.
                                –1
                                «адекватный человек ожидает, что вопрос одиночества, как и любой подобный показатель, совершенно одинаково распределен среди людей независимо от их имени, знака зодиака и другой подобной ерунды. Для меня сама мысль о том, что может быть иначе, все еще казалась крамольной, сродни гомеопатии или астрологии»

                                Это из первой статьи, мне там нельзя комментить, поэтому отпишусь здесь, причем, эта цитата, как постановка вопроса, имхо важнее этой статьи, пытающейся раскрыть одну из частей ответа.
                                Более 25 лет я лично наблюдаю за взаимосвязью характеров людей и знаков зодиака в доступном мне окружении. И скажу, что зодиак (и европейский, и восточный) это не то, во что можно верить или не верить, а то, чем можно пользоваться, с поправкой на то, что пользоваться так, как вы пользуетесь другими неточными системами или их выводами (теория вероятностей, прогноз погоды, и пр.), в отличие от точных приборов. Зодиак — это система взаимосвязи между очевидной и точной характеристикой (дата рождения) и неточной (характер). Характер для группы людей по определению не может быть описан без некоторого разброса, поэтому зодиак как описание взаимосвязи и не ставит целью покрыть описание характеров групп полностью, но выявить устойчивые закономерности. Зодиак пришел из тех времен, когда не было психологических теорий и развитого мат.аппарата, поэтому это обобщение наблюдений и придание им доступного описания (например, именование знаков зодиака), которым можно пользоваться. То есть, в основе системы, реально соответствующей действительности, лежит что-то реальное, а не пустые выдумки, и я уверен, что это наблюдения, т.е. то, на что у людей прошлого времени и приборов хватало. Именно так может быть объяснено то, что все это работает.
                                С именами в принципе то же самое. Имя, несомненно, накладывает отпечаток на характер. В том числе и на потребность и на способность быть в паре. И обратно, имена соответствуют некоторым чертам характера. Соответственно, если анализировать имена пар, то и там выяснятся пары имен, которых больше и которых меньше, даже среди популярных имен. Думаю, автор статьи может это проверить.
                                А еще довольно плохо давать имена неподходящие под знак зодиака, такому ребенку сложнее будет быть целостной личностью. А можно наоборот, давать имена направленно, чтобы какие-то черты характера были у ребенка если не гарантированно, то наверняка.

                                А вообще даже странно, что никто из больших контор еще не догадался сделать поиск по зодиакам. Т.е. вводишь свою дату рождения, нажимаешь «подобрать», и система подбирает. Нет, каждый раз надо указывать знаки европейского зодиака вручную. А того, чтобы вместо возраста можно было указать знак восточного зодиака, вообще не видел. Как и фильтра по именам. Не говоря уже о подборе по именам вместе с зодиаками. Максимум до чего продвинулись, насколько видел, одна из систем правильно определяет знак восточного зодиака (по годам) не по 1 января, а по китайским датам, они разные в каждом году. Но я давно женат и за изменениями в этих системах слежу изредка и не серьезно, из любопытства.
                                  0
                                  Спасибо за комментарий, я на самом деле давно хочу провести исследование и в этом вопросе. Если найду время, то обязательно это сделаю. В любом случае я не хотел никого обидеть, простите мне мою иронию.
                                    0
                                    Не обижался, и не вижу на что бы. Сам обдумывал возможность создать приложение по подбору пар по зодиаку. Но не в мои 40+ с тремя детьми браться за такое приложение с нуля в свободное от работы время. Может, кто и возьмется.
                                  +1
                                  Я вижу такую цепочку.
                                  Женщина «умная» -> высокие требования к мужчине -> мужчин, отвечающих этим требованиям, мало в соотношении со всей массой -> большая часть таких мужчин уже занята -> такие мужчины обычно хотят главенствовать и доминировать -> но «умные» девушки «сильные и самостоятельные» -> мужчины по просто не хотят их брать -> с такой женщиной мужчина вынужден постоянно развиваться, что многим не нравится, ибо народ любит жить в зоне комфорта
                                    +1
                                    Опыт моих знакомых и мой собственный тоже говорит мне именно тоже самое, поэтому я как раз обратился к этому вопросу.
                                    +1
                                    Может сойти за объяснение: 1) умные/образованные родители дают дочкам нетипичные имена; 2) дочки образованных родителей статистически чаще поступают в серьезные учебные заведения; 3) дочки образованных родителей обладают несколько иной шкалой жизненных приоритетов, в которой ценность создания пары ниже, чем у детей менее образованных родителей -> имеем корреляцию между образованием родителей и образованием детей (очевидно), а также корреляцию между образованием человека и его независимостью (почти так же очевидно).
                                      +1
                                      Make sense, это не так легко проверить, но я как раз работаю над этим. В любом случае вполне рабочий вариант гипотезы.

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое