Спасибо за комментарий, я на самом деле давно хочу провести исследование и в этом вопросе. Если найду время, то обязательно это сделаю. В любом случае я не хотел никого обидеть, простите мне мою иронию.
Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину d0) — думаю, что пока это основной вопрос и тема для следующей статьи.
Вне всякого сомнения, это просто пример того, как могут быть устроены корреляции (и зависимости). Более того, пока я думаю, что здесь как раз такая ситуация: именно образование коррелирует с именем и вместе с тем коррелирует с «одиночеством». Почему так, это отдельный вопрос, и социальные группы как раз отличное объяснение.
В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.
Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение q0 = single / married. Для девушек при сортировке по q0 поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (по q все как у девушек и по q0 тоже).
Распределение имен проституток хорошо известно: .
Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.
На самом деле антиспам сложная система, хотя гарантий не дает. Но там в ход идет много показателей обычно (не поручусь за ВК, но думаю, что там все круто): лимиты, bad actions, локальные свойства пользовательского графа и т.д. Я бы сказал, что мой аргумент скорее качественный и говорит лишь, что влияние ботов не так велико.
нет, я не думаю, что дело в этом, иначе это было бы видно при перемешивании, когда я считал статистическую значимость. Распределение здесь куда менее банальное.
С одной стороны есть несколько качественных аргументов в пользу статистической значимости. Например, сохранение сортировки в таблицах для OK и ВК. С другой стороны, если взять случайную выборку в 100 имен (с достаточным количеством статистики), чтобы не быть обвиненным в cherry picking, сделать permutation имен с учетом частотности и посмотреть что вышло, мы получим p-value = 0.000256 для теста Манна-Уитни. На счет моего заявления, то это не имеет отношения к статистики, это просто контринтуитивно. Эта статья не в научный журнал все-таки, поэтому я могу позволить себе некоторую вольность, пожалуй.
Про несократимые имена тоже заметил особенность. Теория тоже имеет место быть, правда на сколько она верна сказать пока трудно. Поэтому тут как раз рассмотрены случаи для нормализованного случая как для ВК, так и для ОК.
Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».
К вопросу о ботах и проститутках. Тут наверное надо сказать, что данные для ВК и ОК собирались совершенно разным образом. Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр. В случае OK данные обрабатывались в Hadoop без использования данных антиспама. Нужно более детальное исследование этого вопроса, но это говорит нам в пользу того, что вес ботов и им подобных здесь не так высок.
Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину
d0
) — думаю, что пока это основной вопрос и тема для следующей статьи.И еще раз
Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение
q0 = single / married
. Для девушек при сортировке поq0
поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (поq
все как у девушек и поq0
тоже).Распределение имен проституток хорошо известно: .
Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.
Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».