Comments / Profile of khud / Habr

Виталий Худобахшов@khud

Аналитик

Subscribers

ProfileArticles2PostsNewsComments22

Data Science: Про любовь, имена и не только. Часть II

khud Sep 10 2017 at 19:54

Make sense, это не так легко проверить, но я как раз работаю над этим. В любом случае вполне рабочий вариант гипотезы.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 8 2017 at 11:14

Спасибо за комментарий, я на самом деле давно хочу провести исследование и в этом вопросе. Если найду время, то обязательно это сделаю. В любом случае я не хотел никого обидеть, простите мне мою иронию.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 8 2017 at 09:30

Опыт моих знакомых и мой собственный тоже говорит мне именно тоже самое, поэтому я как раз обратился к этому вопросу.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 8 2017 at 09:27

Согласен, но это требует еще которых расчетов.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 20:59

Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину d0) — думаю, что пока это основной вопрос и тема для следующей статьи.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 14:31

Вне всякого сомнения, это просто пример того, как могут быть устроены корреляции (и зависимости). Более того, пока я думаю, что здесь как раз такая ситуация: именно образование коррелирует с именем и вместе с тем коррелирует с «одиночеством». Почему так, это отдельный вопрос, и социальные группы как раз отличное объяснение.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 14:27

Разумеется, обидеть я уж точно никого не хотел.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 14:04

И еще раз

В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 13:41

Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение q0 = single / married. Для девушек при сортировке по q0 поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (по q все как у девушек и по q0 тоже).

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 10:31

Распределение имен проституток хорошо известно: .
Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.

Data Science: Про любовь, имена и не только. Часть II

khud Sep 7 2017 at 10:19

Если бы было одновременно 1) и 2) то все было бы иначе. Мне как раз кажется, что сама история с образованием много чего объясняет.

Data Science: Про любовь, имена и не только

khud Sep 1 2017 at 13:54

На самом деле антиспам сложная система, хотя гарантий не дает. Но там в ход идет много показателей обычно (не поручусь за ВК, но думаю, что там все круто): лимиты, bad actions, локальные свойства пользовательского графа и т.д. Я бы сказал, что мой аргумент скорее качественный и говорит лишь, что влияние ботов не так велико.

Data Science: Про любовь, имена и не только

khud Sep 1 2017 at 13:50

Не без этого, но как и в моем комментарии про яблоки, хрен редьки не слаще. Надеюсь смогу прояснить этот вопрос в следующей статье.

Data Science: Про любовь, имена и не только

khud Sep 1 2017 at 13:49

нет, я не думаю, что дело в этом, иначе это было бы видно при перемешивании, когда я считал статистическую значимость. Распределение здесь куда менее банальное.

Data Science: Про любовь, имена и не только

khud Aug 29 2017 at 15:23

Это вряд ли влияет на картину «в целом», но на распределение имен, что на графиках влиять может.

Data Science: Про любовь, имена и не только

khud Aug 29 2017 at 15:16

С одной стороны есть несколько качественных аргументов в пользу статистической значимости. Например, сохранение сортировки в таблицах для OK и ВК. С другой стороны, если взять случайную выборку в 100 имен (с достаточным количеством статистики), чтобы не быть обвиненным в cherry picking, сделать permutation имен с учетом частотности и посмотреть что вышло, мы получим p-value = 0.000256 для теста Манна-Уитни. На счет моего заявления, то это не имеет отношения к статистики, это просто контринтуитивно. Эта статья не в научный журнал все-таки, поэтому я могу позволить себе некоторую вольность, пожалуй.

Data Science: Про любовь, имена и не только

khud Aug 29 2017 at 10:46

Про несократимые имена тоже заметил особенность. Теория тоже имеет место быть, правда на сколько она верна сказать пока трудно. Поэтому тут как раз рассмотрены случаи для нормализованного случая как для ВК, так и для ОК.

Data Science: Про любовь, имена и не только

khud Aug 29 2017 at 10:41

Трудно сказать, на сколько это правда. Но можно будет попробовать.

Data Science: Про любовь, имена и не только

khud Aug 26 2017 at 09:20

Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».

Data Science: Про любовь, имена и не только

khud Aug 25 2017 at 17:08

К вопросу о ботах и проститутках. Тут наверное надо сказать, что данные для ВК и ОК собирались совершенно разным образом. Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр. В случае OK данные обрабатывались в Hadoop без использования данных антиспама. Нужно более детальное исследование этого вопроса, но это говорит нам в пользу того, что вес ботов и им подобных здесь не так высок.