Pull to refresh
33
0
Виталий Худобахшов @khud

Аналитик

Make sense, это не так легко проверить, но я как раз работаю над этим. В любом случае вполне рабочий вариант гипотезы.
Спасибо за комментарий, я на самом деле давно хочу провести исследование и в этом вопросе. Если найду время, то обязательно это сделаю. В любом случае я не хотел никого обидеть, простите мне мою иронию.
Опыт моих знакомых и мой собственный тоже говорит мне именно тоже самое, поэтому я как раз обратился к этому вопросу.
Согласен, но это требует еще которых расчетов.

Это первое, что приходит на ум, но соотвествующие два сюжета уже были разобраны в прошлой статье. Мне пока больше нравится челлендж с ботами, потому что понятно, что их много, но пока не получается оценить их влияние (см. мой комментарий про мужчин и величину d0) — думаю, что пока это основной вопрос и тема для следующей статьи.

Вне всякого сомнения, это просто пример того, как могут быть устроены корреляции (и зависимости). Более того, пока я думаю, что здесь как раз такая ситуация: именно образование коррелирует с именем и вместе с тем коррелирует с «одиночеством». Почему так, это отдельный вопрос, и социальные группы как раз отличное объяснение.
Разумеется, обидеть я уж точно никого не хотел.

И еще раз


В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.

Вопрос с влиянием ботов все еще довольно мутный. Однако можно сделать следующее: давайте сделаем рейтинг ВУЗов для мужчин и уберем явный шум со статусом "в активном поиске" и просто посмотрим отношение q0 = single / married. Для девушек при сортировке по q0 поменяется только НГУ и МФТИ. А для мужчин будет тоже самое (по q все как у девушек и по q0 тоже).

Распределение имен проституток хорошо известно: распределение имен проституток.
Там все довольно интересно кстати. Когда я писал предыдущую статью, я специально использовал разные источники со спам фильтром и без, чтобы увидеть разницу. Так что у меня пока недостаточно аргументов в пользу ботов.

Если бы было одновременно 1) и 2) то все было бы иначе. Мне как раз кажется, что сама история с образованием много чего объясняет.
На самом деле антиспам сложная система, хотя гарантий не дает. Но там в ход идет много показателей обычно (не поручусь за ВК, но думаю, что там все круто): лимиты, bad actions, локальные свойства пользовательского графа и т.д. Я бы сказал, что мой аргумент скорее качественный и говорит лишь, что влияние ботов не так велико.
Не без этого, но как и в моем комментарии про яблоки, хрен редьки не слаще. Надеюсь смогу прояснить этот вопрос в следующей статье.
нет, я не думаю, что дело в этом, иначе это было бы видно при перемешивании, когда я считал статистическую значимость. Распределение здесь куда менее банальное.
Это вряд ли влияет на картину «в целом», но на распределение имен, что на графиках влиять может.
С одной стороны есть несколько качественных аргументов в пользу статистической значимости. Например, сохранение сортировки в таблицах для OK и ВК. С другой стороны, если взять случайную выборку в 100 имен (с достаточным количеством статистики), чтобы не быть обвиненным в cherry picking, сделать permutation имен с учетом частотности и посмотреть что вышло, мы получим p-value = 0.000256 для теста Манна-Уитни. На счет моего заявления, то это не имеет отношения к статистики, это просто контринтуитивно. Эта статья не в научный журнал все-таки, поэтому я могу позволить себе некоторую вольность, пожалуй.
Про несократимые имена тоже заметил особенность. Теория тоже имеет место быть, правда на сколько она верна сказать пока трудно. Поэтому тут как раз рассмотрены случаи для нормализованного случая как для ВК, так и для ОК.
Трудно сказать, на сколько это правда. Но можно будет попробовать.

Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».

К вопросу о ботах и проститутках. Тут наверное надо сказать, что данные для ВК и ОК собирались совершенно разным образом. Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр. В случае OK данные обрабатывались в Hadoop без использования данных антиспама. Нужно более детальное исследование этого вопроса, но это говорит нам в пользу того, что вес ботов и им подобных здесь не так высок.
1

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity