Комментарии 53
Я не хочу сказать, что ваша выборка не репрезентативна — я не знаю. Но такой шум имеет место быть, и его влияние достаточно значимо. Простейший сценарий, копируем имена из какого-нить сервиса для беременных, закидываем по рандому, в статусе пишем стандартную фигню «холост\не замужем\всё сложно» («в поиске» для «утешных» спамботов), «пастофарианец» и тп. Генерируем 10 000 аккаунтов — и вот у вас 50 холостых Наташ и 50 холостых Лейл, что даёт влияние в 0,0005 и 0,003 от общего числа соответственно. И что-то мне подсказывает, что таких аккаунтов не 10 000, и даже не 100 000, и что для непопулярных имён их влияние становится статистически значимым.
Да, интересный вопрос.
По поводу женских имён… Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске» (для парней такое поведение влечёт за собой более серьёзные последствия)… Опять же, если возьмёте газеты бесплатных объявлений, то увидите, что в разделе «знакомства» более чем у 50% девушек имя начинается с буквы «а»… понятно, что подобный фактор в социальных сетях играет весьма малую роль, но, возможно, с выбором имени на странице в соцсети тоже что-то нечисто… В общем, все эти моменты требуют дальнейшего исследования, а так — конечно, хотелось бы увидеть ещё и техническую сторону (как собиралась и обрабатывалась информация).
вот бы написать программу, которая будет считать вероятность того, что под личиной конкретного пользователя «скрывается» бот…

Женщины чаще склонны не указывать имя или указывать другое имя, плюс к этому могут, даже будучи в браке, написать «в активном поиске»Не спорю, такие явления есть, но вот про их значимость и зависимость от пола\возраста\семейного положения\справки из психдиспансера можно говорить только на основании статистики, с которой у нас втройне фигово — у нас её нет. И даже если бы мы вдруг получили все паспортные данные абонентов и приватные данные аккаунтов, у нас огромная доля не совпала бы по чисто техническим причинам.
Это прекрасно! Поздравляю с первой публикацией на хабре:)
"Отсутствие причинной связи между явлениями, хотя корреляционная связь между ними установлена, называется ложной корреляцией." (с) экономико-математический словарь
Какой ужас — называясь уменьшительным именем, ты сокращаешь среднюю продолжительность жизни. Статистика не даст соврать!
1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)
2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.
Думаю, это можно исправить, если взять частотность имён в соответствующей когорте по данным переписи, сравнить с частотностью в ваших данных и сделать поправку на overrepresented (простите уж, забыл, как оно по-русски) имена.
К моей жене боты-мужики как то в друзья не ломятся.
Сейчас в тренде создание тысяч левых аккаунтов для различных накруток, продвижений и прочего.
Теперь можно наконец показать по данным VK и Одноклассников, под какой звездой рождаются семейно успешные люди, и как между собой совместимы знаки зодиака!
вероятность быть одинокой/одиноким зависит от имени человека
Давайте скорректируем ваше заявление: «Статус 'не в отношениях', выставленный пользователем в социальной сети некоторым образом коррелирует с именем, которое указал этот пользователь в этой социальной сети».
Пользователь социальной сети по-хорошему не может быть строчкой в вашей статистике до тех пор, пока вы не удостоверились, что пользователь указал свое реальное имя и свой реальный статус если ваша цель — проверить изначально заявленную вами гипотезу.
Тезис из вашей статьи:
вероятность быть одинокой/одиноким зависит от имени человека
Собранная статистика:
Имя, указанное в социальной сети + статус отношений, указанный в социальной сети.
Если Вы знаете некое научное исследование с выводом наподобие «в 99% публично доступных аккаунтов в социальных сетях указаны достоверные личные данные и статус отношений» — поделитесь ссылкой на статью. Я признаю свою неправоту и соглашусь, что этот один процент можно считать шумом и не обращать на него внимания.
Понятно, что мы говорим не о реальных статусах, а об указанных в соцсетях. Под одеяло к людям из выборки никто не заглядывал.
Из вот этого вот:
… Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение...
Я делаю вывод, что по достоверности автор приравнивает заполнение анкеты в социальной сети к анонимному опросу.
Если в случае ВК все делалось через пользовательский интерфейс, т.е. можно предположить, что пользователи в выдаче — это пользователи, которые прошли спам фильтр
Даже очень грамотно выставленный фильтр поиска в ВК не дает гарантий отсутствия ботов. Более-менее заполненный профиль бота (с парой постов на стене и фотографией) в поиске ничем не будет отличаться от настоящего
вероятность быть одинокой/одиноким зависит от имени человека
Нет, не зависит. Одиночество коррелирует с именем, но не зависит от него. «Зависит» и «коррелирует» — это разные вещи, как уже выше писали.
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад.[5]. Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую не взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связанны друг с другом, а лишь имеют стороннюю общую причину — гололедицу.
[ источник ]
Все правильно, конечно, с точки зрения вопроса зависимости и корреляции в общем случае, но в этом конкретном случае именно вероятность зависит, что на самом деле означает корреляцию. Это скорее лингвистическая небрежность. Более того, можно точно указать направление этой «зависимости»: имя дается при рождении (обычно). Остается конечно возможность наличия третьего фактора, который связан как-то с этими двумя. Это может быть все что угодно, пусть это будут яблоки (к примеру), есть корреляция между количеством съеденных яблок и одиночеством, но также есть корреляция между именем и сколько девушка ест яблок. То есть конкретная девушка с этим именем может яблоки не есть, но вот в среднем все будет так, как выглядит. Но это приведет нас к той же проблеме – корреляция между яблоками и именем, т.е. «хрен редьки не слаще».
Очень милое исследование! К всей вышеприведённой критике, хочу добавить, что автор не указал полученный p-уровень значимости результатов, т.е. насколько значимы полученные различия для групп?
Вспомнился сайт паразитных корреляций: www.tylervigen.com/spurious-correlations
Например, так выглядит распределение по годам людей утонувших в бассейне и количеством фильмов в которых снимался Николас Кейдж:

Если сложить это с довольно достоверной теорией, что одинокие/в поиске предпочитают использовать уменьшительную версию своего имени, и из каких-то имён эти множества убраны, а из каких-то нет — то разница может возникать как раз из-за вариантов имени.
Надо для каждого паспортного имени прибавить все его версии и считать для каждого набора вкупе, тогда разброс скорее всего сильно уменьшится.
А то заявления вроде
Любой здравый человек предполагает увидеть примерно одно и то же значение v и u в пределах какой-то небольшой погрешности, но никак не шкалу от 0.125 до 0.226 для случая с v!для статистики абсолютно ничего не значат.
…
profit
Data Science: Про любовь, имена и не только