Как стать автором
Обновить

Астрология и Data mining

Время на прочтение4 мин
Количество просмотров24K

Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось нечто совсем иное.

Вкратце о тесте: есть такая штука базис Юнга, он представляет собой 4 бинарных признака, все возможные комбинации которых образуют 16 психотипов личности. Рассмотрим численность одного из типов в разрезе даты рождения и сразу наложим периоды знаков зодиака.



Для сравнения общее распределение по всем типам для обоих полов.


Похоже, что спады и всплески рождаемости не случайны. Быть может авторы приложения сфальсифицировали результаты тестов? Это было бы самым простым объяснением, не смотря на то, что я плохо представляю как это технически возможно и для чего нужно.

Так выглядит распределение рождаемости для всех типов:


Интересно, что спады и всплески, как правило, наблюдаются одновременно у знаков из одной стихии.
Несколько интересных графиков наложил на зодиакальный круг:

ENTP ISFJ INFP ISTJ ESTJ
Справа от диаграмм показан баланс стихий для каждого психотипа в разбивке на оба пола.

Знатоки астрологии и соционики могут оценить на сколько возможная корреляция вписывается в теорию, посмотрев на баланс стихий в базисе Юнга и на таблицу отклонений от нормальных значений:


Под нормальным значением понимается наиболее статистически вероятное количество людей, которое должно было родиться под каждым знаком в случае отсутствия любых корреляций.
Коэффициенты рассчитаны по формуле:


где,
count — количество людей с заданным типом, полом и знаком;
counttotal — общее количество людей в выборке;
count(zodiac) — общее количество людей с заданным знаком;
count(sex,type) — общее количество людей с заданным типом и полом.

Например, женщины козероги типа ISTJ встречаются в 1.5 чаще, чем если бы тип и знак были не связаны друг с другом. Близнецы с типом ISTJ встречаются на 29% реже.

Из-за ненадёжности источника данных всё вышеизложенное не претендует на то, чтобы называться серьёзным научным исследованием, поэтому не буду углубляться в детали статистической обработки данных. Любой желающий может её повторить используя приложенные файлы или повторить парсинг из первоисточника.
socio_dump.zip
socio.xlsx
corr_map.xlsx

Для сбора, обработки и визуализации информации использовались Ruby, Oracle XE, Tableau Desktop, Excel и Paint.NET.

Итог


Википедия гласит:
С точки зрения современной науки астрология является типичным лженаучным учениеми разновидностью гадательной магии.
Ни один эксперимент, имеющий целью проверить истинность утверждений астрологии, не увенчался успехом. Все усилия, направленные на то, чтобы установить достоверные статистические корреляции между расположением небесных светил в момент рождения человека и какими-либо особенностями его личности или событиями в жизни, пока не дали положительного результата.

Разумеется, Википедия для меня более авторитетна, чем приложение из контакта. Однако, с точки зрения биологии и антропологии я не вижу причин почему фенотип человека не может зависеть от времени года его рождения, как у некоторых животных. Если допустить, что корреляция действительно существует, то видится следующее её объяснение: некоторые особенности психотипа человека формируются в процессе внутриутробного развития под действием годичных гормональных циклов в организме матери и являются результатом адаптации к разным типам сезонной активности людей в древности. Детям, рождавшимся, в разных условиях было необходимо быть готовыми к этим условиям заранее. В этом случае логично предположить, что характер годичной динамики рождаемости будет зависеть от этнического состава популяции, в которой проходит исследование, т.к. разные народности, вероятно, жили по своему календарю. На сколько я знаю, в России никогда не проводились подобные исследования с таким объёмом выборки. Возможно, американские социологи и сторонники типологии MBTI не смогли найти закономерности как раз из-за смешанного состава их аудитории.

PS Не хочу никого ни в чём убедить, и прошу прощения если задел чьи-то атеистические чувства:)

UPD
Официальный комментарий владельца приложения Соционика:
Данные не подтасованы. Это результаты реальных прохождений тестов. Но результаты тестирования обычно имеют нулевую достоверность, т.к. люди зачастую отвечают не как есть, а как хотелось бы что бы было. Поэтому большинство получаются Гекслями. Приложение больше носит развлекательный характер, конечно посерьезнее, но все равно что то типа гороскопа. Пользователи приложения в основном женщины, они любят всякие гороскопы. Возможно стереотипы навязанные гороскопом отразились на результаты прохождения теста… Кстати у мужчин зависимость между знаком задиака и ТИМом чуть слабее. Может потому что мужчины меньше верят гороскопам)
arigotoma
Теги:
Хабы:
Всего голосов 104: ↑88 и ↓16+72
Комментарии137

Публикации

Истории

Работа

Data Scientist
79 вакансий

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань