halftimestat Feb 23 2023 at 13:20

Ты мог бы стать спортсменом, если бы родился в другой день. Что такое Relative Age Effect?

Easy

4 min

18K

HabrData visualization * Statistics in ITPopular scienceInfographics

From sandbox

+59

Comments 81

MAXH0 Feb 23 2023 at 13:45

Класс! Как практикующий учитель скажу, что так оно и есть. Особенно это заметно на доп. образовании с разновозрастными группами, но в рамках одного класса статистика тоже наглядно видна. Зачастую лидеры класса просто чуть старше и взрослее.

halftimestat Feb 23 2023 at 16:05

А есть какие-либо подвижки в сторону устранения или, для начала, сглаживания эффекта на локальном уровне?

P. S.: очень ценно услышать комментарий от человека, сталкивающегося с феноменом на практике

MAXH0 Feb 23 2023 at 17:10

Вам по ФГОСам ответить или из практики.
Так сказать: "В условиях перехода системы общего образования на федеральные государственные образовательные стандарты (далее – ФГОС) эффективным механизмом обеспечения достижения каждым обучающимся планируемых результатов освоения основных образовательных программ становится индивидуализация обучения. В современной педагогической практике представлено множество подходов к пониманию этого понятия." :)))

Из практики то все еще проще. Информатика в школе - это не спорт высоких достижений. Она для всех. Информатика в кружках - уже более специализирована. Поэтому надо пробуждать интерес к предмету и переводить на кружки (бесплатные). Точно так же как раньше каждый учитель физкультуры в школе искал потенциальных спортсменов. А дальше либо участие в конкурсах (20%) либо просто посещение кружка по фану (80%)...

Если вдруг введут строгий KPI по эффективности участия в конкурсах ситуация, как ни странно, может ухудшиться.

vassabi Feb 24 2023 at 18:47

надо делать на старте два чемпионата - для летних и для зимних.

и тогда будет два набора спорстменов - в одном преимущество будет у январско-мартовских, а во втором - у июльско-сентябрьских.

можете сами оценить "простоту" решения :)

MAXH0 Feb 26 2023 at 13:21

По программированию это легко, но по футболу трудно.
Хотя календарь олимпиад и школьных и вузовских привязан к расписанию каникул. Обычно: Осень - отборочные на регион; Зима - регион; Весна - финалы. А летом летние смены - хакатоны с полным погружением для финалистов. Тоже полная сезонность наблюдается.

Dekmabot Feb 23 2023 at 13:58

Помню на курсе педагогики про малышей нам рассказывали, в первые годы жизни ребёнка его органы, мышцы и области мозга развиваются последовательно с точностью до недель, на что влияет наличие внешних факторов, например если 3-4 месяц жизни ребёнка приходится на лето и малыш получает больше солнца и витамина D, то сильнее развиваются определённые направления. Тут же проводили параллели со знаками зодиака, что описанная в них специфика характера разных знаков как раз и обуславливается календарным месяцем, когда у ребёнка протекал тот этап развития, который влияет на эту черту характера.

Признаюсь, отношусь скептически к этой теории, так как знаки зодиака в разных широтах одинаковые, а климат разный.

Пс: теперь я знаю почему не стал футболистом, месяц не тот!

Holger108 Feb 24 2023 at 13:25

Тут же проводили параллели со знаками зодиака, что описанная в них специфика характера разных знаков как раз и обуславливается календарным месяцем, когда у ребёнка протекал тот этап развития, который влияет на эту черту характера.

Это натягивание совы на глобус, в современной астрологии оперируют точным временем рождения. И там нет никаких рациональным объяснений. Там есть корреляция между их, астрологов, расчетами и событиями реальной жизни (как считают те, кто полагает астрологию работающей системой), но природа этой корреляции неизвестна.
Изменения в гороскопе клиента, которые произошли бы, родись он на 15 минут раньше или позже, перекрыли бы те изменения, которые попытались бы объяснить рационально климатическими факторами, обусловленными месяцем рождения.

Думаю, рационально объяснить астрологию не получится, это стопроцентная эзотерика, но вот расчеты там алгоритмические и на 100% формализуемые. И проверить ее очень просто поэтому - написать программу для расчетов и проверить на прошлых событиях людей с точно известным временем рождения. Странно, что до сих пор этого не сделали как критики астрологии, так, тем более, и ее сторонники.

UFO landed and left these words here

Areso Feb 23 2023 at 14:54

Автор, а чем объясняется аномальный выброс майских?

halftimestat Feb 23 2023 at 16:27

Это одна из нераскрытых загадок, пока что
Что удалось выяснить, так это то, что "эффект Мая" выше в топовых сборных (в особенности, много таких спортсменов в Англии, Португалии, Испании, Франции) (отсюда и его "остатки" в распределений месяцев самых дорогих игроков)

Одно из предположений заключается в локальных особенностях отбора, или случайных эффектах

avshkol Feb 23 2023 at 23:51

Возможно, тем, что первые месяцы жизни тельцов приходятся на тёплый и сухой период, из-за чего они более крепкие физически, меньше тренировок пропускали из-за болезни?

halftimestat Feb 24 2023 at 08:16

В таком случае, стоило бы ожидать сопоставимого показателя и. апреле/июне, но это не так — выброс специфичен для Мая

alcanoid Feb 25 2023 at 18:13

Пик отмен авиа- и железнодорожных билетов приходится на пору после экзаменов, когда не сдавшие что-то иногородние студенты остаются на пересдачи и вынуждены переносить отъезд. Здесь, скорее всего, действует подобный фактор.

Май — последний месяц учёбы в школе. Если тебе исполняется семь в мае, то ты уже можешь к этому времени отучиться год в школе и заниматься спортом в школьной секции, а твой сосед, родившийся в июне, вряд ли будет допущен к учёбе с шести лет и пойдёт в школу на год позже. А год тренировок — это серьёзная фора.

Иными словами, майские могут попадать в спорт через школу в максимально раннем возрасте из возможного в рамках школы, и как раз по этому месяцу проходит отсечка.

NNikolay Feb 24 2023 at 08:53

Наверняка в каких-то случаях набор в разные группы по возрасту идет по принципу - сколько лет исполнилось на начало сезона. Я на знаю, там в мае играть зачинают?

Over-9000 Feb 27 2023 at 14:57

Похоже, в хоккее такого пика нет. По крайней мере, в 1982-83 гг.
https://cdn.tribuna.com/fetch/?url=https%3A%2F%2Fsun9-25.userapi.com%2FmDmaWeLzciDHNPj0lcozQUSmHklcVoWJDv4w6Q%2FrD8VEYtmFj8.jpg
Извините, практически первый попавшийся источник.

dmitry_pl Feb 27 2023 at 14:57

Массовыми августовскими отпусками

mister_pibodi Feb 23 2023 at 15:07

Статья всего лишь повторяет то, что было давным давно написано толи у Малькольма Гладуэлла, то ли во Фрикономике.

halftimestat Feb 23 2023 at 15:47

Все так, я этого и не скрывал. Ссылка на книгу есть в статье. Но мне интересно посмотреть на эту историю, как минимум с двух сторон:
1. Приложить знания к футбольным данным и убедиться в затухании эффекта при взрослении и отсутствии связи с реальными навыками
2. Книге 15 лет, этому эффекту еще больше. А изменений в системе отбора, по-прежнему, практически никаких

CaptainCrocus Feb 24 2023 at 10:47

У Гладуэлла про хоккеистов.

Kanut Feb 23 2023 at 15:32

Однако при пристальном рассмотрении дней рождения профессиональных футболистов Европейских юношеских сборных, все оказывается далеко не столь прозрачно.

Интересная теория. Есть только один нюанс: в той же Германии детей совсем не обязательно делят по годам рождения. Что в школе, что в спорте.

То есть даже в школу одного ребёнка могут взять в 6 лет, а другого только в 7. В зависимости от их развития.

В спорте это ещё более ярко выражено. И даже "официальные" возрастные группы(например для турниров) это разрешают.

halftimestat Feb 23 2023 at 15:51

Спасибо за деталь. Да, интересно теперь простратифицировать эффект по странам, например. А с точки зрения Relative Age Effect, если такое зашумление на уровне отдельных стран существует, то наличие эффекта в среднем еще более пугающее...

Kanut Feb 23 2023 at 15:56

Или просто причина в чём-то другом. Например в том что в первые три месяца года рождается больше детей.

Или например есть какая-то связь между спортивными успехами и погодой в первые(какие-то конкретные) месяцы жизни.

Просто по хорошему есть корреляция и есть попытки её как-то объяснить. Но именно что попытки.

AlexTheCleaner Feb 23 2023 at 23:52

Кстати было бы интересно посмотреть на статистику южноамериканских игроков (юношеских сборных в том числе) по датам рождения. Такой же выброс в начале года или нет.

adeshere Feb 24 2023 at 03:25

Присоединяюсь к вопросу. Уважаемый автор, если у Вас технология "на мази", нарисуйте, пожалуйста, и эти распределения тоже? Единственное, как заметил thevlad, цифры все-таки надо разделить на число дней в месяце, или, еще лучше, на общее количество родившихся в этом месяце. Чтобы сравнивать вероятности, что гораздо правильнее методологически.

Вообще, было бы очень интересно сделать такой анализ для более широкого набора показателей (включая не только физическое развитие). В РФ даже есть научный журнал, в чью тематику статьи такого плана вполне бы вписались. Только вот не присылают ведь... Боятся обвинений в астрологии, видимо. Хотя наука должна не бояться проверять любые гипотезы.Главное, чтобы это делалось методически корректно (без тенденциозности в отборе данных и без ошибок в статистической обработке).

P.S. Можете рассматривать мое сообщение как намек - аккуратная работа такого плана в этом конкретном журнале точно будет поддержана ;-)

halftimestat Feb 24 2023 at 08:31

Спасибо за комментарий. Очень ценный фидбэк!

статистику южноамериканских игроков — очень интересно изучить, но поскольку это скорее дополнение к статье, результаты будут только в телеграм канале, посященном проекту, оформлять их в отдельную статью не очень целесообразно
цифры все-таки надо разделить на число дней в месяце — уже ответил в той ветке, почему это не было сделано (коротко: навредит восприятию, без особой фактической необходимости), теоретическое ожидаемое значение исходя из количества дней и равномерного распределения, к слову, представлено темно-синим на графиках
научный журнал — большое спасибо, рассмотрю опцию. Развитие исследования последует точно. Опять же, детали точно будут в телеграме и, надеюсь, в новых статьях

ss-nopol Feb 23 2023 at 15:33

Лучше всего второгодникам!

А также тем кто идёт в школу позже на год.

(нет)

maeris Feb 23 2023 at 18:45

Я знаю только о тех, кто пошёл в школу раньше на год, и имеющаяся на руках статистика не в их пользу.

VFaland Feb 23 2023 at 19:23

Интересно б посмотреть на оф статистику, из немногих знакомых кто начал/закончил школу на год раньше все весьма успешны/счастливы.

F1eex Feb 24 2023 at 02:26

Вспоминая школьные годы не замечаю чтобы "прошлогодние" - рожденные в ноябре-декабре преимущественно были в чем-то лучше чем даже самые младшие рожденные в сентябре.

adeshere Feb 24 2023 at 03:35

Я знаю только о тех, кто пошёл в школу раньше на год, и имеющаяся на руках статистика не в их пользу.

Для статистики: ну вот я ноябрьский, и пошел в школу в 6 лет. С одной стороны, на уроках физкультуры это было заметно. С другой - чтобы на равных играть в футбол с одноклассниками, приходилось целенаправленно работать над финтами и техникой (спасибо соседу по дому, который в молодости играл за Знамя Труда из Орехово-Зуево, а после переезда в наш город скучал по футболу и при любом удобном случае выходил во двор, чтобы нас чему-нибудь научить ;-) Еще меня третья четверть спасала: папа был лыжником, поставил мне технику, а на лыжне даже ее зачатки дают тотальное преимущество над тем, кто "идет пешком". Так что именно на физкультуре проблемы возраста как-то решались. Чего нельзя сказать про другие занятия - например, учительница по начальной школе

отказалась брать меня в третий класс...

Пришлось сразу после второго идти в четвертый. Но это уже совсем другая история...

Gor40 Feb 24 2023 at 05:59

Меня физрук от футбола отвадил. За 2 года поставил мне 3 фингала. Метко попадал мячом мне в очки.

Gor40 Feb 24 2023 at 05:49

А также тем кто идёт в школу позже на год.

В нормальную школу. У нас была школа для детей с ЗПР. По причине бедности города, школу закрыли, детей раскидали по всем остальным школам. Так в 9 классе пришлось драться с тремя семиклассниками прямо во время урока. Двое мои одногодки, один старше меня на год. Потом собака с милицией приходила.

Robastik Feb 24 2023 at 06:59

собака с милицией приходила

Тоже статистический выброс.

Чаще милиция водила собак, а тут наоборот.

Знак зодиака у собаки какой?

Gor40 Feb 24 2023 at 07:04

Ну. Это же из фильма

https://www.youtube.com/watch?v=uwahkO8blCg

thevlad Feb 23 2023 at 15:43

Такие данные надо всегда нормализовать, в данном случаи на количество родившихся в этом месяце. Так как нам нужна условная вероятность P(стал_футболистом | если родился в месяце M). То что количество родившихся в каждом месяце одинаково и равномерно распределено, совершенно не очевидно.

halftimestat Feb 23 2023 at 16:42

Согласен про условную вероятность в этом контексте. Но нормализация навредила бы визуальной составляющей. Тем не менее, с точки зрения фактической точности, предпосылки не нарушены: про околоравномерное распределение дней рождения информации достаточно много в открытом доступе

thevlad Feb 23 2023 at 18:02

Тут еще интересный вопрос, это доверительный интервал, я тупо воткнул в пуассоновское распределение 40, и у меня получилась дисперсия ~6. То есть три сигмы это будет +/- 18, куда укладываются практически все данные.

thevlad Feb 23 2023 at 20:19

Да, не дисперсия конечно же, а среднеквадратичное отклонение.

adeshere Feb 24 2023 at 03:44

+/- 18, куда укладываются практически все данные.

В чем и засада. Надо накапливать статистику, а с однородными данными объективно проблемы... :-(

thevlad Feb 24 2023 at 05:00

Это не засада, а не возможность отбросить более чем логичную нуль-гипотезу, что данные получились чисто случайно, и никакой зависимости от месяца рождения на самом деле просто нет. Судя по комментариям(где начали выстраивать различные правдоподобные теории "для этой закономерности") это вообще типичный пример, как можно обманывать не подготовленных людей при помощи статистики.

adeshere Feb 24 2023 at 06:05

Это не засада, а не возможность отбросить более чем логичную нуль-гипотезу, что данные получились чисто случайно

Ну а вот у меня нет уверенности, что данные получились чисто случайно. Т.к. некая логика в рассуждениях псевдоастрологов все-таки есть. Что на детей, родившихся в определенных сходных условиях, должно как-то влиять: произошло ли это весной-летом, когда кругом витамины и птички поют, или же в осеннем слякотном сумраке, когда из избы не выйдешь. Как и то, растут ли они в окружении чуть более старших сверстников, либо среди чуть более младших. С рациональной точки зрения эффекты такого рода вполне возможны, хотя их величина неизвестна (т.е. может быть и пренебрежимо ничтожной).

Поэтому у меня нет оснований априори отвергать эту гипотезу, как противоречащую общепризнанным научным фактам. Как, впрочем, нет и никаких оснований априори опровергать альтернативную ей нулевую гипотезу.

Поэтому я и хочу проверить обе эти гипотезы фактами и выбрать более подходящую на основе анализа данных, а не просто из общих соображений. А вот с адекватными данными-то как раз и проблема....

Так что для меня это именно, что подстава :-(

P.S. Уточню, что для меня

псевдоастрологи

- это вовсе не те, которые про "натальины карты", или как составить строго индивидуальный гороскоп с кучей мелких подробностей (зависящих от даты рождения с точностью до секунды), о котором 90% читающих (вне зависимости от даты рождения) скажут: "да это же в точности про меня!". Эти-то как раз профессионалы своего дела, разбирающиеся в психологии, и в построении текстов, которые умело окучивают желающих отдать свои деньги за довольно специфический

способ развлечься

Мне все-таки сложно представить, что большинство клиентов астрологов действительно верят вот в это вот все; я надеюсь, что для многих из них это скорее форма досуга, чем руководство к практической деятельности

Но точно так же, как мы считаем этих "настоящих" астрологов псевдоучеными за то, что они пытаются "косить" под ученых, используя соответствующую терминологию и т.д., так вот, точно так же мы можем назвать "псевдоастрологами" тех, кто пытается применить научный подход для оценки правдоподобия тех гипотез, которые были впервые сформулированы астрологами. Почему нет?

UPD:

Судя по комментариям(где начали выстраивать различные правдоподобные теории "для этой закономерности")

Мне кажется, Вы чересчур критичны. Вообще-то в науке это совершенно нормальный способ рассуждений: заметить какой-то эффект (не исключено, что случайный незначимый артефакт), затем сформулировать правдоподобную гипотезу, которая, потенциально может его объяснить, а затем аккуратно проверить эту гипотезу путем анализа известных эмпирических фактов или целенаправленных экспериментов, когда есть такая возможность. Так что я бы ни в коем случае не стал критиковать тех, кто высказывает такие гипотезы, за сам факт высказывания. Гораздо полезнее выискивать слабые места и противоречия внутри этих гипотез, чтобы не тратить потом время на проверку заведомо несостоятельных версий. Но если таких противоречий не видно - то проверять все-таки надо путем сопоставления с эмпирическим опытом, систематизированным, в том числе, и в виде статистически значимых закономерностей.

это вообще типичный пример, как можно обманывать не подготовленных людей при помощи статистики

Ну кто ж будет спорить, что неподготовленных людей легко обмануть. Особенно, если привлечь к делу статистику. Но я бы все-таки постарался четко различить две ситуации: 1) когда такой обман совершается умышленно (автор специально подогнал данные и/или выбрал из множества вариантов только те графики, которые подходят под нужный ответ), и 2) когда недостатки анализа вытекают из недостаточной тщательности исследования, когда автор пытался, но не смог правильно учесть все необходимые факты. Или просто не имеет достаточно данных, чтобы получить надежный ответ.

Первое, разумеется, абсолютно недопустимо. А вот второй случай - это неизбежные издержки научного метода, так как никто и никогда не может сделать все идеально. В науке исправление таких погрешностей и недостатков анализа - это нормальный рабочий процесс. Я бы даже сказал, один из стандартных путей поиска истины...

thevlad Feb 24 2023 at 06:20

В науке обычно принято, что доказательство приводит тот кто делает утверждение. В данном случаи, надо доказать, что данные не появились чисто случайно. Это не доказано. А то что люди могут видеть закономерности там где их в принципе не может быть. Например сгенерированных графиках случайного блуждания, я такое видел и не раз.

В данном случаи мне вполне достаточно оценить доверительный интервал, при условии что данные случайны. Чтобы понять что любые гипотезы построенные из закономерности в этих данных, мягко говоря слабо чем обоснованны.

Но я бы все-таки постарался четко различить две ситуации: 1) когда такой обман совершается умышленно (автор специально подогнал данные и/или выбрал из множества вариантов только те графики, которые подходят под нужный ответ), и 2) когда недостатки анализа вытекают из недостаточной аккуратности исследователя, который хотел, но не смог правильно учесть все необходимые факты.

Второе вытекает из-за отсутствия базового понимания, как должным образом исследовать статистические феномены. Вы ведь не доверяете строить ядерные реакторы сантехникам? Или людей лечить? Здесь тоже самое.

adeshere Feb 24 2023 at 06:43

В науке обычно принято, что доказательство приводит тот кто делает утверждение

Да, именно так. Если бы автор отправил свою статью в Nature, ее бы там развернули именно по этой причине. Однако современная наука - это коллективный процесс. Поэтому я считаю допустимым, когда кто-то заметил неожиданный артефакт и публикует его просто для обсуждения. То есть без аккуратного доказательства, а в надежде, что кто-то из прочитавших статью заинтересуется и продолжит расследование. Попросту говоря, такой возглас: "Смотрите-ка...".

Ну и вторая цель публикаций такого рода - это собрать советы и критику, чтобы продолжить работу над темой на новом уровне. Где еще можно получить подобный фидбек, как не на Хабре?

В общем, мне кажется, что приведенные в статье графики вполне "тянут" на такой возглас, и, тем самым, их публикация все же оправданна, несмотря на отсутствие доказательств, "что данные не появились чисто случайно".

Конечно, есть риск, что кто-то из читателей не станет вникать глубоко, а просто примет все сказанное за установленный факт. Ну так обсуждение в комментариях для того и предназначено, чтобы оценки стали более взвешенными. А если у автора будет возможность реализовать высказанные в ходе обсуждения просьбы и предложения, то и вовсе может получиться достаточно интересно.

thevlad Feb 24 2023 at 06:59

В общем, мне кажется, что приведенные в статье графики вполне "тянут" на такой возглас, и, тем самым, их публикация все же оправданна, несмотря на отсутствие доказательств, "что данные не появились чисто случайно".

Было бы гораздо лучше, если автор в конце честно написал, что наблюдаемые эффекты на границе статистической значимости. Тогда те бы кто ее прочитал, хоть о чём-то задумались. А так, причина почему люди верят во всякую псевдонаучную ерунду(мягко говоря), как раз часто лежит в неспособности оценить вероятность получения какого-то эффекта "чисто случайно". А подобные "исследования", не показывая как надо делать правильно, лишь подливают масло в подобный образ мышления.

halftimestat Feb 24 2023 at 08:56

Расстраивает, что статья хоть для кого-то оказалась побудителем к "псевдонаучной ерунде". Цель статьи ровно в противоположном — показать и рассказать популярным языком о реальном статистическом феномене (подтвердив фактами) и, как раз наоборот, разбудить в читателе интерес к научному подходу к проблеме и дискуссии.

thevlad Feb 24 2023 at 09:00

Неужели вы не понимаете, почему в научных статьях приводят доверительные интервалы и p-value? Потому что базовая гипотеза - что подобные "распределения" данных, могли возникнуть чисто случайно.

halftimestat Feb 24 2023 at 09:24

Как точно подмечено выше:

Если бы автор отправил свою статью в Nature, ее бы там развернули именно по этой причине

Именно поэтому статья не в Nature, а на хабре — и это не пренебрежение читателем хабра, а наоборот — доверие его критическому мышлению и верности научному методу на пути к новым итерациям исследования.

Проблема недостатка данных давно и глубоко известна. Конечно, если бы в молодёжные сборные отбирали по тысяче игроков в год, проблем бы не было, но это не так (и не нужно, чтобы было так, наверное). Поэтому во всех подобного рода исследованиях, не всегда имея роскошь собрать побольше данных, приходится — в рамках адекватных заданных предпосылок — выкручиваться, собирать критику и продолжать искать истину.

Автор статьи не утверждает, что каждое его слово высечено в мраморе. Он хочет рассказать и побудить интерес, а не истерию, и при этом отвечает за математическую адекватность выбранных методов. В этом, по мне, и заключается научный поиск истины.

thevlad Feb 24 2023 at 09:56

Если вам интересен "поиск научной истины". То правильный алгоритм таков - мы собрали данные, и получили некоторые результаты. Приводим такие-то доверительные интервалы основанные на гипотезе что подобное распределение данных могло возникнуть чисто случайно. Исходя из них возможно предположить, что какой-то "сигнал" на границе шума возможно имеет место быть, но утверждать мы ничего не можем. Необходимо провести дополнительные исследования, к примеру, проследить подобную корреляцию еще на 3-4 популярных видах спорта. Если распределение сохранится, то это даёт нам какую-то уверенность, что эффект действительно имеет место быть.

Автор статьи не утверждает, что каждое его слово высечено в мраморе. Он хочет рассказать и побудить интерес, а не истерию, и при этом отвечает за математическую адекватность выбранных методов. В этом, по мне, и заключается научный поиск истины.

Поиск научной истины заключается, в поиске достоверных и фальсифицируемых знаний. А вот таких "исследователей гомеопатии" как раз выше крыши.

halftimestat Feb 24 2023 at 11:22

Просто, помимо того, что уже сказано в ветке выше (что важно), я еще и не согласен с вашими статистическими методами.

Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году (соответствующие доли даже вынесены в легенду графика).

Так вот, если рассматривать каждый день в качестве случайной величины равной кол-ву рождений в этот день, то достаточно посчитать статистики этой сл величины в первой выборке (Янв-Мар) и последней (Окт-Дек). И провести хотя бы t-тест* на равенство средних. И здесь вы и поймете, почему неправы. Потому что p-value там на уровне много ниже 0.05. Скриншот с данными для теста прилагается.

* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день

thevlad Feb 24 2023 at 11:30

Не очень понял постановку эксперимента. Количество рождений топовых спортсменов в каждый день из первых трех месяцев и последних трех? У вас ведь вроде только месяцы на картинках были приведены.

PS: если бы подобные выкладки были в статье, то у меня бы даже вопросов не возникло.

thevlad Feb 24 2023 at 11:02

Кстати в статье в википедии по relative age effect, приведены данные, которые действительно хорошо выбрасывает за доверительные интервалы. Так что да, можно сказать что эффект реально имеет место быть. Мои возражению имеют, чисто методологический смысл. Чтобы делать исследования как это должно, всегда необходимо исходить из гипотезы что данные могли быть получены случайно.

halftimestat Feb 24 2023 at 11:54

только месяцы на картинках были приведены

Опять же, вопрос трейдоффа между скрупулезным подтверждением каждого факта в тексте и "читаемостью" статьи. Именно поэтому в статье есть акцент на сравнении рождаемости в первые три месяца года и последние (их можно рассматривать как две выборки случайной величины — количества рождений в день).

Комментарий учту — может быть, опубликую версию для желающих покопаться в материале в телеграм-канале проекта.

необходимо исходить из гипотезы что данные могли быть получены случайно

Абсолютно согласен. Расчеты, опровергающие случайность, приведены выше. Только вот на википедию стоит ссылаться с большой осторожностью. Спасибо за Вашу бдительность.

MagisterAlexandr Feb 24 2023 at 02:28

Но нормализация навредила бы визуальной составляющей.

А отсутствие нормализации делает визуальную составляющую бессмысленной.

halftimestat Feb 24 2023 at 08:52

Не согласен. Теоретическое матожидание количества дней рождения (исходя из предпосылки о равномерности по дням и пропорциональности количеству дней в месяце) представлено на графиках (синим) для понимания "чего стоило бы ожидать". И здесь самый важный вопрос: проходят ли данные в исследовании goodness-of-fit тест (использовал тест Колмогорова-Смирнова) с равномерным. Ответ: не проходят.

mikelavr Feb 23 2023 at 15:53

Не про спорт, но близко. Дочь пошла в школу в 6 лет (так сложилось). Первые годы была везде отстающей, но очень хотела догнать одноклассников. К средней школе догнала, школу закончила с золотой медалью, и колледж тоже с медалью.

Хотя генетику никто не отменял, но многое зависит от психологии. А во взрослом возрасте - от того, что происходит с человеком, когда он "падает" (что происходит примерно всегда). Сумеет "подняться", проанализировать произошедшее, и продолжить - или нет...

halftimestat Feb 23 2023 at 16:34

Согласен. Психология очень многое определяет здесь. Но на каждый положительный пример найдется и пример ученика, который — демотивированный — опустит руки. Matthew Effect — это примерно об этом.

P. S.: Автор статьи тоже пошел в шесть и тоже приходилось догонять. Не сказать, плохо это или хорошо, но одно очевидно: это влияет

adeshere Feb 24 2023 at 04:07

Автор статьи тоже пошел в шесть и тоже приходилось догонять. Не сказать, плохо это или хорошо, но одно очевидно: это влияет

Именно! Поскольку я ноябрьский, родители очень хотели дать мне дополнительный год для поступления в ВУЗ. И целенаправленно готовили, чтобы отдать в школу в 6 лет. Не помню точно, когда меня научили читать и считать до 100, но это было задолго до школы. А поскольку на полках в доме стояли А.Брэм, Жюль Верн, Библиотека современной фантастики и т.д., читать было что. Хотя началось все с природоведения и астрономии, так что во втором классе я уже делал в школе доклад "про гравитацию".

Конечно, какой-то импульс мне бы придали при любой дате рождения. Но разные месяцы явно накладывают свой отпечаток.

Gor40 Feb 24 2023 at 05:54

когда меня научили читать и считать до 100, но это было задолго до школы.

Пришёл в школу умея хорошо читать. Учительница однажды заставила читать вслух. После теста на скорость чтения, так как некоторые личности заорали что я соврал про количество прочтённого. Читать вслух и на скорость оказалось очень неудобно.

DazaiIsoki Feb 23 2023 at 16:45

Интересная информация. Спасибо за статью. Надо высчитать когда будет ребенок :)

kasyachitche Feb 23 2023 at 18:21

На самом деле, эта вероятность распределена достаточно равномерно в течение года.

С чего бы? У вас есть аргументы? У меня есть контраргумент по ссылке. Там же есть график, где видны вполне себе установившиеся колебания в течение года. На этих данных я построил ящики с усами, можно посмотреть и понять, что распределение рождений по месяцам в течение года ни разу не равномерно. Явно видно что в первую половину года дети рождаются чаще, чем во вторую. Не кажется ли вам, что этот график похож на те, что вы приводите?

upd. Вот по тем же данным построена своего рода цветная диаграмма.

halftimestat Feb 24 2023 at 08:47

В контексте исследования Европейских сборных целесообразно посмотреть на статистику по всей Европе: один из множества примеров. Можете на свой вкус goodness-of-fit тест провести на соответствие равномерному.
Не исключаю, при этом, что при той или иной фильтрации данных (в рамках отдельной страны, или региона, или возрастной когорты, или ...) отклонения от идеально равномерного могут быть, и это нормально. Ненормально то, насколько аномально распределение сборных (опять же, тест Колмогорова-Смирного показывает различие в распределениях между данными в исследовании и рождаемостью).

event1 Feb 24 2023 at 14:02

Вот данные евростата за 2018. Февраль от июля (крайние значения) отличаются на 1/5 примерно (370 против 450). На вашем графике этого не видно. Что на самом деле даже подкрепляет ваш аргумент, но тем не менее график лучше рисовать по корректным данным.

kasyachitche Feb 28 2023 at 06:54

Спасибо за ссылку. С сайта можно выгрузить все данные в табличном виде и построить вот такой график. На равномерное распределение похоже не очень, но и на распределение футболистов по возрасту тоже не похоже. Нужен анализ.

Количество рождений по месяцам в долях от суммарного количество рождений в году за 1991-2018 годы в Европе.

kasyachitche Feb 28 2023 at 06:34

Не могу понять при чем тут данные по вашей ссылке. Может я не туда смотрю, но это количество рождений по годам, а не по месяцам.

тест Колмогорова-Смирного показывает различие в распределениях между данными в исследовании и рождаемостью

Меня смущает тот факт, что исходное распределение рождаемости по месяцам у вас подозрительно ровное, так что если это распределение не соответствует действительности, то и тесты проводить смысла нет.

kasyachitche Feb 28 2023 at 07:30

Я понял свою ошибку. Никаких претензий к равномерности распределения больше не имею))

DeltaKilo Feb 23 2023 at 18:36

Кому интересно, Инфа по очкам набранным игроками НХЛ по месяцам их рождения за всю историю наблюдений: https://www.quanthockey.com/nhl/birth-month-totals/nhl-players-career-stats.html

Там же можно посмотреть по отдельным сезонам, сейчас, например, доминирует Май.

Segneto Feb 23 2023 at 21:50

Подобные выводы делал еще когда учился в школе. Сам рождён в феврале 85, и в школу пошел в 92 году, то есть 8 лет исполнилось через полгода обучения, но были одноклассники у которых даты рождения октябрь-ноябрь 84 и у них чаще всего получались бОльшие успехи и в спорте, и в обучении. То есть эти 5 месяцев разницы в возрасте, особенно в начальной школе, дают хорошую фору по развитию.

Vsevo10d Feb 23 2023 at 21:58

Ну так великие футболисты вырастают не на деревьях, а из юных футболистов, продемонстрировавших свою "+ несколько месяцев" мощь в школьном кружке. Даже странно, что кривые сглаживаются.

Насчет майских - наверняка то же самое примерно. Допустим: учебный год заканчивается к июню; в секцию клюкошайб и ногомячей набирают в условные 12 лет. Приходит такой ребенок майский в секцию - запишите меня! Апрельских еще брали, а ему уже говорят - месяц остался, не будем тебя учить, приходи на будущий год. Кто в новом наборе будет сильным и способным акселератом? Эффекта Матфея даже на сложных интеллектуальных работах не избегают, когда выбранного "способного" сотрудника босс начинает тащить и дальше. Чего уж там до физруков с квадратно-гнездовым мышлением, кто сильнее - того и лепим местным чемпионом (привет Штатам с их культом универского бейсбола, на который чуть ли не в Плюще учебные квоты).

Было бы интересно посмотреть, сохраняется ли такая статистика для стран, где традиционно другие календарные планы учебы.

thevlad Feb 24 2023 at 05:05

Только все эффекты в данном "исследовании", ниже границы стат значимости или около того. Поэтому такое "исследование" ни в одном уважающем себя научном журнале никогда не опубликуют. Типичный пример того, как дурить голову людям, не подготовленным в области статистики.

Пуассоновское распределение для интенсивности(среднего) 40, даёт средне квадратичное отклонение ~6, то есть три сигмы(p-value 0.997) это будет +/- 18, доверительный интервал если нуль-гипотеза(о случайности полученных данных) верна дает [22-58]. Это помимо того что еще может быть зависимость от количества родившихся в разные месяцы.

gchebanov Feb 24 2023 at 06:13

Лучше конечно без дисперсии, сразу по распределению считать, тут, кстати, совпадает, но в социальных исследованиях принято p-value 0.05, и оно более-менее (по модулю разброса рождаемости) соблюдается [27-53].
Я бы сказал что тут есть повод не искать причины и вводить новые принципы формированию групп, а для начала проверить больше статистики, для этого значимости вполне хватает.

thevlad Feb 24 2023 at 06:28

Это все на уровне стат значимости, и даже если нуль гипотеза отвергается, не понятно что это доказывает. В данном случаи, у нас есть некоторая интенсивность события, которую мы принимаем не зависящей от времени года(месяца), это наша нуль гипотеза. Проблема в том, что оценка интенсивности у нас тоже точечная, по честному она тоже должна давать вклад в дисперсию. Вторая проблема это не нормализованность данных по рождаемости. Третья проблема, даже если мы отбрасываем нуль гипотезу, как видно по данным(исходя из доверительного интервала), "сила" эффекта, то есть смещения интенсивности минимальна.

PS: и p-value 0.05 это для единичного эксперимента, если брать повторяющиеся, как в статье, то там будет другое значение

PSS: вообще я хотел просто обратить внимание, что не смотря на красивые картинки, наблюдаемый эффект на границе стат значимости, и делать из этого какие-то глубокие выводы, по меньшей мере преждевременно.

halftimestat Feb 24 2023 at 11:24

Насчет значимости результатов повторю тезис из другой ветки. Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году(соответствующие доли даже вынесены в легенду графика).

* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день

thevlad Feb 24 2023 at 11:50

Теперь постановка эксперимента и методология похожа на адекватную.

Только напомню, что в изначальной статье были распределение средних по месяцам, а не по дням(что дает совершенно другую оценку дисперсии), и вообще отсутствовали какие-либо доверительные интервалы и p-value.

PS: и я это все пишу, не потому что хочу докопаться, а рассматриваю статью именно с научной точки зрения. Да, тут вы взяли эффект который скорее всего имел место быть. Но в общем случаи, представьте что вам принесли статистическое исследование. С каких позиций вы будете оценивать его достоверность? Минимум, что его результаты хотя бы не получены чисто случайно. Без адекватной оценки доверительного интервала и p-value этого сказать не возможно. А примеров "наукообразной гомеопатии", когда результаты всяких "фуфломицинов" полученные чисто случайно или путем долгого насилования данных, выдают за достоверный факт на самом деле полно.

MagisterAlexandr Feb 23 2023 at 23:15

У нас в секции борьбы была просто детская группа, в которой и 8-летние были, и 13-летние. В соревнованиях распределяли по весу, а не по возрасту.

А в школе как раз лучше учиться среди старших. Это как бы поднимает планку, на которую ориентируешься, и потом среди сверстников чувствуешь себя ваще крутым.

adeshere Feb 24 2023 at 04:12

Кстати, да! Интересно, а среди "весовых" видов спорта подобные "месячные" закономерности есть?

Albert2009Zi Feb 25 2023 at 15:02

В Германии по весу и возрасту, НО в группах по два года. Например, сейчас Jugend C - это ребята 2011 - 2012 годов и т.д.
В командных видах может оно и работает, но в борьбе сомневаюсь. Если ты "мешок", то хоть осенний, хоть весенний, всё равно будешь проигрывать.

ALenaH Feb 24 2023 at 08:34

Родилась в декабре, была самая младшая в школе, закончила ее в 16 лет со вторым аттестатом по школе (серебро), потом красный диплом в первом универе и почти красный во втором. Эх, а если бы в январе??? Всё что жила - всё зря

involute Feb 24 2023 at 08:34

Вам теперь можно продавать календари зачатия для разных видов спорта с инструкцией по развитию карьеры))

thevlad Feb 24 2023 at 08:55

Календарики слишком дешево и одноразово, нужно продавать магическую жидкость содержащую молекулы "успешных спортсменов", чтобы еще усилить эффект. Хотя стойте...

vassabi Feb 24 2023 at 18:54

всегда было забавно читать - как много статей с "учителя\тренеры\прочие люди (или система) отбирают детей предвзято, айяйяй что же делать что же делать" и т.д.

или вкратце - про социально обусловленную разницу

И почти нет статей с "дети, которые внутриутробно развивались в разные месяцы - развиваются после рождения тоже по-разному"

т.е. про биологически обусловленную разницу.

Что-то мне кажется, что мало шансов, что такой биологической разницы нет. А отсутствие таких статей происходит потому что "это неинтересно" ...

PeterPK Feb 28 2023 at 13:23

Увлекаюсь настольным теннисом.

Тренерам в данном виде спорта вышеописанный эффект хорошо знаком.

Даты рождения нынешних трех лидеров юношеской сборной России:

Гребнев Максим Родился: 9 января
Кацман Лев Родился: 31 марта
Сидоренко Владимир Родился: 7 апреля

Комментарий тренера:
Детям родившимся в конце года трудно конкурировать с одногодками. Очень важно для карьеры заскочить в "паровоз сборных" - мини-кадетская сборная, кадетская, юношеская. Сборы, финансирование, турниры, лучшие тренеры - если не заскочил в этот паровоз, то потом догнать уже очень сложно.
А в мини-кадетскую сборную легче заскочить родившимся в начале года, в этом возрасте разница в пол года год еще играет заметную роль. Заскочил в мини-кадетскую сборную - дальше уже тащат в следующие.

P.S. Пара Кацман-Гребнев стали чемпионами Европы в паре по взрослым - впервые в истории СССР-России.