Pull to refresh
16
0
Send message

только месяцы на картинках были приведены

Опять же, вопрос трейдоффа между скрупулезным подтверждением каждого факта в тексте и "читаемостью" статьи. Именно поэтому в статье есть акцент на сравнении рождаемости в первые три месяца года и последние (их можно рассматривать как две выборки случайной величины — количества рождений в день).

Комментарий учту — может быть, опубликую версию для желающих покопаться в материале в телеграм-канале проекта.

необходимо исходить из гипотезы что данные могли быть получены случайно

Абсолютно согласен. Расчеты, опровергающие случайность, приведены выше. Только вот на википедию стоит ссылаться с большой осторожностью. Спасибо за Вашу бдительность.

Насчет значимости результатов повторю тезис из другой ветки. Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году(соответствующие доли даже вынесены в легенду графика). 

Так вот, если рассматривать каждый день в качестве случайной величины равной кол-ву рождений в этот день, то достаточно посчитать статистики этой сл величины в первой выборке (Янв-Мар) и последней (Окт-Дек). И провести хотя бы t-тест* на равенство средних. И здесь вы и поймете, почему неправы. Потому что p-value там на уровне много ниже 0.05. Скриншот с данными для теста прилагается.

* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день

Просто, помимо того, что уже сказано в ветке выше (что важно), я еще и не согласен с вашими статистическими методами.

Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году (соответствующие доли даже вынесены в легенду графика).

Так вот, если рассматривать каждый день в качестве случайной величины равной кол-ву рождений в этот день, то достаточно посчитать статистики этой сл величины в первой выборке (Янв-Мар) и последней (Окт-Дек). И провести хотя бы t-тест* на равенство средних. И здесь вы и поймете, почему неправы. Потому что p-value там на уровне много ниже 0.05. Скриншот с данными для теста прилагается.

* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день

Как точно подмечено выше:

Если бы автор отправил свою статью в Nature, ее бы там развернули именно по этой причине

Именно поэтому статья не в Nature, а на хабре — и это не пренебрежение читателем хабра, а наоборот — доверие его критическому мышлению и верности научному методу на пути к новым итерациям исследования.

Проблема недостатка данных давно и глубоко известна. Конечно, если бы в молодёжные сборные отбирали по тысяче игроков в год, проблем бы не было, но это не так (и не нужно, чтобы было так, наверное). Поэтому во всех подобного рода исследованиях, не всегда имея роскошь собрать побольше данных, приходится — в рамках адекватных заданных предпосылок — выкручиваться, собирать критику и продолжать искать истину.

Автор статьи не утверждает, что каждое его слово высечено в мраморе. Он хочет рассказать и побудить интерес, а не истерию, и при этом отвечает за математическую адекватность выбранных методов. В этом, по мне, и заключается научный поиск истины.

Расстраивает, что статья хоть для кого-то оказалась побудителем к "псевдонаучной ерунде". Цель статьи ровно в противоположном — показать и рассказать популярным языком о реальном статистическом феномене (подтвердив фактами) и, как раз наоборот, разбудить в читателе интерес к научному подходу к проблеме и дискуссии.

Не согласен. Теоретическое матожидание количества дней рождения (исходя из предпосылки о равномерности по дням и пропорциональности количеству дней в месяце) представлено на графиках (синим) для понимания "чего стоило бы ожидать". И здесь самый важный вопрос: проходят ли данные в исследовании goodness-of-fit тест (использовал тест Колмогорова-Смирнова) с равномерным. Ответ: не проходят.

В контексте исследования Европейских сборных целесообразно посмотреть на статистику по всей Европе: один из множества примеров. Можете на свой вкус goodness-of-fit тест провести на соответствие равномерному.
Не исключаю, при этом, что при той или иной фильтрации данных (в рамках отдельной страны, или региона, или возрастной когорты, или ...) отклонения от идеально равномерного могут быть, и это нормально. Ненормально то, насколько аномально распределение сборных (опять же, тест Колмогорова-Смирного показывает различие в распределениях между данными в исследовании и рождаемостью).

Спасибо за комментарий. Очень ценный фидбэк!

  • статистику южноамериканских игроков — очень интересно изучить, но поскольку это скорее дополнение к статье, результаты будут только в телеграм канале, посященном проекту, оформлять их в отдельную статью не очень целесообразно

  • цифры все-таки надо разделить на число дней в месяце — уже ответил в той ветке, почему это не было сделано (коротко: навредит восприятию, без особой фактической необходимости), теоретическое ожидаемое значение исходя из количества дней и равномерного распределения, к слову, представлено темно-синим на графиках

  • научный журнал — большое спасибо, рассмотрю опцию. Развитие исследования последует точно. Опять же, детали точно будут в телеграме и, надеюсь, в новых статьях

В таком случае, стоило бы ожидать сопоставимого показателя и. апреле/июне, но это не так — выброс специфичен для Мая

Согласен про условную вероятность в этом контексте. Но нормализация навредила бы визуальной составляющей. Тем не менее, с точки зрения фактической точности, предпосылки не нарушены: про околоравномерное распределение дней рождения информации достаточно много в открытом доступе

Согласен. Психология очень многое определяет здесь. Но на каждый положительный пример найдется и пример ученика, который — демотивированный — опустит руки. Matthew Effect — это примерно об этом.

P. S.: Автор статьи тоже пошел в шесть и тоже приходилось догонять. Не сказать, плохо это или хорошо, но одно очевидно: это влияет

Это одна из нераскрытых загадок, пока что
Что удалось выяснить, так это то, что "эффект Мая" выше в топовых сборных (в особенности, много таких спортсменов в Англии, Португалии, Испании, Франции) (отсюда и его "остатки" в распределений месяцев самых дорогих игроков)

Одно из предположений заключается в локальных особенностях отбора, или случайных эффектах

А есть какие-либо подвижки в сторону устранения или, для начала, сглаживания эффекта на локальном уровне?

P. S.: очень ценно услышать комментарий от человека, сталкивающегося с феноменом на практике

Спасибо за деталь. Да, интересно теперь простратифицировать эффект по странам, например. А с точки зрения Relative Age Effect, если такое зашумление на уровне отдельных стран существует, то наличие эффекта в среднем еще более пугающее...

Все так, я этого и не скрывал. Ссылка на книгу есть в статье. Но мне интересно посмотреть на эту историю, как минимум с двух сторон:
1. Приложить знания к футбольным данным и убедиться в затухании эффекта при взрослении и отсутствии связи с реальными навыками
2. Книге 15 лет, этому эффекту еще больше. А изменений в системе отбора, по-прежнему, практически никаких

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Scientist
Middle