Анализируем странные корреляции



    Недавно заметил в ленте фейсбука ссылку на статью с кучей примеров «странных корреляций» как на картинке. Первоисточник оказывается здесь, и там таких примеров штук 20. Решил по-практиковаться в статистике и проверить насколько эти корреляции удивительны на самом деле.

    Заинтересованных прошу под кат.

    Убираем тренды


    Если два показателя всё время растут, то у них будет положительная корреляция, и в этом нет ничего удивительного. Корреляцию нужно мерять по стационарным переменным. Чтобы убрать тренды я построил линейную регрессию от времени по каждому показателю, вычел из фактических данных и проверил корреляцию остатков.

    В некоторых случаях корреляция сильно снизилась:



    В других – ничего не поменялось:



    Значит должно быть что-то ещё!

    Кстати, я заметил, что положительных корреляций найдено существенно больше, чем отрицательных. Думаю дело в том, что в базе показателей, которые использовал автор, очень много растущих показателей. Люди вообще очень любят измерять что-то растущее. В результате куча показателей, для которых «остатки от тренда» имеют сильную отрицательную корреляцию, оказались не найдены, так как совпадающий положительный тренд сдвигал корреляцию ближе к нулю.

    Какая вообще вероятность получить такую корреляцию случайно?


    Вот здесь мы возьмёмся за формулы! У меня получилось, что в среднем в этих переменных по 11 точек и после коррекции на тренды средняя корреляция в районе 70%. Зная корреляцию и количество точек можно получить переменную, которая распределена как t-Стьюдента с числом степеней свободы n-2:



    Получаем t=2.98 и вероятность получить такую корреляцию при независимых переменных — порядка 0.77%. Полученная цифра довольно впечатляющая, но вопрос не закрыт!

    Причём тут парадокс близнецов?


    Вероятность в 0.77% кажется слишком низкой, чтобы верить в случайное совпадение, но интуиция здесь ошибается. Эта ситуация похожа на известный парадокс дней рождения

    Вероятность, что два человека родились в один день равна 1/365. Но среди всего 23 человек с 50% вероятностью найдётся пара родившихся в один день. Так происходит, потому что нам не важно какие именно два человека это будут, а среди 23 человек можно составить множество пар.

    По же самое происходит и с корреляцией различных показателей, если не важно какие из них будут коррелировать. Две случайных переменных будут сильно коррелировать в одной попытке из 65. Я умножаю вероятность на 2, так как корреляция ниже -70% тоже нас интересует.



    Но если взять всего лишь 9 случайных переменных (по 11 точек в каждой), то с вероятностью 50% там будет корреляция более 70% или менее – 70%



    На практике наверняка пришлось просмотреть намного больше переменных. Очень многие показатели на самом деле могут или должны коррелировать и отфильтровать именно «удивительные» было сложно. Но после статистического анализа видно, что и в найденных показателях нет ничего удивительного. Опять интуиция подводит человека в вопросах оценки вероятностей.
    Share post

    Comments 31

      +5
      Потребление маргарина сигнализирует о снижении уровня благосостояния (бедным — маргарин, богатым — масло). Разводы — тоже функция от благосостояния. Не только нищенский быт заедает, но и банально матерям-одиночкам что-то от государства перепадает в виде субсидий.

      Так что, настолько-ли эта корреляция случайна?
        +19
        Под любые данные можно придумать объяснение :-)
          +9
          И про влияние количества пиратов на глобальное потепление?
            0
            По моему там нету корреляции :-)
            Хотя может глобально потепление привело к существенному уменьшение кол-ва пиратов из за ухудшения погодных условий на воде
              0
              Даже если очистить от тренда? А то когда одно возрастает и другое возрастает, корреляция ≈1.
                +2
                Там не один общий тренд, а два с противоположными знаками. Температура растёт, количество пиратов уменьшается. Соответственно корреляция отрицательная.
                  0
                  Температура растет, количество непиратов тоже растет.
                    0
                    Количество непиратов примерно равно населению, даже когда пиратов было много, поэтому это другая история, похожая на первый пример.
                +1
                Научно-технический прогресс: пиратов стало проще истреблять, заводов-фабрик стало больше.
                  +8
                  Как только пираты перестали топить торговые корабли, так сразу развилась промышленность, загадила атмосферу и учинила парниковый эффект.
                  0
                  Все политики, государственные бюрократы и сми, в принципе, этим и занимаются :).
                    0
                    Или так: снижение потребления маргарина снижает частоту случаев развода из-за испачканной маргарином мебели или постели.
                  +21
                  даёшь корреляцию по потреблению качественного сыра в России и количеством свободных сми в ней же ;)
                    +4
                    Количество защищенных кандидатских диссертаций в США должно быть равно нулю, кстати, в связи с отсутствием таковых.
                      0
                      PhD?
                      +6
                      В этом плане весьма забавен google trends.
                      image
                        +1
                        Наверняка есть корреляция с чем-то третьим.
                          +4
                          C сезонами отпусков и доступом в интернет?
                          Резкие пики на графиках — зимние каникулы, плавные сёдла — периоды летних отпусков :)
                            +2
                            Большие циклы — да, а вот совпадения мелких пиков и спадов для меня загадка.
                              +5
                              Большие циклы — да, а вот совпадения мелких пиков и спадов для меня загадка


                              Ответ простой. Страх. Прочитав в СМИ очередную страшилку про глобальное потепление, в духе «А-а-а-а мы все умрём!» люди сразу вспоминают о религии.

                              Зависимость достаточно явная. Корреляция не ложная.
                                0
                                Плюс надо сравнить короткие скачки вниз с несостоявшимися концами света, которые, вероятно, на некоторое время поднимают уровень скептицизма.
                            0
                            Весенним обострением?
                            +1
                            давно так не смеялся :) спасибо!
                            +1
                            Интересная идея с линейной регрессией, а какие еще есть варианты по удалению трендов из данных?
                              +2
                              Безбожники финансисты ещё часто смотрят на корреляцию приростов показателей по отношению к предыдущему периоду. Так тренд тоже уходит. С линейной регрессией результаты похожи, но для меня этот метод более наглядный и понятный.

                              Ещё можно убирать циклы из данных, но на 11 точках это мало что даст. Это можно использовать когда у всех показателей есть какой-то годовой (или месячный) цикл, не связанный напрямую с показателем. Прекрасный пример — поисковые запросы из комментариев сверху. Наверняка там многие циклы объясняются выходными днями и отпусками. Ну и все мы помним, что «весной и осенью у шизофреников обостряется активность».
                              +14
                              Не будет у вас больше диссертаций
                              image
                              0
                              Все это чем то напоминает квантовую запутанность в макромире.
                                0
                                «Корреляцию нужно мерять по стационарным переменным» — извините это теорема имени вас? Кому нужно? Всем всегда?

                                Вы сами это придумали?
                                  0
                                  Зачем так кипятиться, вот я не понимаю?

                                  Нет, к сожалению, это не я придумал. Это нужно было лет на сто раньше родиться, наверное :)

                                  Смысл в том, что если мы делаем предположение о cвязи между переменными по корреляции, мы нагенерим много таких левых гипотез, если не позаботимся о трендах. Обычно это проявляется в форме введения переменной «время» в моделях множественной регрессии. Так учит делать любой учебник по эконометрике. Но здесь, я считаю, та же идея, только в профиль.

                                  Если хочется харкора и почитать источники, википедия ведёт сюда, тема очень древняя — www.math.mcgill.ca/~dstephens/OldCourses/204-2007/Handouts/Yule1926.pdf

                                  Но согласен, что никакой строгой теории тут нет, корреляция не обязательно значит причинность.

                                Only users with full accounts can post comments. Log in, please.