![](https://habrastorage.org/files/321/0ae/9f7/3210ae9f79594b49a30b890678bf368a.png)
Недавно заметил в ленте фейсбука ссылку на статью с кучей примеров «странных корреляций» как на картинке. Первоисточник оказывается здесь, и там таких примеров штук 20. Решил по-практиковаться в статистике и проверить насколько эти корреляции удивительны на самом деле.
Заинтересованных прошу под кат.
Убираем тренды
Если два показателя всё время растут, то у них будет положительная корреляция, и в этом нет ничего удивительного. Корреляцию нужно мерять по стационарным переменным. Чтобы убрать тренды я построил линейную регрессию от времени по каждому показателю, вычел из фактических данных и проверил корреляцию остатков.
В некоторых случаях корреляция сильно снизилась:
![](https://habrastorage.org/files/89b/b71/64c/89bb7164c61a462fbc0198171708ceeb.png)
В других – ничего не поменялось:
![](https://habrastorage.org/files/fd6/2f2/893/fd62f2893f2d492fa78e1dc63607a73e.png)
Значит должно быть что-то ещё!
Кстати, я заметил, что положительных корреляций найдено существенно больше, чем отрицательных. Думаю дело в том, что в базе показателей, которые использовал автор, очень много растущих показателей. Люди вообще очень любят измерять что-то растущее. В результате куча показателей, для которых «остатки от тренда» имеют сильную отрицательную корреляцию, оказались не найдены, так как совпадающий положительный тренд сдвигал корреляцию ближе к нулю.
Какая вообще вероятность получить такую корреляцию случайно?
Вот здесь мы возьмёмся за формулы! У меня получилось, что в среднем в этих переменных по 11 точек и после коррекции на тренды средняя корреляция в районе 70%. Зная корреляцию и количество точек можно получить переменную, которая распределена как t-Стьюдента с числом степеней свободы n-2:
![](https://habrastorage.org/files/aef/0db/638/aef0db6387c242319c721c9468d18341.png)
Получаем t=2.98 и вероятность получить такую корреляцию при независимых переменных — порядка 0.77%. Полученная цифра довольно впечатляющая, но вопрос не закрыт!
Причём тут парадокс близнецов?
Вероятность в 0.77% кажется слишком низкой, чтобы верить в случайное совпадение, но интуиция здесь ошибается. Эта ситуация похожа на известный парадокс дней рождения
Вероятность, что два человека родились в один день равна 1/365. Но среди всего 23 человек с 50% вероятностью найдётся пара родившихся в один день. Так происходит, потому что нам не важно какие именно два человека это будут, а среди 23 человек можно составить множество пар.
По же самое происходит и с корреляцией различных показателей, если не важно какие из них будут коррелировать. Две случайных переменных будут сильно коррелировать в одной попытке из 65. Я умножаю вероятность на 2, так как корреляция ниже -70% тоже нас интересует.
![](https://habrastorage.org/files/ac1/759/b09/ac1759b09f954f3f94f68649021a8acb.png)
Но если взять всего лишь 9 случайных переменных (по 11 точек в каждой), то с вероятностью 50% там будет корреляция более 70% или менее – 70%
![](https://habrastorage.org/files/31a/0e5/ccf/31a0e5ccf15a4696b80f2e9ce4afad0c.png)
На практике наверняка пришлось просмотреть намного больше переменных. Очень многие показатели на самом деле могут или должны коррелировать и отфильтровать именно «удивительные» было сложно. Но после статистического анализа видно, что и в найденных показателях нет ничего удивительного. Опять интуиция подводит человека в вопросах оценки вероятностей.