Comments 16
Подозрительно, что матрица корреляции выглядит как циркулянт.
По правде сказать, что такое «циркулянт» не знал. Но википедия помогла, и теперь я могу предположить, что матрица корреляции скорее похожа на антициркулянт. Правда, что-либо подозрительное не обнаружил.
Мне вот непонятно, почему корреляции между товарами со смещением 6 одинаковы:
oil — chicken
iron — liquid gas
logs — tea
PS как раз на циркулянт: элементы вдоль вдоль вот таких \ диагоналей одинаковы.
oil — chicken
iron — liquid gas
logs — tea
PS как раз на циркулянт: элементы вдоль вдоль вот таких \ диагоналей одинаковы.
Понял, о чем вы, спасибо.
Скорее всего, тут сыграла шутку дискретность окраски. Коэффициенты не одинаковы, но лежат узком интервале.
Почему так получается, судить не возьмусь — возможно, из-за использования среднего геометрического для нормирования цен, возможно, из-за сезонной компоненты.
Скорее всего, тут сыграла шутку дискретность окраски. Коэффициенты не одинаковы, но лежат узком интервале.
Почему так получается, судить не возьмусь — возможно, из-за использования среднего геометрического для нормирования цен, возможно, из-за сезонной компоненты.
Мне тоже кажется что матрица очень подозрительная.
Ну не может иметь beef схожие коэффициенты что и soy, просто сдвинутые на разницу номеров позиций в вашем списке. И так для всего остального.
По идее, если убрать хотя бы 1 инструмент то циркуляр должен поломаться (образуются ступеньки по обеим осям). Попобуйте, если все останется как было — ошибка в реализации рассчетов.
Ну не может иметь beef схожие коэффициенты что и soy, просто сдвинутые на разницу номеров позиций в вашем списке. И так для всего остального.
По идее, если убрать хотя бы 1 инструмент то циркуляр должен поломаться (образуются ступеньки по обеим осям). Попобуйте, если все останется как было — ошибка в реализации рассчетов.
Так собственно, «Почему существуют странные корреляции»?
Потому что зачастую используется неверно подобранный метод анализа.
Параметрический коэффициент корреляции Пирсона может показывать заведомо большее значение на данных, закон распределения которых отличается от нормального. Но и высокий коэффициент корреляции ничего не говорит без указания уровня значимости — существует вероятность того, что найденная закономерность проявилась случайно.
Параметрический коэффициент корреляции Пирсона может показывать заведомо большее значение на данных, закон распределения которых отличается от нормального. Но и высокий коэффициент корреляции ничего не говорит без указания уровня значимости — существует вероятность того, что найденная закономерность проявилась случайно.
Чего вы тут велосипед изобретаете.
Достаточно помнить что корреляция может быть отлична от нуля в трёх случаях.
1. Величины действительно зависят одна от другой.
2. Случайность (что пытаются доказать часто здесь в статьях), недостаточность данных.
3. Обе величины не зависят друг от друга, но зависят от некоей третьей величины, не учтённой в исследовании.
Третий фактор почему-то часто (почти всегда) забывают.
Например, избавившись от тренда, мы убрали третью величину от которой зависят первые две — возрастающий тренд.
Это то что можно было убрать математически из исходных данных.
Но 110% что существует ещё масса других «зависимостей» от «третьей» величины — сезонность, солнечные циклы и т.д. и т.п.
Достаточно помнить что корреляция может быть отлична от нуля в трёх случаях.
1. Величины действительно зависят одна от другой.
2. Случайность (что пытаются доказать часто здесь в статьях), недостаточность данных.
3. Обе величины не зависят друг от друга, но зависят от некоей третьей величины, не учтённой в исследовании.
Третий фактор почему-то часто (почти всегда) забывают.
Например, избавившись от тренда, мы убрали третью величину от которой зависят первые две — возрастающий тренд.
Это то что можно было убрать математически из исходных данных.
Но 110% что существует ещё масса других «зависимостей» от «третьей» величины — сезонность, солнечные циклы и т.д. и т.п.
Целиком и полностью согласен с вами, если под корреляцией вы понимаете ее статистическую значимость, а не величину коэффициента корреляции.
Если коэффициент корреляции значим при р = 0.05, значит ошибиться мы можем в 1 случае из 20. И какой бы величины не была сам коэффициент, с ним приходится считаться.
Выявление скрытой переменной (3 пункт) может приводить к неверной интерпретации результатов корреляционного анализа, но этот момент лежит целиком и полностью на совести исследователя.
Если коэффициент корреляции значим при р = 0.05, значит ошибиться мы можем в 1 случае из 20. И какой бы величины не была сам коэффициент, с ним приходится считаться.
Выявление скрытой переменной (3 пункт) может приводить к неверной интерпретации результатов корреляционного анализа, но этот момент лежит целиком и полностью на совести исследователя.
Я в основном напирал на 3-й пункт.
Потому что просто диву даёшься, как даже в повседневной и личной жизни люди делают ложные выводы, что A и Б вроде бы зависят одно от другого.
Хотя на самом деле эти А и Б или никак не связаны, или слабо связаны, или даже связаны отрицательной корреляцией, но сильное влияние третьей переменной (про которую не знают, не замечают, или не хотят замечать) это скрывает.
Чисто интуитивно — ну не имеет никакого смысла и значения ни величина корреляции, ни её знак, ни статистическая значимость, если не исключено влияние третьей переменной (или не доказано, что оно пренебрежимо мало).
Потому что просто диву даёшься, как даже в повседневной и личной жизни люди делают ложные выводы, что A и Б вроде бы зависят одно от другого.
Хотя на самом деле эти А и Б или никак не связаны, или слабо связаны, или даже связаны отрицательной корреляцией, но сильное влияние третьей переменной (про которую не знают, не замечают, или не хотят замечать) это скрывает.
Чисто интуитивно — ну не имеет никакого смысла и значения ни величина корреляции, ни её знак, ни статистическая значимость, если не исключено влияние третьей переменной (или не доказано, что оно пренебрежимо мало).
Как в этом случае :)
С другой стороны, парадоксальные корреляции могут быть полезны — есть бородатая история о том, что некие маркетологи при анализе потребительской корзины покупателей некоего магазина обнаружили связь пива и подгузников. Оказалось, что новоиспеченные отцы, отправленные супругами за «памперсами», для компенсации прикупали бутылочку-другую пивка. Как гласит легенда, после этого к стеллажам с «детскими» товарами поставили мини-витрину с алкоголем.
С другой стороны, парадоксальные корреляции могут быть полезны — есть бородатая история о том, что некие маркетологи при анализе потребительской корзины покупателей некоего магазина обнаружили связь пива и подгузников. Оказалось, что новоиспеченные отцы, отправленные супругами за «памперсами», для компенсации прикупали бутылочку-другую пивка. Как гласит легенда, после этого к стеллажам с «детскими» товарами поставили мини-витрину с алкоголем.
Парадоксальная или не парадоксальная, но в этой истории корреляция есть (если она действительно была конечно), так что естественно полезно использовать знание о том что она есть.
Впрочем, для примера про «третью переменную», вполне можно придумать как использование этой корреляции могло бы привести наоборот к снижению выручки магазина, из-за третьей переменной про которую не знали/не заметили.
Например, поставили витрину с алкоголем к памперсам, и по выходным выручка увеличилась, а по рабочим дням — упала. И общая выручка упала.
Возможно из-за того что жёны отправляют мужей в магазин только по выходным, а по рабочим дням сами ходят за подгузниками. И по какой-нибудь «женской логике», наличие пива рядом с памперсами заставляет их меньше памперсов покупать.
Правда не знаю что здесь «третья переменная» — женская логика что ли :)
В реальном мире «третьи переменные» есть всегда, и учесть их все невозможно, так что как оно на самом деле — показывает только эксперимент.
Впрочем, для примера про «третью переменную», вполне можно придумать как использование этой корреляции могло бы привести наоборот к снижению выручки магазина, из-за третьей переменной про которую не знали/не заметили.
Например, поставили витрину с алкоголем к памперсам, и по выходным выручка увеличилась, а по рабочим дням — упала. И общая выручка упала.
Возможно из-за того что жёны отправляют мужей в магазин только по выходным, а по рабочим дням сами ходят за подгузниками. И по какой-нибудь «женской логике», наличие пива рядом с памперсами заставляет их меньше памперсов покупать.
Правда не знаю что здесь «третья переменная» — женская логика что ли :)
В реальном мире «третьи переменные» есть всегда, и учесть их все невозможно, так что как оно на самом деле — показывает только эксперимент.
Спасибо за ответ на статью.
Хочу поделиться еще одним скриптом.
github.com/tabatsky/jatx/tree/master/random_processes
В нем я попробовал спроецировать нормированные цены на собственные векторы матрицы ковариаций.
Таким образом получаем условно независимые случайные процессы.
Тогда все цены можно получить как линейные комбинации этих «независимых» процессов.
Что интересно — некоторым из этих процессов в некоторой степени присуща периодичность.
Если Вам интересно, можете попробовать спроецировать цены на собственные векторы Вашей матрицы корреляций, основанной на тесте Спирмена.
Возможно, удастся выявить какие-либо закономерности.
Хочу поделиться еще одним скриптом.
github.com/tabatsky/jatx/tree/master/random_processes
В нем я попробовал спроецировать нормированные цены на собственные векторы матрицы ковариаций.
Таким образом получаем условно независимые случайные процессы.
Тогда все цены можно получить как линейные комбинации этих «независимых» процессов.
Что интересно — некоторым из этих процессов в некоторой степени присуща периодичность.
Если Вам интересно, можете попробовать спроецировать цены на собственные векторы Вашей матрицы корреляций, основанной на тесте Спирмена.
Возможно, удастся выявить какие-либо закономерности.
Вообще говоря, условие нормальности распределения случайной величины для линейного коэффициента корреляции — вовсе не догма, поэтому Вы зря так просто его откинули. Кроме того, как я замечал в одной из статей jatx, весьма смело выдвигать гипотезу об однородности распределения цены на длительном промежутке времени, и неудивительно, что тест Шапиро-Уилка провалился. Вот если бы Вы анализировали коэффициенты корреляции на небольших временных интервалах, тем самым получая зависимость этих коэффициентов от времени, это, на мой взгляд, была бы куда более занимательная оценка.
А полученная матрица действительно дает основания для подозрений, что закрался баг.
А полученная матрица действительно дает основания для подозрений, что закрался баг.
Все же где-то у Вас закрался баг.
Я попробовал вычислить коэффициенты корреляции Спирмена и p-значения.
Отбираем значения с корреляцией >0.5 и <-0.5 (что по шкале Чеддока характеризуется как заметная), с p-значениями < 0.01.
Получаем следующую табличку:
tabatsky.ru/corr.html
Красные клетки — положительная корреляция, синие отрицательная.
Я попробовал вычислить коэффициенты корреляции Спирмена и p-значения.
R = zeros(goods_count,goods_count);
P = zeros(goods_count,goods_count);
for i = 1:goods_count
for j = 1:goods_count
[R(i,j) P(i,j)] = corr(all_goods_rel(:,i),all_goods_rel(:,j),'type','Spearman');
end
end
threshold = 0.5;
Q = and(R>threshold,P<0.01)-and(-R>threshold,P<0.01);
Отбираем значения с корреляцией >0.5 и <-0.5 (что по шкале Чеддока характеризуется как заметная), с p-значениями < 0.01.
Получаем следующую табличку:
tabatsky.ru/corr.html
Красные клетки — положительная корреляция, синие отрицательная.
Sign up to leave a comment.
Корреляционный анализ или Почему существуют странные корреляции