Pull to refresh

Comments 11

Понятие корреляция вообще-то относится к статистике. А на этом сайте приводятся случайные совпадения функциональных зависимостей друг с другом и иногда со статистическими данными. Например какой статистикой описывается возраст Мисс Америка? Поэтому особого смысла конечно такие совпадения и не должны иметь. Простите за занудство ))
На сайте приводятся «совпадения» выборок случайных величин. Никаких статистик не нужно. Статистики относятся к критериям проверки гипотез. А возраст Мисс Америка мы принимаем за случайную величину с неизвестной функцией распределения, выборку которой мы имеем.
А вообще, нужно дополнить, что приводится выборочный коэффициент корреляции, а не коэффициент корреляции, что, конечно же, разные вещи.
Казусы такого рода возникают, когда два набора данных связаны с каким — то третьим, неучтенным.
Вообще говоря, наличие корреляции между двумя событиями совсем не означает, что одно из них является причиной другого. Вот пример из книжки Г. Кимбла «Как правильно пользоваться статистикой»: имеется положительная корреляция между числом гнезд, которые вьют аисты в Голландии и коэффициентом рождаемости в этой стране. Казалось бы из этого можно сделать вывод о том, что детей приносят аисты, но на самом деле увеличение числа детей часто связано с образованием новых семей, которые начинают совместную жизнь в новом доме, что ведет к увеличению числа дымоходных труб, в которых часто устраивают гнезда аисты.

Это я к тому, что обработать данные просто, а вот сделать правильные выводы из результатов уже сложнее.
UFO just landed and posted this here
На самом деле, этот сервис не показывает даже корреляции, а показывает только то, что с помощью хитрого представления данных читателя можно обмануть.

Дело в том, что почти во всех данных есть сильный шум. Поэтому точки правильнее было бы не интерполировать, а аппроксимировать прямыми (а ля линейная регрессия). Если присмотреться, то графики заскейлены (на оси Y справа всегда другой масштаб и есть смещение). А любые две прямые, которые двигаются в одну сторону, можно заскейлить так, что они совпадут. Поэтому в большинстве графиков отличие корреляции от единицы обусловлено в основном шумом.

Вот, собственно и алгоритм работы сервиса: берем любых два шумящих набора данных, которые одновременно растут или падают, аппроксимируем линиями, скейлим один из графиков, чтоб линии совпали, считаем коэффициент корреляции. Вуаля! Он близок к единице. И чтоб сбить читателя с толку, интерполируем точки вместо того, чтоб рисовать линейную регрессию.
Какой ещё шум? Вы из лаборатории по радиоэлектронике вернулись только что?
Понятие коэффициента корреляции (выборочного) определено точно. Есть две выборки, выборочный коэффициент корреляции: r=S_xy/(S_x*S_y), где S_t — корень из несмещённой выборочной дисперсии величины t. Коэффициент корреляции показывает, как ведёт себя одна случайная величина при изменении другой. О порядках величин речи не идёт. Поэтому ваше замечание по поводу того, что графики заскейлены, бессмысленно.
А то, как этот сервис работает, очевидно. Никакого «сбить с толку» там нет.
Ну, теперь каждый может своими руками доказать обратную зависимость между пиратством и глобальным потеплением!
Sign up to leave a comment.

Articles