BubaVV Mar 15 2013 at 20:01

Корреляции для начинающих

6 min

214K

Algorithms*Mathematics*

Tutorial

+104

Comments 47

avrfun Mar 15 2013 at 20:09

С многомерной корреляцией хорошо справляются также нейронные сети.
Например, для библиотеки FANN есть много примеров.

BubaVV Mar 15 2013 at 20:11

Если человек знает слова «нейронная сеть», то он и сам с этим разберется. Этим материалом я пытаюсь снизить порог вхождения в тему для изначально далеких от этого людей

MAXH0 Mar 16 2013 at 12:01

Тогда 1 картинка вызывает диссонанс с последующими иллюстрациями

UFO just landed and posted this here

BubaVV Mar 15 2013 at 20:14

Не за что! Я даже и не знаю что посоветовать, хотя сам какое-то время назад был таким же. Если бы что-то было, сам бы не писал. Рыскал по просторам интернета, натыкался на опубликованные англоязычные курсы по мат. статистике.

sielover Mar 15 2013 at 20:17

Для практики есть святая буква R. В самой википедии тема раскрыта плохо, но ссылки на книги прилагаются

BubaVV Mar 15 2013 at 20:20

По Матлабу документации для старта все-таки больше. Плюс Эксель для визуальной подготовки данных тоже большое подспорье для начинающего. Мануал решил писать не на ровном месте, а в ходе проработки этого вопроса со студентами-нематематиками. Все-таки лучше всего пошла указанная в статье связка

Youri_M4U Mar 15 2013 at 23:42

У меня есть пара рекомендаций специально для Вас (я сам Московский Экономико-статистический Институт закончил, поэтому мальца разбираюсь, больше 10 курсов по математике и статистике дают о себе знать):

Не смотрите, что это комиксы. Уровень для начинающих очень приличный. В обоих книгах математика на уровне интегралов и производных, но на простых примерах. ^_^

+12

EvilsInterrupt Mar 16 2013 at 01:46

Зря такого нету о линейной алгебре и теор. вероятности

Youri_M4U Mar 16 2013 at 10:43

На японском есть. На русский пока не перевели.

Petr0vich Mar 16 2013 at 01:15

В первую очередь, Playboy!

UFO just landed and posted this here

olegus123 Mar 15 2013 at 20:40

Имея диплом мехмата, прочел с удовольствием. Изложено популярно, язык живой, примеры жизненные! :) Пишите еще обязательно! Доступно и интересно излагать математику дано немногим.

BubaVV Mar 15 2013 at 20:44

Спасибо! Потихоньку отрос скилл просто рассказывать о сложных вещах. Для местной публики, похоже, это слишком примитивно

example Mar 15 2013 at 21:08

Зашёл посмотреть на картинку.

+23

Frink Mar 15 2013 at 21:51

А удивительно то, что это не КДПВ, а реальное отображение сущности статьи… не ну надо же было так вывернуться =) круто!

yurash Mar 15 2013 at 21:10

«вкус [яблока] с приличной точностью равен 5*красность+2*вес-7*количество червяков»
Я понимаю, что шутка и пример от балды, но как раз жизненный опыт говорит, что червяки выбирают самые спелые/вкусные яблоки — так что коэффициент перед ними должен быть +

BubaVV Mar 15 2013 at 21:12

яблоко с червяком мы субъективно оценим как невкусное, даже если оно на самом деле вкусное

ltwood Mar 16 2013 at 01:29

Т.е. есть заставят прямо с червяками, да?

sielover Mar 15 2013 at 21:45

Позанудствую малость, хоть пятница и картинки этому не способствуют )

Все-таки вы каким-то окольным путем идете.
У нас есть две колонки с данными, W и L. Предполагаем прямую зависимость (строка 1, где кси — некая случайная величина).
Можно напрямую рассчитать корреляцию C₁ между ними (см. строка 2).
Вы же предлагаете по уже посчитанной модели рассчитать еще один набор данных, и уже для него считать корреляцию C₂. Понятно, что результат тот же, но этот шаг лишний, имхо.

*угрюмо уткнулся опять в монитор в этот пятничный вечер*

BubaVV Mar 15 2013 at 22:40

Тогда надо глубоко копнуть в сторону корреляций вообще и интеркорреляций между предикторами в частности

ababo Mar 15 2013 at 22:03

Я один открыл статью не из-за статьи?

mrjj Mar 15 2013 at 22:20

Хорошо даете материал :)

Единственное, моя практика аналитической работы показывает, что привычная для математиков однобуквенная или чуть менее компактная нотация (со всякими перфиксами и пи-с-душками) переменных — это источник дикого количества ошибок. Как только формулы начинают носить прикладной характер лучше писать их названия более развернуто.

ltwood Mar 16 2013 at 01:32

Вот 20 лет занимаюсь тем, что программирую разную математику и физику. Не знаю почему, но неоднобуквенные обозначения во-первых жутко раздражают, а, во-вторых (почему-то) являются хорошим индикатором статей, которые не стоит читать.

BubaVV Mar 16 2013 at 01:45

Рейнольдс очень расстраивается от ваших слов…

mrjj Mar 16 2013 at 03:10

Я глянул, над чем вы работаете, у вас большинство функций имеют не так много вводных, компактные обозначения пекрасно подходят и служат благой цели — спасти от искушения опредмечивания.

В прикладном анализе данных или, например, оценочных моделях, количество вводных переменных может быть несколько десятоков. Бывает и несколько сотен, например данные опросника на 50 страниц или количественные показатели собранные во время аудита. (ну да, это 100-мерные пространства, выраженные в разношерстных шкалах, что само по себе гемморой) И они, в большинстве своем, предметно привязанные. Так что нужна другая практика.

ltwood Mar 16 2013 at 03:31

В каждой конкретной прикладной задаче удобными оказываются свои специфичные обозначения и соглашения. Я же говорил про математический текст, который предназначен для чтения. Вы же не будете ожидать, что в случае 100-мерного вектора наличие у отдельных его компонент уникальных имен поможет читателю больше, чем знание того факта, что это просто вектор x из Rⁿ?

Skeaper Mar 15 2013 at 22:28

Пятница, boobs, отличная статья.

sil1999 Mar 15 2013 at 23:06

Залип на картинке.

UFO just landed and posted this here

BubaVV Mar 15 2013 at 23:18

Нет

botsvein Mar 16 2013 at 00:13

сейчас как раз на coursera заканчивается курс про анализ данных — это все там есть, в т.ч. применение линейной регрессии для дискретных переменных или перечислений :)
кому интересно — велком, лекции вроде не стирают, проф излагает интересно и понятно, в общем отличное введение для новичков

… и действительно, все это легко и просто делается на R

UFO just landed and posted this here

ltwood Mar 16 2013 at 01:37

Все же без коэффициента корреляции рассказ про линейную регрессию выглядит очень неполным. Ведь основной смысл коэффициента корреляции как раз и состоит в оценке качества линейной регрессии, а не в выяснении наличия зависимости между рядами данных, как часто неправильно думают.

ltwood Mar 16 2013 at 03:47

Подробнее об этом написано у меня вот в этой короткой заметке: sites.google.com/site/ltwood/projects/stataddons/corrmyth, может и пригодится, если соберетесь продолжать свою статью.

IvanFF Mar 16 2013 at 08:01

Очень интересная статья. Положил в избранное. Быть может даже прочитаю… :)

mezastel Mar 16 2013 at 11:50

Спасибо, интересно что математика пользуется спросом на Хабре, хотя что-то мне подсказывает что картинка с девушками многое определила.

tagir_valeev Mar 16 2013 at 19:29

Интересное исследование. Подобную штуку, но с практическим применением используют для оценки массы плода по данным УЗИ. Массу напрямую посчитать нельзя, но можно измерить, например, окружность головы. Имеется эмпирическая формула, предложенная Шепардом и соавторами [1] всего от двух параметров:
Log10(eFW)= -1.7492+(0.0166*BPD)+(0.0046*AC)-2.646*(BPD*AC)/1000
eFW — оценочная масса плода в килограммах
BPD — Biparietal diameter, бипариетальный диаметр черепа (расстояние между теменными буграми) в миллиметрах
AC — Abdominal circumference, окружность живота в миллиметрах

Заметьте, что формула имеет билинейный вид, причём лучшая корреляция была достигнута с логарифмом массы, а не с самой массой. Имеются и другие вариации формул на эту тему [2,3].

[1] Shepard MJ, Richards VA, Berkowitz RL, et al: An evaluation of two equations for predicting fetal weight by ultrasound. Am J Obstet Gynecol 142:47, 1982
[2] Hadlock FP, Harrist RB, Carpenter RJ, et al: Sonographic estimation of fetal weight: The value of femur length in addition to head and abdominal measurements. Radiology 150:535, 1984
[3] Michael G. Pinette, MD, Yuqun Pan, MD, et al: Estimation of Fetal Weight: Mean Value from Multiple Formulas. Ultrasound Med 18:813–817, 1999

BubaVV Mar 16 2013 at 21:28

Мне как химику со специализацией на аналитике и расчетных методах это близко и приятно. Есть кое-какие мысли по применению генерации очень нелинейных зависимостей типа уравнения Армстронга для МЖХ: 1/k¢ = [n • (KMW-1)/(f • KSW)] • CM +1/(f • KSW). Но мой низкий программерский скилл пока не позволяет реализовать такое

dx.doi.org/10.1016%2FS0378-3812(98)00242-8

tyomitch Mar 17 2013 at 01:50

Говоря о корреляции, нельзя не процитировать XKCD:

KirillovAlex Mar 17 2013 at 01:55

посередке самая красивая и вторая справа…

OKComputer Apr 2 2013 at 19:39

Цитата: «Коэффициент корреляции ни в дугу» — это сколько в граммах? Мне как начинающему статистику интересно какой коэфф еще в дугу, а когда надо искать другие методы…

BubaVV Apr 2 2013 at 19:41

В целом, это сильно зависит от задачи. В этом примере строго на глаз. Я бы постарался понять, какой разброс предсказанной величины выходил с данным коэффициентом корреляции, и смотрел, насколько меня это устроит

palexisru Jul 26 2013 at 14:57

Измерения, кроме роста, влияют на вес не линейно. В идеально-круглом случае — пропорционально квадрату радиуса, в остальных случаях — степень между 1 (плоская) до 2 (круглая).

Для таких случаев удобно использовать логарифмы, позволяющие перевести мультипликативные модели в аддитивные.

MaxxxZ Feb 13 2017 at 22:21

Что-то я с графиками не соображу… может я тоже не в дугу, может ещё чего…

1. Почему на обоих графиках рост/вес ни по одной оси нет роста (они ведь выше метра были?)
2. Чем второй график отличатся от первого? Во втором случае рост у нас становится линейной функцией от 4-х переменных. Но нарисовать это затруднительно. Что в итоге изображено-то?

BubaVV Feb 14 2017 at 15:06

1. Это график предсказанного по модели веса от реального
2. Он отличается моделью, по которой построен

MaxxxZ Feb 14 2017 at 21:19

Упс… прошу прощения. Изначально принял за W_p(L). Соответственно вопрос 2 автоматически понятен.

А какой смысл линии, пересекающей облако значений? Это ведь тоже функция W_p(W)? Если да, то в идеале, как понимаю, она была бы y=x, т.е. предсказанный и реальный вес совпадают. Но для демонстрации точности коэффициентов регрессии более привычно и правильно пользоваться гистограммами или величинам типа СКО.
А облако с пересекающей его линией я бы построил для облака W(L) и линии W_p(L). Как вы считаете?

Show the best of all time