Comments 47
С многомерной корреляцией хорошо справляются также нейронные сети.
Например, для библиотеки FANN есть много примеров.
Например, для библиотеки FANN есть много примеров.
Не за что! Я даже и не знаю что посоветовать, хотя сам какое-то время назад был таким же. Если бы что-то было, сам бы не писал. Рыскал по просторам интернета, натыкался на опубликованные англоязычные курсы по мат. статистике.
У меня есть пара рекомендаций специально для Вас (я сам Московский Экономико-статистический Институт закончил, поэтому мальца разбираюсь, больше 10 курсов по математике и статистике дают о себе знать):


Не смотрите, что это комиксы. Уровень для начинающих очень приличный. В обоих книгах математика на уровне интегралов и производных, но на простых примерах. ^_^


Не смотрите, что это комиксы. Уровень для начинающих очень приличный. В обоих книгах математика на уровне интегралов и производных, но на простых примерах. ^_^
В первую очередь, Playboy!
Имея диплом мехмата, прочел с удовольствием. Изложено популярно, язык живой, примеры жизненные! :) Пишите еще обязательно! Доступно и интересно излагать математику дано немногим.
Зашёл посмотреть на картинку.
«вкус [яблока] с приличной точностью равен 5*красность+2*вес-7*количество червяков»
Я понимаю, что шутка и пример от балды, но как раз жизненный опыт говорит, что червяки выбирают самые спелые/вкусные яблоки — так что коэффициент перед ними должен быть +
Я понимаю, что шутка и пример от балды, но как раз жизненный опыт говорит, что червяки выбирают самые спелые/вкусные яблоки — так что коэффициент перед ними должен быть +
Позанудствую малость, хоть пятница и картинки этому не способствуют )
Все-таки вы каким-то окольным путем идете.
У нас есть две колонки с данными, W и L. Предполагаем прямую зависимость (строка 1, где кси — некая случайная величина).
Можно напрямую рассчитать корреляцию C1 между ними (см. строка 2).
Вы же предлагаете по уже посчитанной модели рассчитать еще один набор данных, и уже для него считать корреляцию C2. Понятно, что результат тот же, но этот шаг лишний, имхо.

*угрюмо уткнулся опять в монитор в этот пятничный вечер*
Все-таки вы каким-то окольным путем идете.
У нас есть две колонки с данными, W и L. Предполагаем прямую зависимость (строка 1, где кси — некая случайная величина).
Можно напрямую рассчитать корреляцию C1 между ними (см. строка 2).
Вы же предлагаете по уже посчитанной модели рассчитать еще один набор данных, и уже для него считать корреляцию C2. Понятно, что результат тот же, но этот шаг лишний, имхо.

*угрюмо уткнулся опять в монитор в этот пятничный вечер*
Я один открыл статью не из-за статьи?
Хорошо даете материал :)
Единственное, моя практика аналитической работы показывает, что привычная для математиков однобуквенная или чуть менее компактная нотация (со всякими перфиксами и пи-с-душками) переменных — это источник дикого количества ошибок. Как только формулы начинают носить прикладной характер лучше писать их названия более развернуто.
Единственное, моя практика аналитической работы показывает, что привычная для математиков однобуквенная или чуть менее компактная нотация (со всякими перфиксами и пи-с-душками) переменных — это источник дикого количества ошибок. Как только формулы начинают носить прикладной характер лучше писать их названия более развернуто.
Вот 20 лет занимаюсь тем, что программирую разную математику и физику. Не знаю почему, но неоднобуквенные обозначения во-первых жутко раздражают, а, во-вторых (почему-то) являются хорошим индикатором статей, которые не стоит читать.
Рейнольдс очень расстраивается от ваших слов…
Я глянул, над чем вы работаете, у вас большинство функций имеют не так много вводных, компактные обозначения пекрасно подходят и служат благой цели — спасти от искушения опредмечивания.
В прикладном анализе данных или, например, оценочных моделях, количество вводных переменных может быть несколько десятоков. Бывает и несколько сотен, например данные опросника на 50 страниц или количественные показатели собранные во время аудита. (ну да, это 100-мерные пространства, выраженные в разношерстных шкалах, что само по себе гемморой) И они, в большинстве своем, предметно привязанные. Так что нужна другая практика.
В прикладном анализе данных или, например, оценочных моделях, количество вводных переменных может быть несколько десятоков. Бывает и несколько сотен, например данные опросника на 50 страниц или количественные показатели собранные во время аудита. (ну да, это 100-мерные пространства, выраженные в разношерстных шкалах, что само по себе гемморой) И они, в большинстве своем, предметно привязанные. Так что нужна другая практика.
В каждой конкретной прикладной задаче удобными оказываются свои специфичные обозначения и соглашения. Я же говорил про математический текст, который предназначен для чтения. Вы же не будете ожидать, что в случае 100-мерного вектора наличие у отдельных его компонент уникальных имен поможет читателю больше, чем знание того факта, что это просто вектор x из Rn?
Пятница, boobs, отличная статья.
Залип на картинке.
сейчас как раз на coursera заканчивается курс про анализ данных — это все там есть, в т.ч. применение линейной регрессии для дискретных переменных или перечислений :)
кому интересно — велком, лекции вроде не стирают, проф излагает интересно и понятно, в общем отличное введение для новичков
… и действительно, все это легко и просто делается на R
кому интересно — велком, лекции вроде не стирают, проф излагает интересно и понятно, в общем отличное введение для новичков
… и действительно, все это легко и просто делается на R
Все же без коэффициента корреляции рассказ про линейную регрессию выглядит очень неполным. Ведь основной смысл коэффициента корреляции как раз и состоит в оценке качества линейной регрессии, а не в выяснении наличия зависимости между рядами данных, как часто неправильно думают.
Подробнее об этом написано у меня вот в этой короткой заметке: sites.google.com/site/ltwood/projects/stataddons/corrmyth, может и пригодится, если соберетесь продолжать свою статью.
Очень интересная статья. Положил в избранное. Быть может даже прочитаю… :)
Спасибо, интересно что математика пользуется спросом на Хабре, хотя что-то мне подсказывает что картинка с девушками многое определила.
Интересное исследование. Подобную штуку, но с практическим применением используют для оценки массы плода по данным УЗИ. Массу напрямую посчитать нельзя, но можно измерить, например, окружность головы. Имеется эмпирическая формула, предложенная Шепардом и соавторами [1] всего от двух параметров:
Log10(eFW)= -1.7492+(0.0166*BPD)+(0.0046*AC)-2.646*(BPD*AC)/1000
eFW — оценочная масса плода в килограммах
BPD — Biparietal diameter, бипариетальный диаметр черепа (расстояние между теменными буграми) в миллиметрах
AC — Abdominal circumference, окружность живота в миллиметрах
Заметьте, что формула имеет билинейный вид, причём лучшая корреляция была достигнута с логарифмом массы, а не с самой массой. Имеются и другие вариации формул на эту тему [2,3].
[1] Shepard MJ, Richards VA, Berkowitz RL, et al: An evaluation of two equations for predicting fetal weight by ultrasound. Am J Obstet Gynecol 142:47, 1982
[2] Hadlock FP, Harrist RB, Carpenter RJ, et al: Sonographic estimation of fetal weight: The value of femur length in addition to head and abdominal measurements. Radiology 150:535, 1984
[3] Michael G. Pinette, MD, Yuqun Pan, MD, et al: Estimation of Fetal Weight: Mean Value from Multiple Formulas. Ultrasound Med 18:813–817, 1999
Log10(eFW)= -1.7492+(0.0166*BPD)+(0.0046*AC)-2.646*(BPD*AC)/1000
eFW — оценочная масса плода в килограммах
BPD — Biparietal diameter, бипариетальный диаметр черепа (расстояние между теменными буграми) в миллиметрах
AC — Abdominal circumference, окружность живота в миллиметрах
Заметьте, что формула имеет билинейный вид, причём лучшая корреляция была достигнута с логарифмом массы, а не с самой массой. Имеются и другие вариации формул на эту тему [2,3].
[1] Shepard MJ, Richards VA, Berkowitz RL, et al: An evaluation of two equations for predicting fetal weight by ultrasound. Am J Obstet Gynecol 142:47, 1982
[2] Hadlock FP, Harrist RB, Carpenter RJ, et al: Sonographic estimation of fetal weight: The value of femur length in addition to head and abdominal measurements. Radiology 150:535, 1984
[3] Michael G. Pinette, MD, Yuqun Pan, MD, et al: Estimation of Fetal Weight: Mean Value from Multiple Formulas. Ultrasound Med 18:813–817, 1999
Мне как химику со специализацией на аналитике и расчетных методах это близко и приятно. Есть кое-какие мысли по применению генерации очень нелинейных зависимостей типа уравнения Армстронга для МЖХ: 1/k¢ = [n • (KMW-1)/(f • KSW)] • CM +1/(f • KSW). Но мой низкий программерский скилл пока не позволяет реализовать такое
dx.doi.org/10.1016%2FS0378-3812(98)00242-8
dx.doi.org/10.1016%2FS0378-3812(98)00242-8
Говоря о корреляции, нельзя не процитировать XKCD:


посередке самая красивая и вторая справа…
Цитата: «Коэффициент корреляции ни в дугу» — это сколько в граммах? Мне как начинающему статистику интересно какой коэфф еще в дугу, а когда надо искать другие методы…
Измерения, кроме роста, влияют на вес не линейно. В идеально-круглом случае — пропорционально квадрату радиуса, в остальных случаях — степень между 1 (плоская) до 2 (круглая).
Для таких случаев удобно использовать логарифмы, позволяющие перевести мультипликативные модели в аддитивные.
Для таких случаев удобно использовать логарифмы, позволяющие перевести мультипликативные модели в аддитивные.
Что-то я с графиками не соображу… может я тоже не в дугу, может ещё чего…
1. Почему на обоих графиках рост/вес ни по одной оси нет роста (они ведь выше метра были?)
2. Чем второй график отличатся от первого? Во втором случае рост у нас становится линейной функцией от 4-х переменных. Но нарисовать это затруднительно. Что в итоге изображено-то?
1. Почему на обоих графиках рост/вес ни по одной оси нет роста (они ведь выше метра были?)
2. Чем второй график отличатся от первого? Во втором случае рост у нас становится линейной функцией от 4-х переменных. Но нарисовать это затруднительно. Что в итоге изображено-то?
1. Это график предсказанного по модели веса от реального
2. Он отличается моделью, по которой построен
2. Он отличается моделью, по которой построен
Упс… прошу прощения. Изначально принял за W_p(L). Соответственно вопрос 2 автоматически понятен.
А какой смысл линии, пересекающей облако значений? Это ведь тоже функция W_p(W)? Если да, то в идеале, как понимаю, она была бы y=x, т.е. предсказанный и реальный вес совпадают. Но для демонстрации точности коэффициентов регрессии более привычно и правильно пользоваться гистограммами или величинам типа СКО.
А облако с пересекающей его линией я бы построил для облака W(L) и линии W_p(L). Как вы считаете?
А какой смысл линии, пересекающей облако значений? Это ведь тоже функция W_p(W)? Если да, то в идеале, как понимаю, она была бы y=x, т.е. предсказанный и реальный вес совпадают. Но для демонстрации точности коэффициентов регрессии более привычно и правильно пользоваться гистограммами или величинам типа СКО.
А облако с пересекающей его линией я бы построил для облака W(L) и линии W_p(L). Как вы считаете?
Sign up to leave a comment.
Корреляции для начинающих