Pull to refresh

Comments 47

С многомерной корреляцией хорошо справляются также нейронные сети.
Например, для библиотеки FANN есть много примеров.
Если человек знает слова «нейронная сеть», то он и сам с этим разберется. Этим материалом я пытаюсь снизить порог вхождения в тему для изначально далеких от этого людей
Тогда 1 картинка вызывает диссонанс с последующими иллюстрациями
UFO just landed and posted this here
Не за что! Я даже и не знаю что посоветовать, хотя сам какое-то время назад был таким же. Если бы что-то было, сам бы не писал. Рыскал по просторам интернета, натыкался на опубликованные англоязычные курсы по мат. статистике.
Для практики есть святая буква R. В самой википедии тема раскрыта плохо, но ссылки на книги прилагаются
По Матлабу документации для старта все-таки больше. Плюс Эксель для визуальной подготовки данных тоже большое подспорье для начинающего. Мануал решил писать не на ровном месте, а в ходе проработки этого вопроса со студентами-нематематиками. Все-таки лучше всего пошла указанная в статье связка
У меня есть пара рекомендаций специально для Вас (я сам Московский Экономико-статистический Институт закончил, поэтому мальца разбираюсь, больше 10 курсов по математике и статистике дают о себе знать):
image

image

Не смотрите, что это комиксы. Уровень для начинающих очень приличный. В обоих книгах математика на уровне интегралов и производных, но на простых примерах. ^_^
На японском есть. На русский пока не перевели.
UFO just landed and posted this here
Имея диплом мехмата, прочел с удовольствием. Изложено популярно, язык живой, примеры жизненные! :) Пишите еще обязательно! Доступно и интересно излагать математику дано немногим.
Спасибо! Потихоньку отрос скилл просто рассказывать о сложных вещах. Для местной публики, похоже, это слишком примитивно
А удивительно то, что это не КДПВ, а реальное отображение сущности статьи… не ну надо же было так вывернуться =) круто!
«вкус [яблока] с приличной точностью равен 5*красность+2*вес-7*количество червяков»
Я понимаю, что шутка и пример от балды, но как раз жизненный опыт говорит, что червяки выбирают самые спелые/вкусные яблоки — так что коэффициент перед ними должен быть +
яблоко с червяком мы субъективно оценим как невкусное, даже если оно на самом деле вкусное
Т.е. есть заставят прямо с червяками, да?
Позанудствую малость, хоть пятница и картинки этому не способствуют )

Все-таки вы каким-то окольным путем идете.
У нас есть две колонки с данными, W и L. Предполагаем прямую зависимость (строка 1, где кси — некая случайная величина).
Можно напрямую рассчитать корреляцию C1 между ними (см. строка 2).
Вы же предлагаете по уже посчитанной модели рассчитать еще один набор данных, и уже для него считать корреляцию C2. Понятно, что результат тот же, но этот шаг лишний, имхо.


*угрюмо уткнулся опять в монитор в этот пятничный вечер*
Тогда надо глубоко копнуть в сторону корреляций вообще и интеркорреляций между предикторами в частности
Я один открыл статью не из-за статьи?
Хорошо даете материал :)

Единственное, моя практика аналитической работы показывает, что привычная для математиков однобуквенная или чуть менее компактная нотация (со всякими перфиксами и пи-с-душками) переменных — это источник дикого количества ошибок. Как только формулы начинают носить прикладной характер лучше писать их названия более развернуто.
Вот 20 лет занимаюсь тем, что программирую разную математику и физику. Не знаю почему, но неоднобуквенные обозначения во-первых жутко раздражают, а, во-вторых (почему-то) являются хорошим индикатором статей, которые не стоит читать.
Рейнольдс очень расстраивается от ваших слов…
Я глянул, над чем вы работаете, у вас большинство функций имеют не так много вводных, компактные обозначения пекрасно подходят и служат благой цели — спасти от искушения опредмечивания.

В прикладном анализе данных или, например, оценочных моделях, количество вводных переменных может быть несколько десятоков. Бывает и несколько сотен, например данные опросника на 50 страниц или количественные показатели собранные во время аудита. (ну да, это 100-мерные пространства, выраженные в разношерстных шкалах, что само по себе гемморой) И они, в большинстве своем, предметно привязанные. Так что нужна другая практика.
В каждой конкретной прикладной задаче удобными оказываются свои специфичные обозначения и соглашения. Я же говорил про математический текст, который предназначен для чтения. Вы же не будете ожидать, что в случае 100-мерного вектора наличие у отдельных его компонент уникальных имен поможет читателю больше, чем знание того факта, что это просто вектор x из Rn?
UFO just landed and posted this here
сейчас как раз на coursera заканчивается курс про анализ данных — это все там есть, в т.ч. применение линейной регрессии для дискретных переменных или перечислений :)
кому интересно — велком, лекции вроде не стирают, проф излагает интересно и понятно, в общем отличное введение для новичков

… и действительно, все это легко и просто делается на R
UFO just landed and posted this here
Все же без коэффициента корреляции рассказ про линейную регрессию выглядит очень неполным. Ведь основной смысл коэффициента корреляции как раз и состоит в оценке качества линейной регрессии, а не в выяснении наличия зависимости между рядами данных, как часто неправильно думают.
Очень интересная статья. Положил в избранное. Быть может даже прочитаю… :)
Спасибо, интересно что математика пользуется спросом на Хабре, хотя что-то мне подсказывает что картинка с девушками многое определила.
Интересное исследование. Подобную штуку, но с практическим применением используют для оценки массы плода по данным УЗИ. Массу напрямую посчитать нельзя, но можно измерить, например, окружность головы. Имеется эмпирическая формула, предложенная Шепардом и соавторами [1] всего от двух параметров:
Log10(eFW)= -1.7492+(0.0166*BPD)+(0.0046*AC)-2.646*(BPD*AC)/1000
eFW — оценочная масса плода в килограммах
BPD — Biparietal diameter, бипариетальный диаметр черепа (расстояние между теменными буграми) в миллиметрах
AC — Abdominal circumference, окружность живота в миллиметрах

Заметьте, что формула имеет билинейный вид, причём лучшая корреляция была достигнута с логарифмом массы, а не с самой массой. Имеются и другие вариации формул на эту тему [2,3].

[1] Shepard MJ, Richards VA, Berkowitz RL, et al: An evaluation of two equations for predicting fetal weight by ultrasound. Am J Obstet Gynecol 142:47, 1982
[2] Hadlock FP, Harrist RB, Carpenter RJ, et al: Sonographic estimation of fetal weight: The value of femur length in addition to head and abdominal measurements. Radiology 150:535, 1984
[3] Michael G. Pinette, MD, Yuqun Pan, MD, et al: Estimation of Fetal Weight: Mean Value from Multiple Formulas. Ultrasound Med 18:813–817, 1999
Мне как химику со специализацией на аналитике и расчетных методах это близко и приятно. Есть кое-какие мысли по применению генерации очень нелинейных зависимостей типа уравнения Армстронга для МЖХ: 1/k¢ = [n • (KMW-1)/(f • KSW)] • CM +1/(f • KSW). Но мой низкий программерский скилл пока не позволяет реализовать такое

dx.doi.org/10.1016%2FS0378-3812(98)00242-8
Говоря о корреляции, нельзя не процитировать XKCD:

Цитата: «Коэффициент корреляции ни в дугу» — это сколько в граммах? Мне как начинающему статистику интересно какой коэфф еще в дугу, а когда надо искать другие методы…
В целом, это сильно зависит от задачи. В этом примере строго на глаз. Я бы постарался понять, какой разброс предсказанной величины выходил с данным коэффициентом корреляции, и смотрел, насколько меня это устроит
Измерения, кроме роста, влияют на вес не линейно. В идеально-круглом случае — пропорционально квадрату радиуса, в остальных случаях — степень между 1 (плоская) до 2 (круглая).

Для таких случаев удобно использовать логарифмы, позволяющие перевести мультипликативные модели в аддитивные.
Что-то я с графиками не соображу… может я тоже не в дугу, может ещё чего…

1. Почему на обоих графиках рост/вес ни по одной оси нет роста (они ведь выше метра были?)
2. Чем второй график отличатся от первого? Во втором случае рост у нас становится линейной функцией от 4-х переменных. Но нарисовать это затруднительно. Что в итоге изображено-то?
1. Это график предсказанного по модели веса от реального
2. Он отличается моделью, по которой построен
Упс… прошу прощения. Изначально принял за W_p(L). Соответственно вопрос 2 автоматически понятен.

А какой смысл линии, пересекающей облако значений? Это ведь тоже функция W_p(W)? Если да, то в идеале, как понимаю, она была бы y=x, т.е. предсказанный и реальный вес совпадают. Но для демонстрации точности коэффициентов регрессии более привычно и правильно пользоваться гистограммами или величинам типа СКО.
А облако с пересекающей его линией я бы построил для облака W(L) и линии W_p(L). Как вы считаете?
Sign up to leave a comment.

Articles