Pull to refresh

Comments 31

Всё ждал, когда же откроется секрет – как занижается коэффициент регрессии... Прочитал пол-статьи, и тут хоба – обратная регрессия! Интрига выдержана мастерски!

Так ведь, и в прямой регрессии коэффициент тоже занижается - см. таблицу результатов эксперимента на второй выборке: истинная бета равна 2, а прямая регрессия дала 0.5.

Интрига (для меня, по крайней мере) в том, что обычно при поверхностном изучении темы выборка генерится по первому типу, когда коэффициент прямой регрессии асимптотически равен истинному - но не все понимают, что это вырожденный случай, такая выборка неверно отражает реальные данные: в природе именно этот случай как раз и отсутствует!

Именно поэтому ошибочный вывод о регрессии роста и сделал сэр Фрэнсис Гальтон. Причем, у него эффект должен был быть даже выше на прямой регрессии, так как данные по X (рост отцов) были более старыми, чем по Y (рост сыновей) - то есть, случайных шумов было больше как раз в переменной X !

Я, естественно, не претендовал на новизну - меня больше поразил философский вывод, что даже при коэффициенте существенно отличном от 1 регрессия может дать одинаковый результат в прямом и обратном случае (эксперимент на второй выборке). Собственно, этим удивлением я делюсь с теми, кто проскочил данный факт при самообразовании или на интернет курсах. ISLRv2 не зря вынес его в серию упражнений к главе по линейной регрессии, совсем не упомянув в тексте главы как факт - учеба лучше запоминается, когда тебя проводят через маленькие самостоятельные исследования.

Спасибо за комментарий !

Да, вторая выборка забавна – как сбалансировать шумы по X и Y так, чтобы завышение коэффициента от первых компенсировало его занижение от вторых)

UFO just landed and posted this here

Отнюдь: текст выше написан как раз физиком. У математика описанный эффект не вызывает шока, так как он следует из формул. А вот меня он сильно удивил.

Ведь именно в физическом эксперименте мы привыкли, что прямая, проведенная по минимальным квадратам по экспериментальным точкам, дает нам экспериментальную зависимость двух "линейных по науке" величин. Причем, мы уверены, что если мы поменяем оси местами, то мы ожидаем, что прямая просто зеркально отразится относительно биссектрисы угла XOY - то есть если Y=2X, то и X=Y/2.

Однако, если вы посмотрите на численный эксперимент на первой выборке, то с удивлением увидите, что асимптотически (при увеличении размера выборки ) регрессионные прямые стремятся к Y=2X, но X=2Y/5 !

Чтобы не было сомнений, я считал коэффициенты наклона регрессионных прямых не по аналитическим формулам, но честным вызовом библиотечной модели линейной регрессии, которая численно находит минимум квадратичной функции потерь - градиентным спуском (численное значение совпадает с аналитической формулой, конечно, - в приведенных ссылках на GitHub я это тоже проверял, если интересно).

Как физик, я дал простое объяснение эффекту в разделе "Объяснение эффекта на пальцах" - оказывается стохастический разброс экспериментальных точек по оси X приводит к возникновению у них горизонтирующего регрессионную прямую вращательного момента.

Поправку от влияния шумов данных на искажение истинной линейной зависимости дает совсем простая система двух уравнений для коэффициентов прямой и обратной регрессий. В частном случае, когда оба коэффициента равны, то они оба оказываются менее 1 - они равны коррелятору <X,Y> (который всегда меньше 1). С этим связан исторический курьез, восходящий к появлению термина регрессии, что означает вырождение, направление, обратное прогрессу: маловероятно, что на протяжении одного поколения рост человека заметно менялся, так что в опыте сэра Фрэнсиса Гальтона истинную линейную зависимость можно считать равной 1, но регрессионный коэффициент получился меньше.

Вы спросите, так как же по экспериментальным прямым понять в каком диапазоне лежит истинная линейная зависимость двух величин - ответ тоже есть в статье: истинный коэффициент лежит между коэффициентом прямой регрессии и обратной величиной коэффициента обратной регрессии. Например, в нашем численном эксперименте истинный коэффициент оба раза был равен 2 - и согласно данному правилу, он лежит в первой выборке между 2 и 5/2, а во второй выборке между 1/2 и 2. Если выборку генерили не мы сами, а жизнь, то мы не можем сказать где именно в этом интервале!

В заключение большое спасибо вам за комментарий - он как раз показал полезность корректировки интуитивных представлений о линейной регрессии у физиков, как я и предполагал на своем собственном примере.

UFO just landed and posted this here

Хе-хе, ну да, я физик-теоретик (в прошлом), но тем не менее и среди теоретиков были те, кто мог объяснить все просто - Фейнман, например. Увы - мне далеко.

К сожалению, эффект в другом: в общем случае регрессия дает неверное (заниженное) значение коэффициента линейной связи двух физических величин - вы попробуйте поизучать детали опыта автора названия "регрессия" Фрэнсиса Гальтона (все в интернете): ну человек же обнаружил, что если по осям отложить физические параметры в двух поколениях в координатах (X=отец, Y=сын), то у регрессионной прямой наклон статистически достоверно будет меньше 45% - ну в данном случае очевидно, что если не было какой-то катастрофы в этом поколении, то в среднем нет разницы в поколениях отцов и детей - истинная прямая должна быть точно под 45%. Конечно, на больших временах происходит развитие вида, но не в одном поколении!

Дополнение для Чикаго: кстати, вы и сами можете обнаружить этот эффект без всякого изучения линейной регрессии и методов градиентного спуска - ведь в случае простой линейной регрессии существуют совсем простые аналитические формулы (в случае, если X - матрица, а не вектор, аналитические формулы тоже существуют, но уже в матричном виде). Вы же не по линеечке проводите свои экспериментальные прямые, а подставляете вектора X и Y в известную вам формулу для наклона прямой - так вот поменяйте местами X и Y и посчитайте наклон в обратных координатах - вы удивитесь, что он будет отличаться от 1 делить на наклон в прямых координатах: то есть если вы отложите обе прямые на одном графике, они не совпадут!

Не знаю как еще популярнее изложить.

UFO just landed and posted this here

Спасибо за прекрасный пример - отвечаю на нем:

Если существует существенная стохастическая ошибка измерения концентрации - ДА, вы получите рассчетный наклон меньше, чем "на самом деле" ! Это же очевидно, так как те же точки сильнее размажутся по X, чем были бы "на самом деле".

С абсолютным значением поглощения сложнее - поворот же происходит вокруг центра масс экспериментальных точек, то есть при горизонтировании прямой происходит одновременно изменение точки пересечения прямой с осью Y. При этом абсолютное значение поглощения будет занижено для больших концентраций (выше среднего по выборке) и завышено для низких (что ниже среднего).

NB!: Если же концентрация меряется очень точно, то даже при видных невооруженным глазом случайных ошибках измерения коэффициента поглощения, истинный наклон будет практически равен коэффициенту прямой регрессии (это соответствует численному эксперименту на выборке номер 1 в статье).

Однако, предположим, что вы решили использовать полученную экспериментально зависимость для градуировки прибора, который измеряет плотность по поглощению (обратная зависимость): так вот за исключением случая, когда у вас все точки экспериментальной кривой строго лежат на прямой (то есть исключая корреляцию <X,Y> = 1), вам НЕ следует использовать простое деление измеренного коэффициента поглощения на наклон прямой, рассчитанный по прямой формуле на экспериментальных данных, но нужно еще домножить на квадрат коррелятора ваших экспериментальных данных, полученных для градуировки прибора:

(дельта концентрации) = (дельта измеренного коэффициента поглощения) * <X,Y>**2 / (наклон экспериментальной прямой, рассчитанный методом минимальных квадратов по набору {X,Y} ) ,

обратите внимание на дельту - я не говорю об абсолютных значениях, так как изменятся и точки пересечения прямых с осями координат!

Ну или вам сразу нужно считать обратный наклон в координатах (X=поглощение, Y=концентрация) - результат будет тот же, благодаря первому уравнению системы уравнений для коэффициентов прямой и обратной регрессий, цитируемой в статье!

Разумеется, в градуировке прибора это обычно уже учтено и вы видите сразу истинную концентрацию. Но если вы используете прибор в условиях наличия дополнительного фактора, которого не было при его градуировке, но который просто стохастизирует измерения коэффициента поглощения, то прибор даст вам заниженное значение концентрации для значений правее/выше центра масс градуировочного набора данных, и завышенное - для тех, что левее/ниже ! Всегда увеличение ошибки в измерении X даст более горизонтальную линию, повернутую относительно центра масс выборки.

UFO just landed and posted this here

Давайте посмотрим - итак, дан раствор с неизвестной студенту, но точно известной препу концентрацией. Студент измеряет коэффициент поглощения методом, у которого большая статистическая погрешность, - ну так и его ответ про концентрацию получит такую же большую погрешность.

Однако вы подменяете задачу - вопрос же найти коэффициент пропорциональности между концентрацией и коэффициентом поглощения. Практический совет такой: нужно строить прямую по экспериментально промеренным точкам методом мнк в координатах, где ось X соответствует параметру с минимальной статистической погрешностью измерения - в нашем случае это концентрация. Тогда наклон мнк прямой будет максимально близок к "истинной" зависимости.

Да, "мужики не знают в массе", что при прямой и обратной линейной регрессии получаются не совпадающие прямые, пересекающиеся в центре масс выборки экспериментальных значений, а истинная линейная зависимость физических величин идет внутри угла, ограниченного этими прямыми.

Но, кстати, и центр масс выборки не точно лежит на истинной прямой - его смещение с истинной прямой в корень из размера выборки раз меньше стандартного отклонения значений самой выборки от этой прямой. То есть, увеличением выборки можно попасть ее центром на истинную прямую, а вот угол разброса при росте выборки не будет стремиться к нулю, но его значение будет приближаться к асимптотическому ненулевому значению - например, в статье в численном эксперименте на первой выборке истинный коэффициент 2 асимптотически лежит между регрессионными значениями 2 и 2.5, но сами границы определяются с точностью порядка обратного корня из размера выборки: то есть при размере выборки в миллион, как в статье, - с ошибкой порядка 0.002. В статье на случайной выборке мы как раз и получили 1.998 вместо 2, но если повторять прогон кода, то это значение будет скакать в пределах ошибки вокруг 2.

UFO just landed and posted this here

Про "папа что это было" - похоже, я исчерпал весь свой скромный навык популяризатора, мой последний совет вам пощупать эффект своими руками, вы же физик-экспериментатор. Возьмите набор экспериментальных точек {(x,y)}, не точно ложащихся на одну прямую, и посчитайте наклон прямой по формуле мнк. Потом поменяйте оси местами и снова посчитайте наклон по формуле мнк. Поскольку смена осей равнозначна отражению относительно оси x=y, то естественно ожидать, что коэффициенты наклона прямых при перемножении дадут 1 (то есть на одном графике дадут одну общую прямую), но на самом деле они дадут квадрат коррелятора <x,y>. Чем сильнее разброс точек от прямой линии, тем сильнее коррелятор просядет от 1, тем больше будет угол между прямыми мнк на общем графике.

Про "относительно чего большая/маленькая погрешность" - точный ответ:относительно промеренного диапазона величины, приблизительный ответ: относительно характерного значения величины. (а то вы не знаете!)

UFO just landed and posted this here

Здоровая жизненная философия! Я только не пойму, как при ней вы так "зацепились" за эту статью - я ж еще в психологическом введении написал, что пока не начнешь считать обратную регрессию и сравнивать с прямой, никакого дискомфорта сомнений в "истинности" коэффициента регрессии не испытаешь. А уж если еще и прямую проводить только там, где она и так по точкам уже видна - то вам и формула для мнк не особо нужна.

(про популяризатора причин обиды не понял - как по мне, это позитивный термин - так что не знаю, что и сказать. Предлагаю также отнести к риторическим темам)

UFO just landed and posted this here
UFO just landed and posted this here

С точки зрения математики, отсутствие "симметрии" для коэффициентов регрессии следует из того шум сгенерирован не во всем пространстве <X, Y>, а только в пространстве X. Кстати привычные реальные данные генерируются не условным, а совместным распределением.

Попробуйте повторить с двумя переменными, т.е. Z = aX + bY + eps. И другой вариант: ln(Z) = тоже самое. Симметрии даже рядом не будет ожидаться. А если генерировать <y + N(0,1), x + N(0,1), z(x, y) + N(0,1)>...

И еще, строго говоря, если y = f(x), x = f-1(y), то не следует что x + eps = f(f-1(x))

Спасибо за дополнительные примеры в вашем комментарии!

Да, с точки зрения математики все очевидно, и тут нет никакой научной новизны. Мотивация статьи - адресовать "культурный шок" физиков, которые всю жизнь были уверены, что метод прямой по минимальным квадратам, который они применяли с институтских лаб по общей физике, дает симметричную зависимость: если Y=2X, то и X=Y/2.

Очень показательно почитать комментарии коллеги физика-экспериментатора выше - он великолепно представляет целевую аудиторию этой статьи. Хотя я изначально адресовал ее тем, кто быстро проскочил тему линейной регрессии в своем DA/DS образовании - поэтому язык статьи ориентирован на них.

Для физика мне пришлось провести аналогию с моментом сил, которые действуют на рычаг регрессионной прямой относительно центра выборки - мне и самому так понятнее в силу физической интуиции своего образования. Но будучи еще DA/DS-ом, я также понимаю, что если бы не квадратичность функции потерь, то и эффекта бы не было - например если просто минимизировать среднее расстояние, а не его квадрат: так как в линейном случае вклад от точек на расстояниях +/- дельта от невозмущенного значения ( x_0 - \bar x - \delta и x_0 - \bar x + \delta ) был бы одинаков для линейной функции потерь - не было бы эффекта плеча рычага, говоря языком физиков!

Спасибо за статью.

вы попробуйте поизучать детали опыта автора названия "регрессия" Фрэнсиса Гальтона

А вы сами читали? https://doi.org/10.2307/2841583

Во-первых, в статье Гальтон не разрабатывал матаппарат и статья чисто антропологическая, поэтому утверждение

статистически достоверно будет меньше 45%

неверное: p-value там нет, статистических гипотез нет, трёх сигма там нет. Погрешностей там нет. Совет физикам, читающим эту статью в будущем: не приводите значения измеренных физических величин без указания погрешности.

В-вторых, следующее утверждение неверно:

С этим связан исторический курьез, восходящий к появлению термина
регрессии, что означает вырождение, направление, обратное прогрессу:
маловероятно, что на протяжении одного поколения рост человека заметно
менялся, так что в опыте сэра Фрэнсиса Гальтона истинную линейную
зависимость можно считать равной 1, но регрессионный коэффициент
получился меньше.

Вывод статьи следующий:

The average regression of the off spring to a constant fraction of
their respective mid-parental deviations,which was first observed
in the diameters of seeds,and then confirmed by observations on
human stature,is now shown to be a perfectly reasonable law which
might have been deductively foresen

То есть, термин "регрессия" в этом контексте означает, что если у родителей рост выдающийся (в любую из сторон), то они с большей вероятностью будут иметь рост прямого потомка ближе к среднему. Пояснение: если бы потомки были равновероятно выше или ниже родителей для любого роста родителя, то можно было бы выводить трехметровых баскетболистов и полуметровых ездоков для скачек за единицы поколений.

В-третьих, можно попросить дополнить статью, чтобы утверджение

регрессионные прямые стремятся к Y=2X, но X=2Y/5

стало бы значимым? То есть, добавить эти самые погрешности.

P.S: Ниже снимок из статьи, который показывает результат из-за которого весь сыр-бор. Там же показана Y=X прямая

Hidden text

Для тех, кто не хочет верить рандому в Интернете, вот видео с другим рандомом в Интернете, в котором есть даже график с точками по поколениям и объяснение термина "регрессия" по данным отцы-сыновья (англ):

https://www.youtube.com/watch?v=lIIZOZqKgfQ

Спасибо за профессиональные дополнения и комментарии!

Я намеренно не стал нагружать статью t-статистикой проверки гипотез, дав просто ссылку на Jupyter Notebook на GitHub, в котором я это сделал (еще раз: https://github.com/SanSanychSeva/Exercises-from-Introduction-to-Statistical-Learning-done-in-Python/blob/main/chapter_03_Linear_Regression/exercise_11and12.ipynb) - фокус статьи на когнитивном диссонансе интуиции физиков, поэтому я подчеркнул, что эксперимент иллюстративный и взял выборку побольше.

Однако, иллюстрация неплохо получилась, а t-статистика только отпугнула бы целевую аудиторию - и так вот коллеги жалуются, что одна математика, хотя я резал ее как мог ! (ну ведь для специалистов в ML в статье же нет ничего нового - если только они сами не проскочили этот факт в свое время)

Я знаю, что у Гальтона речь шла не об уменьшении роста, а о регрессии к среднему росту - простите за неловкие формулировки в спешке ответов. Но согласитесь, если бы кто-то сперва поменял ему данные отцов и детей, его вывод был бы тем же! После чего его можно было бы удивить, сказав где на самом деле были отцы, а где дети.

Но согласитесь, если бы кто-то сперва поменял ему данные отцов и детей, его вывод был бы тем же

Пожалуй, не соглашусь. Посмотрите на картинку в комментарии: там есть оси с подписями. Иронично, но она как раз повёрнута на 90 градусов, поэтому представлять проще. На "графике" из работы Гальтона видно, что его данные "на глаз" уходят от Х=У. Более того, повторюсь: "регрессия" в этой работе означает на намеренное занижение коэффициента, а свойство популяции людей в отношении рождаемости, которое и без метода нимаеньших квадратов имеет "физический смысл". Потому что в случае наклона с тангенсом 1 у баскетболиста высотой 2.40 м с одинаковой вероятностью родился бы ребёнок выше или ниже него. А статистика в публикации показывает, что у экстремальных выбросов есть "регрессия к среднему"

То есть вы хотите сказать, что Гальтон не делает вывод, что со временем разброс роста людей уменьшается, а просто утверждает, что у человека с ростом выше среднего с большей вероятностью рост сына будет меньше роста отца и наоборот, потомок коротышки в среднем нормализует свой рост.

Тогда, мне кажется, ML-коллеги вообще напрасно используют его термин регрессия: получается, он имел ввиду вовсе не линейную регрессию, как трактуют сегодня большинство ML-спецов (например на лекциях Вышки на Ю-тубе), а скорее асимметрию условных вероятностей, направленных к норме.

В споре не только рождается, но и лучше понимается истина - спасибо, что не поленились разъяснить этот момент!

Кстати, а вы уверены, что если поменять данные отцов и детей, то у Гальтона выводы были бы не те же самые? Ведь при такой замене выбросы по росту отцов были бы уже на других объектах. То есть, если взять слишком высоких сыновей или коротышек, то вероятность, что рост их отца был ближе к норме по ним тоже будет выше - разве нет?

что Гальтон не делает вывод, что со временем разброс роста людей уменьшается

Я привёт цитату из статьи. Я не увидел там, чтобы были сделаны далеко идущие выводы насчёт среднего человека

Тогда, мне кажется, ML-коллеги вообще напрасно используют его термин
регрессия: получается, он имел ввиду вовсе не линейную регрессию, как
вульгарно трактуют сегодня большинство ML-спецов (например на лекциях
Вышки на Ю-тубе), а скорее асимметрию условных вероятностей,
направленных к норме

Не исключаю, что есть эффект сломанного телефона. Надо смотреть каждый конкретный случай и общаться с каждым лектором.

Могу только утверждать, что в статье "регрессия" используется в отношении эффекта в популяции людей и каких-то растительных семян. Касательно термина "Линейная регрессия" в отношении метода, то в статье есть описание того, как этот эллипс на графике был получен. Продираться через такую археологию потребует пол-литра и день-два, но судя по всему, его метод изображения эллипса математически тождественен тому упрощённому рецепту, которым мы сейчас пользуемся.

Как минимум, в аппендиксе есть фраза "Ratio of mean filial regression = 2/3". Может быть с этой фразы данный метод начали называть регрессией, может - нет. Надо звать историков науки.

Кстати, а вы уверены, что если поменять данные отцов и детей, то у Гальтона выводы были бы не те же самые?

Чтобы не было просторов для фантазии: поменял местами данные после обработки автора. Оригинальных данных у меня нет. Тогда можно было бы пофитовать. Может у товарища из видео данные есть

Hidden text

Но если бы данные были перевёрнуты, то это значило, что у высоких родителей вероятность иметь более высокого потомка выше, тем более низкого. (Или более точная формулировка: в данных Гальтона есть больше таких случаев, чем случаев регресси роста к среднему)

На всякий случай проговорю, что этот результат не исключает возникновение высоких или низких людей. Он говорит о том, что есть механизм, удерживающий расползание распределения. Это утверждение я тоже в каком-то курсе по "датасаенсу" слышал. Конкретно не вспомню у кого

P.s: там еще есть прикольные дисклеймеры в конце статьи насчёт того, за что автор не несёт ответственности

А что - хорошая тема для статьи: разобраться, что же сказал Гальтон, и посмотреть у других исследователей. Мне, чисто интуитивно, кажется маловероятным, чтобы за одно поколение любой видовой параметр "от бога" а не "от людей" так бы менялся, что это было бы заметно невооруженным глазом - ну разве многолетняя катастрофа, типа голода или эпидемии. Интересно, сейчас кто-то ведет такую статистику по росту отца и сына в конкретной паре.

В любом случае - вам еще раз огромное спасибо за подробный корректирующий экскурс и материалы по теме!

не разрабатывал матаппарат и статья чисто антропологическая

Поправка: не разрабатывал метод линейной регрессии в том виде, в котором мы его знаем. Обработка данных велась через тепловые карты, как мы сейчас бы сказали.

Гальтон набросал точки на график, потом разбил на квадраты и выписал в каждый квадрат сумму точек внутри. Дальше он обводил обласи, строя изолинии (см стр 255). В результате он увидел, что области имеют вид наклонёных концентрических эллипсов. Именно этот эллипс и изображён на графике под спойлером в родительском комментарии.

А дальше он отдал эти данные компетентному математику Гамильтону Диксону и тот корректно извлёк оттуда параметры эллипса. Гальтон (не Гамильтон) испытал глубокое чувство уважения к математическому анализу, когда получил результаты - это тоже из статьи

Послушайте, Марк: а напишите вы статью на Хабр про эту историю - ну столько ходит устного фольклора, даже среди специалистов. У вас уже столько фактического материала! Я уверен, всему сообществу будет интересно "откорректировать свои интуитивные представления" об истории термина регрессии и о сэре Френсисе Гальтоне.

Ох, ёлки. Поставлю в туду список. Попробую до конца марта

Мне не хватит матаппарата, чтобы доказать тождественность эих вещей, да и красиво это разжевать для всех. Но чем смогу-тем помогу, если дойду

Строгость математического доказательства в прикладной статистике не на первом месте - а вот разжевать, это нам важнее!

Sign up to leave a comment.

Articles