TanyaVSdannye Feb 26 at 17:38

Линейная регрессия: от теории до production

Easy

5 min

9.1K

Python * Statistics in ITMachine learning * Mathematics *

Comments 5

Aggle Feb 27 at 01:56

Спасибо! Статья неплоха, но:
1. (Самое, на мой взгляд, главное). Получилось несколько двузначно. Для специалиста в области - много лишнего (и так хорошо известного), а для новичка - по многим пунктам нужны пояснения и подробности;
2. Про p-value можно, наверное, указать, что граница 0,05 не является догмой (она исторически вообще случайно вылезла);
3. Вероятность наличия кластеров, при которых регрессия будет сильной, но ложной (условно - одно облако на графике внизу слева, второе - вверху справа, внутри облаков хаос и анархия);
4. Про скорость - да, обучается быстро, но разведочный анализ и препроцессинг данных могут отнять уйму времени (впрочем, как и почти везде);
5.

предполагает линейную связь, если связь нелинейная, нужно либо преобразовывать переменные (полиномы, сплайны), либо использовать другие методы

либо просто попробовать другую форму зависимости (это не линейная регрессия, но реализуется просто);
6. Про кредитный скоринг - это, КМК, скорее про деревья решений.

TanyaVSdannye Feb 27 at 16:26

Спасибо за развернутый комментарий, по пунктам:

1. Про двузначность и уровень аудитории
согласна, но это вечная проблема хабровских статей, писать так, чтобы было понятно и новичкам, и не скучно профи. Я старалась найти золотую середину, но, видимо, перекос в сторону "среднего" получился.

2. Про p-value и границу 0,05
согласна, да, граница условна

3. Про кластеры и ложную регрессию
спасибо, что подсветили, в статье упомянула график остатков как диагностику, но про кластеры действительно стоило сказать отдельно. Возьму на заметку для будущих статей.

4. Про скорость и предобработку
да, сама регрессия быстрая, но подготовка данных может съесть 80% времени, это я, наверное, криво сформулировала. Имела в виду, что в production линейная регрессия работает быстро и не требует GPU

5. Про другие формы зависимости
Либо попробовать другую форму зависимости - да, конечно, я просто перечислила самые частые подходы, но можно и руками подобрать нелинейную функцию (хоть синус, хоть логистическую кривую). Спасибо за уточнение.

6. Про кредитный скоринг
Тут соглашусь с оговоркой, в современном скоринге действительно лучший вариант деревья и бустинги (XGBoost, CatBoost), но исторически линейная регрессия (и логистическая как ее частный случай) использовалась в скоринге и до сих пор используется в некоторых банках как baseline или там, где регулятор требует интерпретируемости, но в статье можно было это уточнить, спасибо.

Еще раз спасибо за качественную обратную связь!

Asterris Feb 27 at 20:05

Вам нужен никнейм TATAvsDATA 😎

TanyaVSdannye Feb 27 at 20:11

ахахах, спасибо за идею😅👍

alvoskov Mar 1 at 16:14

О формуле $\beta = (X^\top X)^{-1} X^\top y$ : она верная и легко выводится "на бумажке", но на практике не очень удобная из-за появления квадратов элементов из матрицы плана эксперимента. Проще напрямую применить преобразование Гивенса или Хаусхолдера (QR-разложение) к переопределенной системе $X\hat\beta = y$ , оно медленнее, но численно устойчивее, т.к. там нет явного обращения матрицы $X^\top X$ .
У F-теста есть хитрая особенность: он может показывать значимость регрессии даже при незначимости всех её коэффициентов. Речь про переобучение модели.
Всё это очень легко обобщается на полиномиальную или логистическую регрессию.
Обязательно ли наличие в регрессии константы для корректности формулы $R^2 = 1 - \frac{RSS}{TSS}$ ?