Pull to refresh

Comments 5

Спасибо! Статья неплоха, но:
1. (Самое, на мой взгляд, главное). Получилось несколько двузначно. Для специалиста в области - много лишнего (и так хорошо известного), а для новичка - по многим пунктам нужны пояснения и подробности;
2. Про p-value можно, наверное, указать, что граница 0,05 не является догмой (она исторически вообще случайно вылезла);
3. Вероятность наличия кластеров, при которых регрессия будет сильной, но ложной (условно - одно облако на графике внизу слева, второе - вверху справа, внутри облаков хаос и анархия);
4. Про скорость - да, обучается быстро, но разведочный анализ и препроцессинг данных могут отнять уйму времени (впрочем, как и почти везде);
5.

предполагает линейную связь, если связь нелинейная, нужно либо преобразовывать переменные (полиномы, сплайны), либо использовать другие методы

либо просто попробовать другую форму зависимости (это не линейная регрессия, но реализуется просто);
6. Про кредитный скоринг - это, КМК, скорее про деревья решений.

Спасибо за развернутый комментарий, по пунктам:

1. Про двузначность и уровень аудитории
согласна, но это вечная проблема хабровских статей, писать так, чтобы было понятно и новичкам, и не скучно профи. Я старалась найти золотую середину, но, видимо, перекос в сторону "среднего" получился.

2. Про p-value и границу 0,05
согласна, да, граница условна

3. Про кластеры и ложную регрессию
спасибо, что подсветили, в статье упомянула график остатков как диагностику, но про кластеры действительно стоило сказать отдельно. Возьму на заметку для будущих статей.

4. Про скорость и предобработку
да, сама регрессия быстрая, но подготовка данных может съесть 80% времени, это я, наверное, криво сформулировала. Имела в виду, что в production линейная регрессия работает быстро и не требует GPU

5. Про другие формы зависимости
Либо попробовать другую форму зависимости - да, конечно, я просто перечислила самые частые подходы, но можно и руками подобрать нелинейную функцию (хоть синус, хоть логистическую кривую). Спасибо за уточнение.

6. Про кредитный скоринг
Тут соглашусь с оговоркой, в современном скоринге действительно лучший вариант деревья и бустинги (XGBoost, CatBoost), но исторически линейная регрессия (и логистическая как ее частный случай) использовалась в скоринге и до сих пор используется в некоторых банках как baseline или там, где регулятор требует интерпретируемости, но в статье можно было это уточнить, спасибо.

Еще раз спасибо за качественную обратную связь!

Вам нужен никнейм TATAvsDATA 😎

ахахах, спасибо за идею😅👍

  1. О формуле\beta = (X^\top X)^{-1} X^\top y: она верная и легко выводится "на бумажке", но на практике не очень удобная из-за появления квадратов элементов из матрицы плана экспериментаX. Проще напрямую применить преобразование Гивенса или Хаусхолдера (QR-разложение) к переопределенной системеX\hat\beta = y, оно медленнее, но численно устойчивее, т.к. там нет явного обращения матрицыX^\top X.

  2. У F-теста есть хитрая особенность: он может показывать значимость регрессии даже при незначимости всех её коэффициентов. Речь про переобучение модели.

  3. Всё это очень легко обобщается на полиномиальную или логистическую регрессию.

  4. Обязательно ли наличие в регрессии константы для корректности формулыR^2 = 1 - \frac{RSS}{TSS}?

Sign up to leave a comment.

Articles