Комментарии 7
Отличная история. Но тема регуляризации, имхо, раскрыта недостаточно полно. Зачем нам вообще через L1/L2 фильтровать признаки? Почему можно/нельзя использовать R2 и BIC/AIC с правилом локтя? Зачем вообще регрессия, если есть деревья и нейронки? Если решать вместо задачи регрессии задачу классификации, это поможет? И ещё много аналогичных вопросов про необходимость выделения значащих факторов.
А про такую картинку что можно сказать? Эффект вроде бы обратный.
Это просто частные случаи. На первой картинке, где минимум квадратичной ошибки находится близко к диагонали, алгоритм справедливо считает оба признака значимыми и не может "выкинуть" ни один из них. На второй картинке признак по оси абсцисс вообще не является значимым.
Плюсую. Я тоже не понял, почему красные линии в общем случае не могут касаться квадрата не в вершинах. То есть непонятно, почему только Лассо может занулить веса. В круге тоже можно построить, когда красные линии касаются его окружности в точках .
Он просто как бы повёрнут нам навстречу. А так как уголок неравенства всегда будет лежать на оси , мы всегда будем занулять один из коэффициентов.
Похоже, но не совсем верно, на мой взгляд. Наткнемся мы на "уголок" или нет - зависит он вида воронки, т.е. от функции потерь. И мы вполне можем найти не угол, а грань. Другое дело, что при задании граничных условий вида |x1|+|x2|+...+|xn| < lambda мы задаём выпуклый многогранник.
Квадрат для 2х измерений, куб для трёх и т.д.
И чем больше измерений, тем больше граней. Причём на границе у этого многогранника "углы", "грани" и "стороны".
Углы - всё параметры = 0, один параметр != 0
Грани - часть параметров в линейной комбинации, остальные = 0.
Сторона - линейная комбинация всех параметров
И тут начинаются фокусы пространства в котором мы пытаемся найти оптимальное решение. И чем больше пространство параметров, тем больше шанс, что мы при оптимизации наткнемся на "угол" или "грань". А значит часть параметров обнулим.
Есть похожая задача - поиск максимума линейного функционала в пространстве с линейными ограничениями. Так там вообще, из-за того, что функционал линейный решение может быть только (!) на вершинах.
Подробнее: https://ru.wikipedia.org/wiki/Симплекс-метод
На самом деле, вы правы.
По сути и Ридж может занулять веса, а Лассо - не занулять. Но с точки зрения геометрии вероятность у кривой ошибки наткнуться на угол или грань ограничений лассо больше, чем на бочок ридж.
спасибо за ваш комментарий, я стала чуть больше разбираться в теме, сейчас немного подправлю статью)
LASSO и Ridge Регрессия. Что же значит та картинка