Roman_Kh 10 мар 2016 в 12:18

Знакомьтесь, линейные модели

10 мин

50K

Big Data * Data Mining * Математика * Машинное обучение *

+26

Комментарии 22

varagian 10 мар 2016 в 12:46

Неплохо, но немного тяжело читаются формулы, простой способ (ну ок рабочий костыль) как их вставить на Хабре — это сгенерировать картинку из теха, можно сделать, например вот тут.

381222 10 мар 2016 в 15:32

Отлично смотрелся бы еще код на R и примеры из наборов данных и соответствующих графиков)

Roman_Kh 10 мар 2016 в 15:33

Все будет. Это не последняя статья на тему линейных моделей.

vanxant 10 мар 2016 в 20:53

Хабр, однако, торт.
Однако, склероз мне говорит, что МНК это про нормальные распределения. А тот (более мягкий) комплект ограничений, что у вас — это ближе к хи-квадрату.
И, в общем, надо еще раз заострить внимание, что лепить МНК не зная распределений — самое глупое, что можно сделать. Там конечно формулы самые простые, поэтому во всех учебниках тащат МНК для примера, но по факту в дикой природе нормальные распределения встречаются не так уж часто, особенно в дискретных системах. Лаплас, бета, гамма и т.п. — у них у всех "длинный хвост", из-за которого МНК дико "бесится" и начинает безбожно врать, как только на вход прилетают данные с заметной ошибкой.

0serg 10 мар 2016 в 21:08

Кстати, любопытный факт: если Y* распределено нормально, то функционал максимального правдоподобия фактически эквивалентен функционалу наименьших квадратов.

Это неверно. В указанном случае функционал максимального правдоподобия дает расстояние Махаланобиса. И только для частного случая независимых величин с одинаковой дисперсией где матрица ковариации равна единичной помноженной на некий коэффициент этот функционал вырождается в метод наименьших квадратов.

Roman_Kh 10 мар 2016 в 21:17

Совершенно справедливое замечание. Спасибо.
Для меня любое упоминание МНК допустимо только в контексте независимых величин с одинаковой дисперсией.
Но поскольку предложение я сформулировал наоборот — от МП к МНК — то ваша поправка имеет существенное значение.

sergehog 11 мар 2016 в 08:04

подсказываю следующие топики: Kernel Regression, SVM, Deep Learning with SVM :)

varagian 11 мар 2016 в 14:15

Неплохие топики, надо сказать, с удовольствием бы их увидел на Хабре :-)

pro100olga 11 мар 2016 в 08:53

Статья оставила смешанные впечатления. Называется "знакомьтесь, линейные модели" — ок, но если человек не знаком даже с линейной моделью, не слишком ли много информации дальше на него вываливается?
И далее текст очень неоднородный, то для начинающих, то какие-то специфические вещи.
Удивила регуляризация для борьбы с оверфиттингом — разве линейные модели подвержены оверфиттингу?
В целом такое впечатление, что автор прослушал какой-то курс по машинному обучению, сделал конспект — а потом из конспекта решил сделать статью для хабра )

dimview 11 мар 2016 в 13:37

разве линейные модели подвержены оверфиттингу?

Конечно подвержены. Берём обучающую выборку с 10 наблюдениями и 9 независимыми переменными, подгоняем линейную регрессию, получаем нулевую ошибку. Проверяем на другой выборке и видим, что ошибка совсем не нулевая.

dimview 11 мар 2016 в 13:29

Можно ли с помощью линейной модели описать:
— вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?

Можно, конечно, только не нужно. Специально для предсказания вероятности существует логистическая регрессия.

Линейная модель может выдать оценку вероятности меньше 0 или больше 1, и что потом с этим делать?

Roman_Kh 11 мар 2016 в 14:09

Логистическая регрессия — это всего лишь подвид линейной модели, причем не единственный подвид, подходящий для предсказания вероятности.

dimview 11 мар 2016 в 16:17

Логистическая регрессиия — нелинейная модель. У линейной модели f(a+b) = f(a) + f(b). У логистической регрессии это свойство не выполняется из-за кривизны логисты.

Roman_Kh 11 мар 2016 в 16:29

"Logistic regression can be seen as a special case of generalized linear model and thus analogous to linear regression" © Wikipedia.

А вообще, почитайте про обобщенные линейные модели, там очень много интересного.

dimview 11 мар 2016 в 16:37

Есть разница между "analogous to" и "is". Логистическая регрессия линейна только до линк-функции. Попробуйте посчитать коэффициенты логистической регрессии методом наименьших квадратов (который отлично работает для линейной модели) и посмотрите, что из этого получится.

yorko 12 мар 2016 в 09:40

Я Вам даже более страшную тайну открою: логистическая регрессия может строить и нелинейную границу, если полиномиальные признаки на вход подать.
И все равно это линейная модель.

dimview 12 мар 2016 в 14:22

Хорошо, давайте с другой стороны подойдём. Приведите пример нелинейной модели. А я таким же образом найду внутри неё линейную операцию и заявлю, что модель тоже линейная.

Вот например нейронная сеть с десятью уровнями и гиперболическим тангенсом в качестве функции активации — это линейная модель или нелинейная?

yorko 13 мар 2016 в 10:17

У логит ответ — это функция от линейной комбинации вектора весов на входные признаки. Перцептрон с сигмоидной функцией активации — не что иное как логит. А сумеете ли Вы ответ нейронной сети представить в виде функции от линейной комбинации вектора весов на входные признаки?

dimview 13 мар 2016 в 12:38

ответ — это функция от линейной комбинации вектора весов на входные признаки

Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.

xflower 11 мар 2016 в 15:14

Ну как же: если получилось 2, значит оформит два заказа.
Если (-1) — и сам заказ не оформит и ещё коллегу отговорит.

а вот что будет, если получится -i, пока не придумал

dimview 11 мар 2016 в 16:14

Тогда модель предсказывает не вероятность заказа, а количество заказов.

ivankomarov 13 мар 2016 в 17:33

Для модели всегда важно при каких условиях она работает. Вы заостряете на этом моменте внимание, говоря о распределении Коши, чтобы кто-то не увлекся излишне МНК.

Было бы полезно очень четко прописать предпосылки, чего мне не хватило в статье.

Предлагаю такие слайды (много информации на англ., из Википедии и схожих источников, однако их также можно найти и в учебниках по эконометрике, напр., Greene):

Слайд 1

Слайд 2

Слайд 3

Еще, конечно, хорошо бы рассказать про тестирование параметров модели (а далеко ли ушли коэффициенты от нуля при ошибке их вычисления) и самой модели (хорошо ли модель объясняет у). Кое-что есть здесь. Но для нас важно как это работает с регуляризацией.

Кстати, про тестирование параметров, есть Monte Carlo тесты, имеющие вполне хороший смысл.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий