Roman_Kh Mar 16 2016 at 15:19

Линейные модели: простая регрессия

7 min

78K

Data Mining * Python * Mathematics * Machine learning *

Tutorial

+21

Comments 14

ariel32 Mar 16 2016 at 17:20

Этот прием — перемножение переменных — чрезвычайно полезен

В этом разрезе стоит обратить на пакет glmulti для R — он осуществляет автоматический перебор взаимодействий между переменными и дает на выход top-N моделей. Читаю с удовольствием, пишите! Очень интересна тема валидации моделей, и модели со смешанными эффектами. Особенно последнее дурманит мой разум и не дает спать по ночам...

Stas911 Mar 16 2016 at 21:11

Было бы здорово сразу IPython Notebooks выложить на гитхаб

Roman_Kh Mar 17 2016 at 11:30

Спасибо за идею. Выложил.

OlegUV Mar 17 2016 at 04:29

Вел дан! Для полноты картины можно было бы добавить код отрисовки графиков, а для того графика с параллельными линиями ещё пририсовать внизу график с остатками, для усиления видимости эффекта.

Roman_Kh Mar 17 2016 at 11:30

Собрал весь код в ipython notebook.

rinaskela Mar 17 2016 at 08:10

Отличная статья! Еще несколько таких и, уверен, многие перейдут с MathLab/MathCad/Mathematica на подобное окончательно. Тем более, что отрисовка графиков с помощью numphy становится чуть ли не единым стандартом для научных статей.

Arastas Mar 17 2016 at 09:58

Простите, но в какой области Вы пишите/читаете научные статьи?
Нет, в среднесрочной перспективе не перейдут, это разные инструменты. Да и незачем.

PS: MatLab — от Matrix, а не от Mathematics, там нет h в названии.

rinaskela Mar 17 2016 at 10:06

В основном статьи, касающиеся физики частиц, данные об экспериментах. Даже слышал от коллеги, что его редакция просила по возможности рисовать графики там.

PS: Действительно досадная опечатка с моей стороны. Два других наименования с "th" были :)

miptgirl Mar 17 2016 at 08:12

Спасибо за статью, очень познавательно и интересно.

В статье рассмотрено несколько Python библиотек: scikit-learn, statmodels и Patsy. Есть ли между ними какая-то принципиальная разница кроме синтаксиса (может, в функциональности или быстродействии)? С какой библиотеки лучше начинать свое изучение Machine Learning?

Roman_Kh Mar 17 2016 at 10:25

Patsy — это библиотека для подготовки данных и описания моделей, а все расчеты придется делать самостоятельно. В данном примере, с помощью patsy я лишь описал модель в виде удобной формулы, получив на выходе массивы все с теми же исходными данными, но немного в другом формате, которые затем передал для расчета модели в numpy.

Scikit-learn — очень богатая библиотека статистических методов и алгоритмов машинного обучения. Многие люди пользуются только ей, поскольку в ней есть все, что (им) нужно.

Statsmodels немного удобнее людям, переходящим на Python с R. В ней есть только стат.методы, причем по набору методов она сильно пересекается со scikit-learn. Хотя и в той и другой есть что-то уникальное, например, модель для таймсерий ARIMA есть только в statsmodels.

Так что без patsy можно обойтись. Основной анализ данных я обычно провожу с помощью scikit-learn, но и statsmodels бывает полезен и удобен.

381222 Mar 17 2016 at 08:59

Спасибо за статью.
Лучше все таки сразу использовать метрику, оценка на глаз может промахнуться :)
В R после добавления переменной x2*x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2*x3.
Переменная X имеет какой то физический смысл? Из за неравномерного распределения x3 от X, модель с X будет лучше, т.е. y~X+x1+x2*x3
x1 больше похож на шум, надо чистить/преобразовывать или убирать. Т.е. для glm будет лучше y~x2*x3

atikhonov Mar 18 2016 at 07:12

В R после добавления переменной x2x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2x3.
верно, а если оставлять в исходном виде (перемножение (взаимодействие) переменных, g <- glm(y ~ x1 + x2 + x3 + x2x3, data=df)), то использовать надо :, а не , так как * это комбинация факторов

polybook Mar 22 2016 at 07:57

В этой задаче зависимость от пары факторов (х2 и х3) легко угадать. А что делать в общем случае? (Мне думается, для автоматизации нужен факторный анализ).

OlegUV Mar 22 2016 at 10:43

Кстати, да. Вот и тема для нового, интересного и актуального поста нашлась )