Комментарии 42
После слов "Обратите внимание, что при максимизации функции по какому-то параметру можно выкинуть все члены, не зависящие от этого параметра:" в формуле ошибка в последней строке — должно быть arg min.
...Поговорим немного о свойствах оценки, полученной линейной регрессией. В свете предыдущего пункта мы выяснили, что:
…
— ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
— истинное значение целевой переменной тоже распределено нормально: y∼N(f(x→),σ2)
Оба этих утверждения неверны. Линейная регрессия не требует нормальности ошибок, а только соблюдения условий Гаусса-Маркова.
Нормальность ввели вы для того чтобы построить функционал максимального правдоподобия. А его вы строите, чтобы показать, что при нормальных ошибках МП равнозначно МНК.
Но сам МНК отлично работает и при ненормальных ошибках.
Цитирую дословно: "Поговорим немного о свойствах оценки, полученной линейной регрессией"
Но все что идет дальше это не свойства оценки, полученной линейной регрессией
>> В свете предыдущего пункта мы выяснили, что… ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
Вы это не выяснили, а сами ввели. А если чуть строже, то сделали такое параметрическое предположение, что если ошибка распределена нормально, то тогда...
>> предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку
А в этом навалено и про МНК, и не про МНК, так что разобраться что о чем невозможно.
Мне кажется нормально, как раз хорошо, динамично. Математика и базовый питон были в пререквизитах, а зная их тут не так уж и много, в домашках всё довольно подробно разжёвано. Каггловские же соревнования за доп. баллы на весь курс, не на неделю.
в заданиях помимо самих вопросов нужно же еще понять и разобрать весь код, который там написан, для начинающего может быть не так просто/быстро
Ко мне в ВШЭ люди ходят учиться с 19 до 22 после работы в будни. И еще в субботу.
добавление полиномиальных действительно ведет к мультколлинеарности, в линейных моделях это увеличивает сложность модели, что в итоге приводит к переобучению, но если остановить раньше, то все ок
но вообще не всякое добавление полиномиальных фичей приведет к мультиколлинеарности, представьте такой случай
x = np.random.uniform(-1, 1, size=10000)
print np.corrcoef(x**2, x**6)[0, 1]
print np.corrcoef(x**2, x**7)[0, 1]
Если вопрос в том, как по предсказанной вероятности получить отнесение к одному из классов, то тут выбирается порог, начиная с которого прогнозируется класс 1. Это проиллюстрировано в статье картинкой с невозвратом кредита.
Иногда бывают ситуации, когда мы намеренно увеличиваем смещенность модели ради ее стабильности, т.е. ради уменьшения дисперсии модели Var(f^).
Можете привести практический пример такой ситуации?
Допустим вам нужно предсказать стоимость куска адамантия. У вас есть данные о стоимости предыдущих сделок, а также размер, вес, качество очистки и т.п.
Из этого можно было бы построить регрессию, однако между различными параметрами (в частности между размером и весом) есть связь. А это значит, что регрессионная модель будет очень неустойчивой, т.е. небольшие изменения в исходных данных могут дать огромные изменения в значениях рассчитанных коэффициентов.
Например, если у нас есть данные о 15 сделках, то при расчете модели на сделках с 1 по 10-ю, со 2 по 11-ю, с 3 по 12-ю и т.д., мы будем получать очень разные результаты. А они должны быть близкими или даже вообще одинаковыми.
Ведь правильные коэффициенты все равно существуют, просто мы их не знаем.
В нормальных условиях (без взаимозависимости в исходных данных) обычная регрессия дала бы лучшую оценку искомых коэффициентов — несмещенную и с наименьшей дисперсией.
Но в данном случае обычное не работает. Поэтому мы сознательно идем на добавление некоторого смещения (при идеальном раскладе — незначительного), но с резким уменьшением дисперсии.
ошибка: Подлюкчение библиотек
UPD: Видеозапись лекции по мотивам этой статьи в рамках нового запуска открытого курса (сентябрь-ноябрь 2017). Немного по теме статьи + разбор бенчмарков соревнования.
Спасибо! И за совет тоже спасибо! :trollface:
Впрочем, можно и без тролфейса задаться вопросом, зачем нужен учебник, когда есть статьи на хабре и видео, и как будет выглядеть учебник будущего.
Падажжи… учебник писать — это все мемасики выкинуть? No way
Статейки на хабре это «нахватал».
О учебниках будущего я тоже когда то думал, когда в образовании работал :) Так вот, на практике — пиши учебник. В каждой области есть всего пара книг «маст хэв». Их пишут люди, способные на пальцах пятикласнику объяснить как работает сложнейшая штука и чем же они занимаются на работе.
Такие книжки знает любой спец в своей области и никакие статейки такие книжки не заменят.
Функция правдоподобия как раз через плотность вероятности определяется.
Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии