Как стать автором
Обновить

Комментарии 17

А что значит слово регрессия, откуда такой термин?

Термин "регрессия" предложен еще в 19 в. Погуглите про историю статистики, информации море...

погуглил - ничего не понял, причем тут снижение, что снижаеся то? У вас есть какое-то свое мнение на этот счет?

Рекомендую список литературы для изучения основ теории:

  1. Айвазян С.А. Прикладная статистика. Основы эконометрики: В 2 т. - Т.2: Основы эконометрики. - 2-е изд., испр. - М.: ЮНИТИ-ДАНА, 2001. - 432 с.

  2. Вучков И. и др. Прикладной линейный регрессионный анализ / пер. с болг. - М.: Финансы и статистика, 1987. - 239 с.

  3. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа / пер с нем. - М.: Финансы и статистика, 1983. - 302 с.

  4. Львовский Е.Н. Статистические методы построения эмпирических формул. - М.: Высшая школа, 1988. - 239 с.

Вот прямо в Википедии написано: "... Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс»." Вот это "возвращение к среднему" и есть суть регрессии. Дальше можно "Центральную предельную теорему" покурить, которая про тоже самое. В общем, грубо говоря, суть в том, что сумма случайных величин стремится к некоему усреднённому значению, на этом весь аппарат регрессии и стоит.

что разброс в росте сыновей был меньшим,

Видите в вашей же цитате - уменьшени кол-ва параметров! имхо мне кажется вы неверно поняли посыл регрессии - смысл, как мне кажется, в представлении исходной последовательности в виде генератора с минимальным кол-вом параметров с минимизированной по какому-то критерию ошибкой интерполяции.

т.е. в пределе если все сыновья имели один рост - то этот набор данных можно представить одним параметром - просто числом. Ргресиия от N параметров (роста сыновей) к одному единственному их всех предтавляющему.

Ну, наверное, можно и так сказать. По-моему суть одна и та же, просто я посмотрел с точки зрения распределений.

Какой фундаментальный труд. Интересно, сколько примерно по времени этот проект занял. )

Опыт работы за несколько лет - просто методически обобщен и скомпилирован. Так что на самом деле оформление не так и много времени заняло.

Для чисто линейных многофакторных моделей, есть прекрасный scikit-learn, где есть регуляризация и различные cost function. Вообще если факторов относительно много то без регуляризации никуда, странно что вы об этом не написали.

Я в этом обзоре писал не про машинное обучение, а про аппроксимацию, о простых (не многофакторных) моделях, причем в основном о нелинейных. scikit-learn - это отдельный инструмент. До него дело еще дойдет. А этот обзор совсем не про него.

Нельзя объять необъятное

Добавил в закладки в надежде вернуться позже. По картинке превью сначала подумал, что рисовалось в ggplot2 в R. Есть ли какие-то преимущества перед ним? Или чисто что бы два синтаксиса не учить? Мне как-то показалось в R чуть больше готовых пакетов для работы с разными форматами нечисловых данных (все вот эти лютые timestamp который каждый лепит как хочет), отдельно нравится возможность сверстать всё в markdown, который почти совместим с внутренней wiki. Но все мои остальные разработчики сидят на питоне, так что я вот уже какое-то время чешу в затылке - не переучиться ли на него, но так как подобный анализ делам раз в несколько проектов, то мотивации не много.

Хороший вопрос, коллега. В свое время с товарищем тоже спорили, за чаркой, что лучше - Python или R )) Если совсем кратко, я сделал выбор в пользу Python, хотя у R тоже свои плюсы есть. В общем тема для целой дискуссии...

подобный анализ делам раз в несколько проектов

Это даже не анализ, а так - демонстрация возможностей

Если мы аппроксимируем зависимость y[i] ~= a0*exp(a1*x[i]), то при положительных a1
погрешности от сильно отрицательных x[i] почти не будут влиять результат.
В это случае надо минимизировать не разности y[i] - y_prognoz[i],
а их логарифмы log(y[i]) - log(y_prognoz[i]).
Похоже, такие тонкости в статье не учитываются.

Разумеется, использование целевых функций, отличных от суммы квадратов разностей, в этом обзоре не рассматриваются, ибо нельзя объять необъятное. Это вообще довольно специфическая область

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории