Как стать автором
Обновить

Комментарии 1

Извините, но разбавил положительные оценки статьи своим минусом за обилие невнятных формулировок. До последнего сомневался (тема-то актуальная, и полезная информация есть), но вот этот абзац меня доконал:

Параметрический анализ – это статистический метод, который предполагает, что данные распределены в соответствии с известным математическим распределением, таким как нормальное. Иными словами, параметрический анализ требует знания параметров, определяющих распределение данных. Обычно такие параметры как среднее значение и стандартное отклонение используются для определения нормального распределения данных.

Мне кажется, я смог догадаться, что тут хотел сказать автор. Но именно догадаться, а не прочитать. Неужели нельзя было поработать над формулировками, чтобы чтение статьи не превращалось в ребус?

Но еще более важная претензия к статье - в ней так и не объяснено, за счет чего (при каких условиях) параметрический анализ может быть точнее, чем непараметрический. Ведь как известно, бесплатный сыр - он только в мышеловке. В других местах за все надо платить. Здесь ситуация ровно такая же! Параметрический анализ позволяет улучшить точность оценок благодаря привлечению дополнительной (априорной?) информации о модели. Что она адекватна реальности (данным). То есть, философия очень простая: если наша модель верна, то мы можем оценить ее параметры более точно. А если нет? Тогда извините....

Например, мы можем априори предположить, что связь между x и y линейная, и уже в рамках этой гипотезы оценить параметры регрессии. Но если в действительности связь квадратичная, то наша модель будет круто лажать (особенно на границах диапазона аппроксимации).

Поэтому критически важный элемент параметрического анализа - это оценка адекватности модели. В простейших случаях (сравнение средних двух выборок) на это часто не обращают внимания, так как модель тривиальна и нормальности распределения достаточно. Но как только задача становится чуть более сложной, это превращается в принципиальный момент. Мы должны либо априори иметь уверенность, что выбранная параметрическая модель достаточно хороша (если речь идет о хорошо известных явлениях), либо проверить адекватность модели постфактум (анализ остатков и др.). А лучше и то, и другое.

По-моему, в статье, где сравнивается параметрический и непараметрический подход, на этом надо было сделать отдельный акцент.

UPD. Неожиданно для себя, не смог с ходу найти в википедии хорошую статью именно про анализ остатков с целью оценки адекватности модели. Думал, что эти азбучные истины должны быть изложены и пересказаны многократно - но вот увы... Поэтому добавлю чуть-чуть философской отсебятины в дополнение к приведенной выше ссылке. А именно, статистическую модель (в самом общем понимании этого слова) можно считать хорошей при соблюдении двух условий:

Во-первых, в остатках не должно быть явных закономерностей. Попросту говоря, остатки должны быть случайны. Это значит, что наша модель уже учла все, что можно (нужно?).

И, во-вторых, количество параметров модели должно быть минимальным. По крайней мере, оно должно быть кратно меньше, чем число степеней свободы данных. Иначе возникает риск сверхподгонки, что ничуть не менее опасно, чем неправильная модель! Правильная оценка числа степеней свободы особенно важна, если в данных есть внутренние взаимозависимостии. Ведь если они сильны, то реальное число степеней свободы может быть много меньше, чем формальное количество значений данных. Кстати, известный баг с ложными корреляциями - это типичный пример именно такой ситуации (значения временного ряда взаимозависимы, поэтому фактическое число степеней свободы на порядки меньше, чем количество точек данных).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий