Как стать автором
Обновить

Комментарии 3

Кто-то что-нибудь понял?

Кто-то что-нибудь понял?

Картинки говорят сами за себя, но статья могла бы быть гораздо понятнее (и полезнее для очень многих читателей), если добавить в ее начало преамбулу про анализ остатков, т.е. ошибок аппроксимации данных какой-то моделью. Обычно модель можно считать хорошей, если эти ошибки не только малы, но и случайны. Множество математических методов в том или ином виде опираются на гипотезу о случайности шумов и, соответственно, ошибок. Поэтому если вдруг выясняется, что ошибки не случайны, то это серьезный повод задуматься про адекватность модели. Вот простой пример: пусть некоторая величина меняется по параболическому закону, а мы видим только результат измерений и пытаемся аппроксимировать эту зависимость прямой линией. Зашумленный фрагмент параболы может быть очень похож на прямую, но если посмотреть на остатки аппроксимации, то там будет виден явный "зигзаг", что сразу же наведет на мысль о недостаточности линейной модели.

Вот нарисовал пару иллюстраций

прямо на своем "рабочем столе", даже не подбирая параметры (если поварьировать кривизну параболы, амплитуду шума и число точек данных, то можно сделать гораздо нагляднее):

Это фрагмент параболы с шумом, - график довольно похож на линейный рост.

А вот параметры линейной аппроксимации:

Коэффициент корреляции 0.983, 1-R^2=0.033, линейная модель объясняет более 98% дисперсии сигнала... она почти идеальна? Но посмотрим-ка теперь на график остатков:

По нему сразу же видно, что в данных есть еще какая-то неучтенная, но абсолютно четкая динамика. Да, конечно, внимательный исследователь мог бы это заметить уже по первому графику, а тем более по второму. Но когда у тебя сотни таких рядов, то часто на изучение таких подробностей нет времени. Картинки листаются со скоростью прокрутки экрана... потом чуть внимательнее смотрим на таблицу со значениями на 1-R^2, где все почти на нуле... все нормально?

А вот график остатков даже при самом беглом просмотре не оставляет ни малейших сомнений, что с моделью что-то не так ;-)

Ну а теперь самое главное: неслучайность остатков может быть самой разной. То есть там может присутствовать не только динамика (закономерное изменение) средних значений, но и динамика дисперсии. В частности, дисперсия остатков сплошь и рядом будет расти со временем, если ряд имеет тенденцию к экспоненциальному росту, а амплитуда флуктуаций пропорциональна текущему уровню (а это типичнейшая ситуация в эконометрике). Поэтому при построении любых моделей и аппроксимаций очень важно не просто оценивать погрешность модели, но и анализировать остатки на предмет выявления там скрытых (неучтенных моделью) зависимостей и закономерностей. Собственно, обсуждаемая статья именно этому и посвящена. Поэтому мне очень жаль, что она написана в расчете на крайне узкого специалиста, а у большинства остальных читателей возникает впечатление "ничего не понятно". Тема-то ведь важная и полезная...

А еще для законченности и завершенности в статье не хватает хотя бы беглого пояснения основных идей, на которые опираются тесты Диблази-Боуманна, Уайта, Юса и Чжоу. Как рассчитывается критическая статистика теста, и почему она хорошо реагирует на отсутствие гетероскедастичности? Подчеркну: не хватает не формул для расчета статистик (они легко ищутся), а именно внятного, на пальцах, описания идей. Ведь базовые идеи у практически всех статистик весьма ясные и понятные. Вообще, сейчас довольно модно начинать изучение анализа данных с освоения программ и обучения правильному порядку "нажимания кнопок". При этом математика, которая стоит за всем этим, иногда кажется сложной и непонятной. Хотя на самом деле там все очень просто! Точнее, формулы могут быть очень заумными, но вот стоящие за ними идеи - почти всегда просты и прозрачны. Но понять эти идеи, просто читая инструкции к программе, можно далеко не всегда. Тут как никогда важен диалог с преподавателем (лектором). Именно этим и хороши многие хабросстатьи, что они "про идеи", а потом в обсуждении - диалог.

Поэтому, во-первых, спасибо Артему @acheremuhin за его цикл статей по статистике. А во-вторых, большая просьба к нему же не забывать рассказывать про идеи, прежде чем придавливать читателя полезными, но не всегда простыми для понимания фактами ;-)

Спасибо за комментарии и замечания. Я попробовал в черновике начать про идеи - но получалось очень много, и я решил в заметке не писать. Но внушение принято и понято, будем исправляться дальше.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории