Комментарии 11
Читается как реферат для универа - никакой конкретики. Если уж
аналитика данных переживает настоящий бум
то было бы гораздо интереснее почитать про реальные результаты, а не высосанные из пальца "примеры", которые можно придумать даже просто прочитав название.
Цель анализа временных рядов - определить закономерности в изменениях параметра во времени и сделать прогноз на будущее.
Вообще-то, тут стоит еще добавить задачу поиска/изучения взаимосвязей между параметрами. В поисковых научных приложениях она обычно даже важнее, чем прогнозирование.
Существует три основных метода анализа временных рядов: стационарность, автокорреляцию и спектральный анализ.
Сказать по-правде, меня эта фраза просто ставит в тупик. Я уже много лет вошкаюсь с разными временными рядами, но никогда не задумывался, что стационарность - это метод анализа. Так что спасибо за свежий взгляд на вроде бы привычные вещи ;-) ...но учить такому студентов я бы все-таки не рекомендовал ;-))
А если немного серьезнее, то, как говорят медики, не бывает здоровых, - есть недообследованные. Так вот, опыт показывает, что в перечисленных Вами областях (финансы, производство, социальные и экономические исследования, климатология) даже и обследовать никого не нужно: отсутствие стационарности в подавляющем большинстве случаев очевидно еще до открытия графика.... Потому я бы тут сделал акцент на том, что свойство стационарности (а еще лучше эргодичности) - это крайне полезная, но, увы, сугубо теоретическая модель. Да, в рамках этой модели наши возможности по использованию разных схем (алгоритмов) анализа данных расширяются просто неимоверно. Только вот в практической жизни таких (удовлетворяющих этой модели) рядов не бывает...
Вопрос поэтому можно ставить только в том плане, можем ли мы разделить сигнал на стационарную и нестационарную составляющую. Я пытался это делать с очень многими геофизическими рядами, и пришел к выводу, что сделать это аккуратно почти невозможно. А если делать неаккуратно - получается вот что. Кому лень лазить по ссылкам, скажу по-простому: если Вы работаете с временными рядами из перечисленных областей, и не слишком горите желанием заглубляться в методические подвалы, то про корреляционные методы анализа таких данных лучше сразу забыть. То есть, посчитать корреляции, АКФ-ВКФ и т.п. Вы, конечно же, сможете. Но вот правильно оценить значимость результатов - почти никогда. А если ошибочно принять такой статистический артефакт за устойчивый системный эффект, то можно сесть в о-о-очень глубокую лужу, и наделать таких прогнозов, за которые не увольняют с работы, а расстреливают в темном углу. В общем, как говорится, "вы молодые, шутливые и т.п...." (с), но без четкого понимания различий между случайной величиной и случайным процессом эту тему действительно "...лучше не поднимать"(с) ;-) И это уже не шутка :-((
Ну и пройдусь заодно по столь популярным в эконометрике SARIMA-подобным моделям. Да, это направление действительно стоит на плечах гигантов (Бокс, Дженкинс и др.). И к тому же имеет какую-никакую теоретическую основу, благодаря чему авторы почти любого статистического пакета АВР считают своим долгом туда все это включить. Только вот реальные ряды всегда имеют кучу неприятных свойств, начиная с пропусков и выбросов/всплесков (которые вовсе не всегда - мусор, но часто - полезный сигнал!), и кончая трендами типа случайного дрейфа с экспоненциальной поправкой. А вот к этому упомянутые модели не готовы чуть больше, чем абсолютно. Поэтому если вы просто соберете данные, и попытаетесь применить перечисленные методы "из коробки", то на выходе почти наверняка получится ерунда. Причем недостаточно искушенный аналитик даже может и не понять, что это именно ерунда. Попросту говоря, "из коробки" это все заработает лишь в особо благоприятных совершенно исключительных случаях. Да, такие тоже бывают, но если Вы только изучаете эту тему, то надо сразу же готовиться к обратному, т.е. набиванию шишек по всему телу от коленок до подзатыльника с косяками в самых разных местах.
И напоследок про "Прогнозирование...". По моим представлениям, "прогнозирование" и "экстраполяция" - это почти что синонимы, если, конечно, экстраполяцию понимать в широком смысле этого слова. Я бы сказал, что прогнозирование - это поиск закономерностей в поведении сигнала или группы сигналов с последующей экстраполяцией этих закономерностей в будущее. Тут критически важны два элемента: 1) что наши закономерности реальны, т.е. статистически значимы, и что 2) они сохранятся и в будущем.
А вот каким именно образом эти закономерности обнаружены - это уже совершенно другой вопрос. Пункты (1) и (2) остаются принципиальными в любом варианте. И сказать об этом гораздо важнее, чем выдернуть откуда-то три случайно подвернувшихся под руку метода (скользящего среднего, экспоненциальное сглаживание и метод Хольта-Винтерса) и подать их в таком стиле, как будто этот список
близок к исчерпывающему
Вообще-то их не три, а десятки, особенно если обсуждается прогноз разных временных рядов в разных предметных областях. Даже если в старых учебниках по эконометрике об этом еще не написано, это же просто из логики здравого смысла достаточно очевидно, не? Наиболее тривиальный пример (первое, что приходит в голову): аппроксимируем ряд на правом конечном участке линейной функцией, затем продлеваем (экстраполируем) ее вправо. Тем самым автоматически учитывается линейная часть тренда. Бонус - при оценке параметров такого тренда нам абсолютно пофиг пропуски и отдельные выбросы (можно убрать, можно робастизировать). А еще можно аппроксимировать ряд синусоидой (если ряд квазипериодический). Чем короче окно аппроксимации (в единицах периода), тем шире будет полоса пропускания такого "аппроксимационного" фильтра. И наоборот, в обратном пределе бесконечно длинного окна (ряда) этот метод выделит из сигнала одну конкретную частоту (дельта-функцию в спектре). Либо целый пакет таких дельта-функций (например, когда мы выделяем, оцениваем и прогнозируем прилив). А еще можно вместо синусоиды взять непараметрическую среднесезонную функцию, и сделать с ней то же самое. И т.д. и т.п.
А потом можно сделать еще один шаг вперед и выполнить такую декомпозицию на составляющие итеративно, что сразу решает целую кучу проблем с дефектами данных и смещением оценок непараметрических составляющих из-за присутствия в сигнале других высокоамплитудных эффектов. После чего каждая выделенная составляющая тривиально экстраполируется вперед и затем ряд вновь собирается из полученных элементов....
Классический метод Хольта-Винтерса -лишь один частный случай из бесконечного количества таких комбинаций. Но самое странное даже не то, что Вы его выделили в качестве финального достижения в перечисленной группе, а то, что он оказался поставлен в один ряд с экстраполяцией скользящим средним и экспонентой, хотя (имхо) это методы разного уровня продвинутости: с декомпозицией сигнала на составляющие и без нее. В силу чего их логичнее было бы перечислять в одном ряду вместе со своими одноклассниками в внутри каждой группы....
О разделах "Преимущества и недостатки" и "Заключение", если позволите, я свое мнение придержу при себе. Но если Вы хотели прорекламировать какое-то мероприятие, то я бы все-таки посоветовал выбирать для статьи более близкую и изученную Вами тему. Иначе получается не реклама, а скорее наоборот. Глядя на столь поверхностную статью, многие могут подумать, что и рекомендуемый вебинар будет такого же уровня :-((
А если немного серьезнее, то, как говорят медики, не бывает здоровых, — есть недообследованные. Так вот, опыт показывает, что в перечисленных Вами областях (финансы, производство, социальные и экономические исследования, климатология) даже и обследовать никого не нужно: отсутствие стационарности в подавляющем большинстве случаев очевидно еще до открытия графика… Потому я бы тут сделал акцент на том, что свойство стационарности (а еще лучше эргодичности) — это крайне полезная, но, увы, сугубо теоретическая модель. Да, в рамках этой модели наши возможности по использованию разных схем (алгоритмов) анализа данных расширяются просто неимоверно. Только вот в практической жизни таких (удовлетворяющих этой модели) рядов не бывает…
Вопрос поэтому можно ставить только в том плане, можем ли мы разделить сигнал на стационарную и нестационарную составляющую.
Отлично сказано) Что касается эконометрических рядов, то на Хабре есть серия статей связанных с определением их стационарности, выводы которых подтверждают эти оценки.
Собственный опыт определения стационарности связан с обработкой биомедицинских данных, в частности, записей сердечного ритма. Во время тестовых записей требуется соблюдение стационарности условий записи с целью вычисления показателей состояния регулирующих систем сердечно-сосудистой системы в покое. Однако на практике достичь это весьма трудно. По этой причине вычисления показателей часто носят некорректных характер. Решение принимается на глазок, если график записи не содержит видимых глазу трендов и выбросов, то расчет и заключение производится, если нет, то производится повторная запись. Если психотерапевт не обладает таким опытом, то вероятность получить не корректное заключение возрастает. Применение параметрических тестов на стационарность ситуацию улучшило не намного, т.к. они могли пропускать интервалы нестационарности, связанные, напр, с неконтролируемой активностью испытуемых. Решение было найдено с использованием непараметрических тестов с замысловатой схемой применения, см. этот комент. Точного обоснования такого использования, к сожалению, нет, поиск также ничего не выявил. Однако опыт практического применения позволил улучшить статистику результативности заключений с учетом других методов анализа, дублирующих такие заключения.
Поразительно, тот случай когда комментарии читать очень интересно, видно погружение в тему. У меня к вам вопрос: если машинное обучение применить к финансовой части (например торговля акциями) по сути график это временной ряд, что посоветуете? В какую сторону копать? И какую модель можно обучать торговать в плюс ? Или прогнозировать рост акции )
Заранее спасибо.
Моделирование временных рядов..
... но некоторые полезны. Это, кстати, касается любых областей не таких чётких, как математика. В физике тоже модели всегда приблизительные, но без них вообще как жить.
Имеются в виду именно стат. модели, см. по ссылке.
В физике тоже модели всегда приблизительные, но без них вообще как жить.
В физике математические модели фундаментальных физических теорий аналитические. Даже если результаты их предсказания носят вероятностный характер, как в квантовой физике. Они основываются на обобщении эмпирического материала, и их "приблизительность", точность предсказаний ограничивается параметрами области применимости. Напр, классическая механика при скоростях много меньше световой и слабых гравитационных потенциалах. Квантовая механика при при малых значениях величины действия сравнимых с постоянной Планка. Физические законы формально перестают действовать на планковских масштабах пространства и времени.
Это, кстати, касается любых областей не таких чётких, как математика.
Математические представления является языком формализованного описания, в отличии от концептуального, выражаемого обычным языком. Тем не менее, любая теория, включая сами математические, начинаются с концептуальных моделей. По этой причине они настолько не точны, насколько не точные их концептуальные модели, а они все, в конечном итоге, имеют эмпирические корни. Хотя некоторые базовые представления имеют эволюционное происхождение (наследственное).
Область применимости - это там, где мы можем пренебречь неточностью модели для наших конкретных целей. При этом физические модели всегда будут неточны по определению. Слишком много разных сил действует одновременно. Просто в данном месте и времени одни из них действуют очень сильно по сравнению с другими, поэтому мы этими другими пренебрегаем и можем с какой-то очень большой точностью что-то считать. Но при этом эта точность никогда не будет 100%. Никогда вообще. А там, где квантовые эффекты действуют сильнее остальных сил, там вообще у нас от реальности одно только распределение вероятностей остаётся.
Область применимости — это там, где мы можем пренебречь неточностью модели для наших конкретных целей.
Это не проблемы физических моделей, напр, той же классической механики в области применения. Задайте точно все параметры для всех тел и получите точное решение, называется лапласовским детерминизмом. Возмем случай с аномальным смещением перигелия Меркурия. Он без проблем объяснялся влиянием других тел, которые не наблюдались, гипотетической планетой Вулкан. Однако астрономические наблюдения не обнаружили такой планеты. Пришлось признать, что проблема не во влиянии неизвестных тел, а в самом законе тяготения Ньютона. Объяснение аномалии нашлось с разработкой ОТО, в которой теория Ньютона осталась предельным случаем слабого гравитационного поля. Но если бы нашли Вулкан, то еще раз подтвердили точность предсказаний теории Ньютона, как в случает с открытием Нептуна.
Просто в данном месте и времени одни из них действуют очень сильно по сравнению с другими, поэтому мы этими другими пренебрегаем и можем с какой-то очень большой точностью что-то считать. Но при этом эта точность никогда не будет 100%. Никогда вообще.
Что касается точности описания, то она определяется погрешностями измерений и вычислений. Пренебрежение несущественными влияниями в данной задаче не связана с точность физических моделей, а является допущением этой задачи.
В квантовой области описание вероятностное, но это не говорит о неточности самой модели КМ. Она точная, и в пределах допущений предсказывает поведение кв. системы. Если точность предсказаний не удовлетворяет необходимо учесть больше действующих факторов. То же самое относится к нелинейной динамике приводящей к хаотическому поведению некоторых систем при том, что ее законы детерменистичные. Это не следствие неточности законов.
Проблемы с точностью модели возникают тогда, когда учитываются все действующие факторы, надежно установлено отсутствие ошибок измерений и вычислений, а поведение системы отклоняется от прогноза модели. Как в упомянутом случае с движением Меркурия, или отсутствия изменений скорости света относительно движения Земли в экспериментах Майкельсона-Морли, которые привели к отрицанию эфирных представлений, и послужили толчком к разработке СТО.
Возвращаясь к утверждению Бокса, что все модели врут, речь идет именно о статистических моделях, которые часто лежат в основе прикладных теорий, а не о фундаментальных теориях. Если использовать очень точный измеритель давления, то можете уловить флуктуации давления газа на стенки сосуда. По характеристикам этих флуктуаций можно составить стат. модель и с ее помощью предсказывать динамику колебаний давления. Но через некоторое время она неизбежно отклонится от предсказаний. Стат. модель врет) Но если использовать расчет движения всех молекул в сосуде в соответствии с законами механики, то предсказание колебаний может быть точным. Теоретически) Все зависит насколько точно будут измерены начальные положения и скорости все молекул, и насколько точна будет модель рассеяния при их столкновении и со стенками в зависимости от условий проведения эксперимента. Плюс наличия необходимых вычислительных возможностей. По крайней мере, для сосуда с несколькими молекулами добиться точных предсказаний можно) А для стат. модели нет. Предвижу возражения, что принцип неопределенности не позволит точно измерить положение и скорость молекул и предсказать результаты столкновений. Верно, нужно перейти к квантовомеханическому описанию, раз у нас микросистема. Однако молекула молекуле рознь, есть весьма массивные и упругие, чтобы их поведение достаточно точно смоделировать в рамках класмеха.
Анализ временных рядов