mbureau17 сен 2015 в 07:49

Модель прогнозирования временных рядов по выборке максимального подобия: пояснение и пример

6 мин

29K

Математика *

Туториал

+13

Комментарии 20

Bas1l 17 сен 2015 в 08:34

А есть ли у вас статьи в журналах (желательно, международных) или выступления на конференциях (тоже желательно международных)?

mbureau 17 сен 2015 в 08:40

Статьи по данной теме у меня есть.

И. Чучуева «Модель экстраполяции по выборке максимального подобия», журнал «Информационные технологии», декабрь 2010.
И. Чучуева, С. Чернецов «Прогнозирование уровня глюкозы в крови больных инсулинозависимым диабетом нейронными сетями и методом экстраполяции по выборке максимального подобия», ноябрь 2010, technomag.edu.ru/doc/162847.html.
И. Чучуева «Модель экстраполяции по максимуму подобия (ЭМП) для временных рядов цен и объемов на рынке на сутки вперед ОРЭМ (Оптовом рынке электроэнергии и мощности)», январь 2010, technomag.edu.ru/doc/135870.html.
И. Чучуева, Ю. Павлов «Экстраполяция псевдослучайных процессов по максимуму подобия», июль 2009, technomag.edu.ru/doc/129712.html.
И. Чучуева «Модель экстраполяции по выборке максимального подобия», июнь 2010, Труды третьей международной конференции «Математическое моделирование социальной и экономической динамики», Москва.
И. Чучуева «Прогнозирование временных рядов при помощи модели экстраполяции по выборке максимального подобия», март 2010, Сборник материалов международной научно-практической конференции «Наука и современность — 2010», Новосибирск.

С международными (на английском) пока все плохо — их нет, но планирую.

Если вы хотите сослаться, то лучше на диссертацию или автореферат.

netmaxed 17 сен 2015 в 10:35

а чем Ваш метод отличается от метода «к ближайших соседей» с к=1?
на каких датасетах вы проверяли качество предсказания?
как ваш метод работает на сложных рядах, например usdrub?

mbureau 17 сен 2015 в 10:43

Чтобы я могла ответить на этот вопрос, пришлите, пожалуйста, ссылку на внятное описание метода «к ближайших соседей».
В первую очередь, временные ряды из электроэнергетики: цены и энергопотребление. Кроме того, уровень сахара крови и ряд других показателей.
Никак. Ко мне пачками ломятся форексяне, устала уже от них. Я прогнозом на валютных парах не занимаюсь вообще.

netmaxed 17 сен 2015 в 11:16

ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_k_%D0%B1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D1%88%D0%B8%D1%85_%D1%81%D0%BE%D1%81%D0%B5%D0%B4%D0%B5%D0%B9

Кроме того, мне не понятно, почему бы не посчитать свертку «выборки новой истории» со всем временным рядом?
Через FFT это будет быстро и эффективно и сразу даст максимум на периоде лучшего совпадения и вам не нужен будет шаг Step.

mbureau 17 сен 2015 в 11:23

Вот мне нравится :-) Открываю википею и читаю, что «метод k ближайших соседей метрический алгоритм для автоматической классификации объектов», а предлагаемая мною модель решает задачу прогнозирования временного ряда и для классификации не годится. По-моему, очевидно, что это две разные вещи, нет?

Если же говорить о том, как найти похожую выборку, то вариантов у меня было более дюжины, в том числе евклидово расстояние, упомнятое по ссылке: чего только ни считала — очень много вариантов и идеи было, часть из них быстро откинулась, часть долго обрабатывалась. Здесь представлен простейший случай модели, такой, чтобы в нем студент мог за час разобраться. Я потому и пишу, если у вас не работает линейность, то, пожалуйста, изобретайте новые алгоритмы/методы поиска подходящей выборки.

andreymironov 17 сен 2015 в 11:24

Хохоу, так вот же такая модель: http://www.youtube.com/playlist?list=PLiAWGmNyTeL8gT3UJWCOUO3WOD5a93sEX (плейлист youtube из 7 видео). И репа на github в описании к видео указана. Правда, написано это когда автор ещё не ахти как писал на плюсах, но «есть можно».

mbureau 17 сен 2015 в 11:37

А кто вам сказал, что автор ее не срисовал с моей? Дата видео 2015, а мои статьи аж в 2009 уходят. С меня написано десятки дипломов в разных ВУЗах. А потом нужно понимать, что идея идеей, она не является «официальной» пока не изложена в научном сообществе. Кулибиных по всему миру очень много.

И еще нравится… «ее автор» (название канала и имя комментатора одинаковые)… это вы что ли? Ну так и пишите от себя.

andreymironov 17 сен 2015 в 11:42

К счастью, я — не он. Вы не допускаете существование братьев и сестёр? А на видео запечатлен весь процесс поиска и создания алгоритма, начиная с идеи. Да и алгоритм этот слишком тривиальный, чтобы из-за него сраться. Более того, автор вообще не претендует на авторство столь ничтожной разработки. И вот что ещё 100%: он о ваших статьях и слыхать не слыхивал, и знамо не знал. Вы же не Пифагор! =) Смешно…

Arastas 18 сен 2015 в 12:18

А кто вам сказал, что автор ее не срисовал с моей?

Вы, надеюсь, шутите?

mimicria 17 сен 2015 в 15:11

Максимальное правдоподобие у меня всегда ассоциировалось с упрощённым Байесом.

mbureau 17 сен 2015 в 16:07

Есть такой момент в названии. Там именно правдоподобие (likelihood), у меня подобие (similar).

hardex 17 сен 2015 в 20:39

Это моя модель. Таких, как она — много, но эта — моя. Моя модель — мой лучший друг. Она — моя жизнь. Я должен научиться владеть ею так же, как я владею своей жизнью. Без меня моя модель бесполезна. Без моей модели бесполезен я.

grekmipt 17 сен 2015 в 20:49

Подобная идея настолько общего характера что разумеется приходила в голову почти любому кто начинал работать в теме прогнозирования временных рядов (сам тоже это же пробовал лет так 10 назад в одной задаче — но в моей задаче оно оказалось неработоспособно).

Основная проблема такого подхода в том, что существует бесконечно много способов описания подобия (текущего отрезка данных и исторического кусочка). При этом, не существует универсального метода поиска функции подобия. А линейная корреляция работает лишь на крайне ограниченных примерах из реальной жизни. Более того, если немного покопаться в такой теме как бифуркации, хаотические аттракторы и т.п., то станет понятно, что в массе реальных задач даже чрезвычайно малые (в евклидовом пространстве) отклонения текущего ряда от исторической реализации могут означать принципиально другой прогноз на ближайшую «траекторию» ряда.

Так что статья (да и сам подход) вполне хороша в качестве учебной иллюстрации для тех кто начинает заниматься вопросом прогнозирования рядов, а бОльшего тут ожидать не стоит. Хотя в некоторых редких случаях результат может быть хорошим (там где зависимости очень четкие, и аттракторы данных достаточно слабо хаотические).
Но в любом случае, спасибо за статью — дорогу осилит идущий.

mbureau 18 сен 2015 в 06:35

Как говорит профессор МГТУ им Баумана А.П. Карпенко, с которым я работала над рукописью диссертации, «нет ничего проще, чем выдумать новый метод, и одновременно нет ничего сложнее, чем доказать его эффективность (в данном случае высокую точность)». Я с самого начала делала модель для рынка электричества, первый ряд с которым работала были цены на электроэнергию. а в итоге фактически все доказательство эффективности построила на рядах из этой области. Да и теперь моя последняя научная публикация касается вопросов электричества, в частности, оптимизации работы ТЭЦ.

Насчет универсальности пока (8 лет вопросом занимаюсь) мнение такое: универсальной модели нет, у всех есть достоинства и недостатки, которые на временных рядах различных характеристик сказываются по-разному. Гнаться за универсальностью в этой области почти невозможно, хотя, может еще лет через 8 у меня переменится мнение.

А что касается учебной иллюстрации, то совершенно верно, для этого материал и писался.

alexandergoncharenko 24 сен 2015 в 11:13

Хорошо бы подошли под данный тип задач ssa и la анализы. Хотя, это как у Бокса: все модели неверны, но некоторые — полезны.

victor79 11 янв 2019 в 04:48

А правильно ли я понимаю, что в этом описании в 2.2.1 HistNewData = TimeSeries([Index-M+1:Index],:) и в 2.2.8 Fact = TimeSeries([Index: Index+P-1],3) имеется одна общая точка? В то же время, в 2.2.4 MSPData = TimeSeries([MSP-M+1: MSP],:) и в 2.2.5 HistBaseData = TimeSeries([MSP+1:MSP+P],:) такой общей точки нет. Если так, то это ошибочка снижающая достоверность оценки.

mbureau 11 янв 2019 в 08:09

Замечательно, что кто-то читает мой пример внимательно.

victor79 14 янв 2019 в 09:42

Вы написали, что ошибка прогноза около 6%, судя по программному коду это за один час. Т.е. Вы случайно ткнули в график и попали туда, где такой скачок цен? Мне кажется Вы не задумывались над результатом, и даже не посмотрели, какой порядок колебаний был на 01.09.2012.

mbureau 14 янв 2019 в 13:53

Я поторопилась с мнением о вашей внимательности. Будьте внимательнее.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий