Ermak_Marina 19 июн в 16:28

SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает

10 мин

4.1K

Python*Алгоритмы*Математика*Машинное обучение*Статистика в IT

Обзор

+16

Комментарии 12

uchitel 19 июн в 18:12

1) Добавляйте хабы: ML, математика, алгоритмы, статистика в IT.

2) Статья хорошая.

3) Прогнозирование - это отдельная дисциплина, которая слишком глубока, если вы действительно собрались погрузиться в ее пучины, то могу только позавидовать вашей смелости.

Ermak_Marina 19 июн в 19:11

Спасибо, хабы добавила

Пока я только пытаюсь понять азы этого прогнозирования:)

SmirnGreg 19 июн в 20:58

Рекомендую библиотеку sktime для анализа и прогноза временных рядов.

Ermak_Marina 19 июн в 22:24

Спасибо!

Kryptonets 19 июн в 22:27

Эмм, попробуйте statsforecast от NIXTLA.Там есть куча моделей в том числе AutoARIMA с поддержкой экзогенных регрессоров и возможностью делать прогноз на множестве временных рядов

https://nixtlaverse.nixtla.io/statsforecast/index.html

Ermak_Marina 19 июн в 22:32

Не слышала про неё, спасибо за наводку

Rebelqwe 20 июн в 09:44

Очень рекомендую книгу Франсуа Шолле "Глубокое обучение на R". В ней математика очень органично вплетена в код и будет проще разобраться.

Обложка

Ermak_Marina 20 июн в 12:23

Спасибо большое за рекомендацию!

ptr128 21 июн в 15:00

Когда есть явные выбросы, хороший результат даёт простейший медианный фильтр с окном 3-9 (размер окна всегда нечётный). Выбросы просто срезаются, а даже резкие нарастания/убывания сохраняются.

После медианного фильтра сглаживание часто даёт уже явно лучший результат. Даже сглаживание скользящим средним.

Поэкспериментируйте. Может у Вас как раз этот случай.

Ermak_Marina 24 июн в 21:41

Спасибо большое, попробую!

MrPechkin 24 июн в 21:40

Я с временными рядами борюсь только третий месяц. Поделюсь некоторыми своими наблюдениями:
1. Для моих двухлетних наборов данных по часам лучше всего подходят градиентный бустинг и рекуррентные нейросети. Так же пробую AutoTS, FEDOT, Ethna, Prophet, NeuralProphet и другие.

2. Модель необходимо настраивать, даже если она кажется бесперспективной. Лучше всего автоматом искать по сетке и валидировать на разных месяцах. Переходить к следующему алгоритму только наигравшись с предыдущим.

3. Процесс минимизации ошибки на обучении обладает некоторой случайностью (по крайней мере на нейронках). Можно несколько раз перезапустить модель на одних и тех же параметрах и получить разные показатели. Выбрать по итогу ту модель, чьи веса выстроились наилучшим образом.

3. Не стоит радоваться результату MAPE=1,5%. Это повод искать ошибки. Вероятно, валидационные данные попали в обучение или еще что-то.

4. Не стоит чураться экзогенных переменных. Время года, час, день недели, месяц, продолжительность светового дня, синусы и косинусы этих переменных и прочее. Лучше потом выкинуть наименее значимые для модели или объединять их в новые, если уж обучение будет идти слишком долго. Да и в целом стоит побольше уделить внимания набору данных: корреляции признаков между собой, стандартизации, переводом в дамми-переменные категориальных признаков и т.д.

На данный момент MAPE=2,2% - мой наилучший результат. Проблема в том, что ременной ряд продолжает дополняться новыми данными с каждым днем. Соответственно, эффективность моделей или растет или падает. Думаю, что прорвемся. Удачи нам)

Ermak_Marina 24 июн в 21:41

Спасибо большое за комментарий!

Учту в дальнейшей работе

Да уж, удачи нам:)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает

Комментарии 12

Публикации

Истории