Комментарии / Профиль rounder / Хабр

Alexander S.@rounder

Data scientist

Подписчики

Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna

Статья предназначена для читателей, уже знакомых с прогнозированием временных рядов, и соответственно, с методами оценки прогнозов. Поэтому упор был сделан на функционал Enta по анализу и подготовке данных. Тема валидации временных рядов достаточно обширная и скорее тянет на отдельную статью, чем на еще одну главу. Но Вы правы - стоило упомянуть в статье о важности валидации при оценке гипотез и имеющимся в Etna функционале для этого.

Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna

rounder 20 янв в 08:41

Куда интересней, а чем заменять обнаруженную аномалию?

Америку не открою - всё зависит от природы временного ряда. В статье используется forward_fill - по сути тот же наивный прогноз, который в некоторых случаях оказался лучше линейной модели.

Был опыт работы над ежедневным прогнозом пар магазин-товар, где только пилотная география давала 20 млн. временных рядов. Даже с учетом распределенных вычислений в pyspark всё работало не быстро, из-за чего требовалось какое-то простое и надежное решение для заполнения пропусков. Поэтому пропуски заполняли с помощью среднего значения из предыдущих наблюдений пары магазин-товар с тем же днем недели. Кстати, в Etna есть такой способ заполнения пропусков, называется seasonal.

Если интересуют ML подходы к заполнению пропусков, можете посмотреть в сторону sklearn IterativeImputer и KNNImputer. Кстати, некоторые прогнозные модели, например Prophet и LightGBM могут обучаться даже с пропусками в обучающей выборке.

Неоднократно слышал о фильтре Калмана, в основном как способе фильтрации/сглаживания сигналов датчиков. но на практике не приходилось сталкиваться. Если не секрет, в какого рода временных рядах вы его применяли?