Ev_V Oct 27 2024 at 11:26

Завтра будет так же, как вчера?

Medium

5 min

2.4K

Machine learning*

From sandbox

Comments 7

lazy_val Oct 27 2024 at 14:09

Краткое содержание:

Если мы хотим экстраполировать временной ряд, нельзя для расчета коэффициентов модели (обучения) брать отдельные отсчеты (точки) наугад, надо взять все отсчеты внутри непрерывного отрезка

Спасибо, очень познавательно.

P.S. Для обучения можно также взять 80% отсчетов в конце общей выборки, и проверить их на 20% отсчетов, находящихся в начале.

P.P.S. Зачем вам вообще для решения этой задачи градиентный бустинг? Авторегрессионной модели скользящего среднего (АР-СС, она же ARIMA) выше крыши хватило бы

imageman Oct 28 2024 at 09:17

Для обучения можно также взять 80% отсчетов в конце общей выборки

Можно пойти дальше. Подобрать оптимальные гиперпараметры обучения на выборке 80+20 (или даже 70+30), а потом с этими гиперпараметрами обучить на всех 100 (надеясь что точность повысится и не будет переобучения). Хотя, думаю, вы и сами это знаете.

lazy_val Oct 28 2024 at 09:43

Чтобы оценить "глубину" рядов AR и MA обычно применяют частичную и полную АКФ соответственно, и да, никто не мешает нам взять для этого всю выборку целиком

И применение частичной АКФ позволяет устранить влияние смещения данных

Без всяких бустингов

Ev_V Oct 28 2024 at 12:51

Привет! Спасибо за дополнение. Действительно, можно взять данные из непрерывного отрезка, например из начала. На практике, без дополнительных вводных, я бы так делать не стал. Лучше использовать самые поздние данные из конца выборки, так как они больше похожи на текущие данные в проде(это стоит проверить) и это соответствует сценарию применения модели.

В приведенном простом примере действительно хватит авторегрессионной модели, но чаще используют бустинг. Показать на его примере, я считаю, полезнее. Все-таки смещение возникает в самых разных задачах, а данная задача выбрана из-за наглядности.

Ivstrek Oct 27 2024 at 14:16

Временной ряд так не прогнозируется потому что такие прогнозы не учитывают причин по которым формируются данные

imageman Oct 28 2024 at 09:20

Прочитал у вас "не умеет экстраполировать", так это [практически] любой метод так. Методы хорошо умеют интерполировать, а экстраполяцию как повезёт. А узнать про изменение данных нам помогут методы поиска аномалий (тут на хабре статей много, сходу самую нужную не нашел). На обучающих данных учим любимый метод поиска аномалий, потом проверяем этим методом все данные (в проде). Как только частота срабатываний ощутимо поменялась, так заново весь цикл обучения модели.

Ev_V Oct 28 2024 at 13:02

Привет! В приведенном примере рассчитывать на экстраполяцию точно не стоит.

Оценивать изменения через поиск аномалий хорошая идея и в проде применять удобно, спасибо. На этапе обучения, когда все данные доступны, может быть проще воспользоваться описанными методами, также они могут дать больше информации о смещении.