Обновить

От нестационарности к прогнозу: пайплайн анализа и моделирования временных рядов

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.9K
Всего голосов 5: ↑5 и ↓0+11
Комментарии18

Комментарии 18

Дорогой сподвижник и соратник Лёни Голубкова,

В славном городе NY есть биржа и там сотня брокеров. Так вот, про них известно всё, кажется даже цвет вчерашнего их говна.

И сделки их есть временной ряд и если ты, друг наш и автор, сможешь предсказывать их сделки на 55% то быстро станешь миллионером. Если 65%, то миллиардером, а если на 75% то наймёшь Безоса и Маска себе в швейцары.

Ага, "куплю жене сапоги" на спрогнозированные деньги :)

На самом деле не понял, в чем претензия — статья скорее обзорная и касается мат. аспектов прогнозирования ряда, у которого есть устойчивое год от года поведение. Тема биржи это отдельная история, на которую влияют чаще всего непрогнозируемые (если, конечно, Вы не обладаете инсайдерской информацией) рыночные колебания, связанные с поведением компаний на внутреннем и внешних рынках.

всё дело в том, что если ряд временной про объекты - электроны, молекулы и т.д. то там можно что то иногда предстазывать. Например, что зимой в РФ холодно или что через час пойдет дождь и т.д. ( но вот за три месяца предсказать, что в момент цветения не будет дождей еще не могут)

Но если эта последовательноть про людей - а это субъекты, то тут нет никакой закономерности в резком и неожиданном изменении всех параметров этой последовательности. И если есть тренд и вы его точно обнаружили, то это значит, что кто-то этот тренд создал, нагнал туда стадо и скоро начнет стричь.

Вот тут вот подробней и наглядней https://habr.com/ru/articles/592389/

Приведу цитату самого себя (!)

про предсказания кратко и образно

Мальчик спрашивает отца:

- Папа, а какая разница между теми кто использует data science и применяет?

- Вот помнишь сынок, мы с тобой летом картошку ведрами в поле носили по вечерам?

- Помню, помню, потом в это место на рассвете кабаны стали приходить!

- ну да. Вот кабаны и использовали data science и точно предсказывали появление картошки, а мы с тобой эту data science применили и у нас есть теперь запасы кабанины.

Брр. Временные ряды в электрона нейтрлнах и кабанах не бывает

И сделки их есть временной ряд и если ты, друг наш и автор, сможешь предсказывать их сделки на 55% то быстро станешь миллионером

Уважаемый, ChePeter, ну вы же явно передергиваете. Вероятность предсказания удачности сделки далеко не такой важный параметр, как его обычно представляют. Более того, у большей части "форексистов" больше половины сделок - выигрышных, что не уберегает их от слива депо. И вряд ли вам надо объяснять, что решает другой параметр – размер выигрыша и проигрыша в совершаемых сделках.

Нее. Всё верно написано. "Предсказывать сделки" и "предсказания удачности сделки" это разные блюда под разными соусами.

Нет. В городе NY много , не сотня брокеров. Цвет ежедневного не поможет в прогноза по двум причинам. Ежедневное г. и количество сделок внутри дня ну понимаете... И главное так сложилось что в природе факторы (в смысле мнжители) всегда отличаются на порядки. Если нет то что то в модели не так (корелляция параметров да много чего)

Ох как вовремя статья!
Я работаю в стартапе, у нас в собственности приблизительно 100 мелко-средних бизнесов. Бизнесы в разных местах, в разных индустриях, но планировать-то все равно надо. Группа финансов создает годовой план топором: 3-процентный годовой рост на каждый бизнес и хватит. Мы решили попробовать улучшить подход:
Первая фаза крайне простая, берем ежемесячную прибыль каждого бизнеса как тайм-серии фичи и пытаемся делать предсказания через ARIMA/SARIMAX и Facebook Prophet. Интересно что SARIMAX с exogenous variable (тайм-серии прибыли индустрии данной компании) показала себя намного лучше чем Prophet: у SARIMAX+exog был MAPE в 16%, в тоже время у Prophet 3х-месячный MAPE был >22%.
Начинаем работу над следующей фазой: будем высчитывать операционные метрики бизнеса (% возврата, брака, итд) как дополнительные фичи. Конкретно буду брать предсказания САРИМАКСА а так же доп. метрики и давать их XGBT в надежде что основная часть сезонности уже была прогнозирована первой моделью, а сложные взаимодействия метрик будут интерпретированы деревом XGBT.

Когда есть экзогенные переменные, брать SARIMAX — отличный выбор! Наслышан о нейронках, в частности, реккурентных НС в контексте прогнозирования: можно попробовать их. Возможно, лучше зааффектит, чем XGBT, если с ним будут траблы, конечно ;)

попробуйте PatchTST или TimesFM. В случае с прибылью, надо точно её раскладывать на выручку и основные косты ...

Очередное «смотрите как я умею делать импорты библиотек в ноутбук». Просто интересно, на кой хер этот очередной в 100500 раз рассказанный шлак, в котором нет ни хрена от себя? Но, «голландский штурвал» лайкающих вертится - значит, нужно, видать.

Да, к сожалению, без импортов никуда — но их тут не так много и все они для того, чтобы бейзлайн по анализу отразить

А вы ведь всерьез этот хлам еще и уровнем «медиум» обозвали 🤦‍♂️

Воистину, Сбер - удивительная компания.

Это я сам так обозвал)

И почему по существу тебе кажется, что статья — шлак, sunsexsurf?

>> вы ведь всерьез этот хлам еще и уровнем «медиум» обозвали 
>> Это я сам так обозвал)

Вы еще и читаете херово.

По сути вопроса "почемустатья - шлак":
потому что все, что все, что вы сделали в статье - импортировали ариму. Все. Ну и автоариму (кстати, тут снова камень в ваш огород, приличные люди утверждают, что автоарима в R куда более хороша).
Не пытлись сами написать ее с нуля, а просто "импорт <имя_библиотеки"
Очередной высер в стиле "я узнал про библиотеку (которую и так все знают, кто хоть немного в курсе про существование временных рядов) и сейчас я расскажу, как ее импортировать". Охрененный успех.
я бы еще понял, если бы вы взяли ваш ряд (какой-нибудь нормальный, настоящий, где внутри есть нормальное течение, сложности 2020 года и большие сложности, начиная с 2022 года) и сравнили бы понятные подходы:
взяли бы какой-нибудь бэйзлайн (скользящее окно, в котором была бы средняя и экспоненциальная средняя, к примеру), сравнили бы его с аримами, с LSTM, с CNN (есть и такой забавный подход). Это бы уже было бы хоть что-то. Возможно, подумали бы над RL. Ну, было бы даже нормально. Понятная, внятная статья. Но то, что сделали вы - это около гпт-шлак. В сотнях заметок и доступных лекций на ютубе, в сотнях гитхабов - все это есть в гораздо более лучшем изложении, с гораздо более лучшими примерами кода.
Настолько ничего нового, что стыдно должно быть. Но вам не стыдно.

благодарю за фидбек)

  • Re

  • что соответствует бизнес‑требованию о повышении суммы за год не больше, чем на индекс инфляции.

  • Ошибки прогноза на тестовом периоде оказались в допустимых пределах (MAPE ≈ 8,2%).

Беда за такие ошибки прогноза порядка 10 процентов а это ведь порядок прибыли в легальный бизнеса истерика хозяина и санкции к прогнозисту сгарантированы. С вероятностью 99 проц :)

Да ещё... Падение денежного потока в январе это не сезонность. Это падение средней цены из-за распродаж - очистка стоков

Тут не совсем продажи были, данный график не имеет отношения к товарам. Да и цели повторить график до MAPE = 0% на тесте не стояло.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.sber.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия