Был excel — стал ML: как мы расход ингредиентов учились прогнозировать / Comments / Habr

gruzdev80 Jul 3 2022 at 12:58

SARIMAX может и побить бустинг, если он на правильно подобранных рядах Фурье, взаимодействиях Фурье и календарных признаков строится, в личку кинул материал, там есть полезные примеры и по ETNA большой раздел. Также советую Greykite. Там можно настраивать не только точки изменения тренда, но и точки изменения сезонности, ну и агрегированные лаги (произведения лагов с фиксированным или случайно подбираемым инкрементом) тоже могут быть полезны. ETNA да, очень хороша. В последних версиях разработчики ETNA выкатили вовсе царский подарок – классы SklearnMultiSegmentModel и SklearnPerSegmentModel. С помощью них (выступают как классы-родители) пишем классы-обертки PerSegmentModel и MultiSegmentModel над любимым регрессором sklearn и вперед. Так, например, в одной из задач у меня RandomForestRegressor со 100 деревьями глубиной 5 побивает CatBoost c 800 деревьями. Работает лучше и быстрее, а последнее важно, у меня там пять сотен рядов. Но поскольку RandomForestRegressor ругается на пропуски, как и некоторые другие модели sklearn, а после создания лагов пропуски неизбежны, в конвейере после создания лагов ставим TimeSeriesImputerTransform для каждого лага.

Comments 4

LorSong Jul 1 2022 at 17:45

А что делаете с появлением нового ингридиента? Ждать пока накопиться статистика?
А если меняется меню сильно?

VladimirJam Jul 3 2022 at 19:05

Привет! Новинки пока прогнозируем с помощью всяких статистик, но и там есть несколько идей, как делать с помощью ML, если все получится, то напишем еще статью :)

VladimirJam Jul 3 2022 at 19:07

Спасибо за инфу, будем пробовать!