Дмитрий @StrDA
Data/Business analytics team lead
Информация
- В рейтинге
- Не участвует
- Откуда
- Краснодар, Краснодарский край, Россия
- Работает в
- Зарегистрирован
- Активность
Специализация
Business Analyst, Data Analyst
Lead
Data/Business analytics team lead
Правильный выбор варианта детализации обучения моделей зависит от глубины погружения в специфику бизнеса, с которым Вы работаете. Вариант обучения до магазин-все товары, вероятно, может подойти, если у Вас достаточно однородный ассортимент, большой объём статистики и очень разные (с точки зрения паттернов поведения покупателей) магазины. Это точно не наш случай. Как писали в статье - в каждой модели мы используем свой вариант детализации: товар - магазин, товар - группа магазинов, группа товаров (закрывающих одну потребность) - один или несколько магазинов. Объединение магазинов можно начать с географической близости, при необходимости, дополнительно кластеризовать по важным признакам.
Существует много вариантов прогнозирования новинок, например:
Подбор аналогов через отдельную модель по близости наименования, фасетных свойств или иных характеристик прогнозируемой сущности; экспертные прямые аналоги.
Использование моделей, обученных выше уровня магазин-товар. Здесь в модели отдельные товары и торговые объекты описаны через признаки.
Поправил, благодарю за внимательность
Спасибо за отзыв. Прогнозы погоды не используем из-за длинного плеча (6-10 недель), подробнее писали об этом в предыдущей статье: https://habr.com/ru/companies/magnit/articles/664358/
Тривиальные решения плохо подходят для задачи прогнозирования промо по нескольким причинам: большое плечо прогноза (в среднем 5-10 недель до старта промо) - тут как минимум необходимо учитывать сезонный фактор; отсутствие собственной статистики наблюдений у значительной доли товаров; изменение ключевых факторов, влияющих на спрос относительно истории. Например, во всех наблюдениях в истории скидка на товар не превышала 20%, а в будущем промо будет 50% - спрос в таком случае может измениться в несколько раз.
При этом, мы не отказываемся полностью от их использования. Одна модель из стека (мультипликативная) использует в основе нечто схожее со скользящей средней с рядом преобразований.
По поводу соотношения цена-качество в контексте использования тяжёлых моделей: с одной стороны, никто не отменял принцип Парето. С другой - более сложные модели позволяют не только подтянуть качество прогноза, но и прогнозировать ряд важных для бизнеса активностей, с которыми трудно/невозможно работать используя простые подходы. Помимо этого, нам на руку играет эффект масштаба - Магнит это >30 тысяч торговых точек, поэтому каждый дополнительный процент точности приносит компании существенные деньги.
От гадалок пришлось отказаться в силу ряда причин:
Нестабильный результат - метрики качества проседают при входе фазы Луны в ретроградный Меркурий.
Гадалки не выдерживают высокой нагрузки и часто ломаются, если в плане на расчёт >10 млн. строк
Высокая амортизация хрустальных шаров.