Как стать автором
Обновить
0
0
Дмитрий @StrDA

Data/Business analytics team lead

Отправить сообщение
  1.  Правильный выбор варианта детализации обучения моделей зависит от глубины погружения в специфику бизнеса, с которым Вы работаете. Вариант обучения до магазин-все товары, вероятно, может подойти, если у Вас достаточно однородный ассортимент, большой объём статистики и очень разные (с точки зрения паттернов поведения покупателей) магазины. Это точно не наш случай.  Как писали в статье - в каждой модели мы используем свой вариант детализации: товар - магазин, товар - группа магазинов, группа товаров (закрывающих одну потребность) - один или несколько магазинов. Объединение магазинов можно начать с географической близости, при необходимости, дополнительно кластеризовать по важным признакам.

  2. Существует много вариантов прогнозирования новинок, например:

    • Подбор аналогов через отдельную модель по близости наименования, фасетных свойств или иных характеристик прогнозируемой сущности; экспертные прямые аналоги.

    • Использование моделей, обученных выше уровня магазин-товар. Здесь в модели отдельные товары и торговые объекты описаны через признаки.

Поправил, благодарю за внимательность

Спасибо за отзыв. Прогнозы погоды не используем из-за длинного плеча (6-10 недель), подробнее писали об этом в предыдущей статье: https://habr.com/ru/companies/magnit/articles/664358/

Тривиальные решения плохо подходят для задачи прогнозирования промо по нескольким причинам: большое плечо прогноза (в среднем 5-10 недель до старта промо) - тут как минимум необходимо учитывать сезонный фактор; отсутствие собственной статистики наблюдений у значительной доли товаров; изменение ключевых факторов, влияющих на спрос относительно истории. Например, во всех наблюдениях в истории скидка на товар не превышала 20%, а в будущем промо будет 50% - спрос в таком случае может измениться в несколько раз.
При этом, мы не отказываемся полностью от их использования. Одна модель из стека (мультипликативная) использует в основе нечто схожее со скользящей средней с рядом преобразований.

По поводу соотношения цена-качество в контексте использования тяжёлых моделей: с одной стороны, никто не отменял принцип Парето. С другой - более сложные модели позволяют не только подтянуть качество прогноза, но и прогнозировать ряд важных для бизнеса активностей, с которыми трудно/невозможно работать используя простые подходы. Помимо этого, нам на руку играет эффект масштаба - Магнит это >30 тысяч торговых точек, поэтому каждый дополнительный процент точности приносит компании существенные деньги.

От гадалок пришлось отказаться в силу ряда причин:

  1. Нестабильный результат - метрики качества проседают при входе фазы Луны в ретроградный Меркурий.

  2. Гадалки не выдерживают высокой нагрузки и часто ломаются, если в плане на расчёт >10 млн. строк

  3. Высокая амортизация хрустальных шаров.

Информация

В рейтинге
Не участвует
Откуда
Краснодар, Краснодарский край, Россия
Работает в
Зарегистрирован
Активность

Специализация

Business Analyst, Data Analyst
Lead