ValeriyaKur 1 сен 2022 в 00:00

NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла

29 мин

Блог компании OTUSData Mining*Машинное обучение*

Туториал

Cезон Data Mining

+14

Комментарии 4

MyWave 1 сен 2022 в 15:35

Спасибо, интересная статья.

Зачем разделять товары на 3 группы по спросу? Не лучше ли считать predict_proba и потом работать с этими непрерывными значениями? И дизбаланса классов не будет, у каждого товара будет своё значение продаваемости.

ValeriyaKur 1 сен 2022 в 19:26

1) разметка на основе минимальных бизнес правил мне показался самым простым способом для понимания. Но присваивала класс товару уже на основе кластеризации

2) если не сложно, можешь подробней объяснить как выглядит такая разметка для train выборки?

MyWave 2 сен 2022 в 12:23

Продаваемость как угодно можно определять для каждого товара (например: цена / время между поступлением в магазин и продажей, но думаю лучше не для каждой транзакции считать, а для каждого отдельного товара среднее брать).

Регрессионные модели можно использовать чтобы предсказать эту продаваемость для каждого нового товара.

А в одной книжке я видел как байесову модель можно для регрессии приспособить: просто нужно столбец продаваемости нормализировать (все значения будут от 0 до 1), сформировать из этих значений две группы (лейблы 0 и 1 по границе 0,5) и рассчитывать predict_proba(). Полученные значения обратной нормализацией переводятся в продаваемость.

Например, на тестовом корпусе абсолютная ошибка такой модели была всего на 30% выше, чем у регрессора градиентного бустинга.

ValeriyaKur 2 сен 2022 в 14:29

Большое спасибо за ответ! Сегодня обязательно испытаю Ваш подход. Если все получится результатами поделюсь в этой статье.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий