Как стать автором
Обновить

Комментарии 4

Спасибо, интересная статья.

Зачем разделять товары на 3 группы по спросу? Не лучше ли считать predict_proba и потом работать с этими непрерывными значениями? И дизбаланса классов не будет, у каждого товара будет своё значение продаваемости.

1) разметка на основе минимальных бизнес правил мне показался самым простым способом для понимания. Но присваивала класс товару уже на основе кластеризации

2) если не сложно, можешь подробней объяснить как выглядит такая разметка для train выборки?

Продаваемость как угодно можно определять для каждого товара (например: цена / время между поступлением в магазин и продажей, но думаю лучше не для каждой транзакции считать, а для каждого отдельного товара среднее брать).

Регрессионные модели можно использовать чтобы предсказать эту продаваемость для каждого нового товара.

А в одной книжке я видел как байесову модель можно для регрессии приспособить: просто нужно столбец продаваемости нормализировать (все значения будут от 0 до 1), сформировать из этих значений две группы (лейблы 0 и 1 по границе 0,5) и рассчитывать predict_proba(). Полученные значения обратной нормализацией переводятся в продаваемость.

Например, на тестовом корпусе абсолютная ошибка такой модели была всего на 30% выше, чем у регрессора градиентного бустинга.

Большое спасибо за ответ! Сегодня обязательно испытаю Ваш подход. Если все получится результатами поделюсь в этой статье.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий