Как стать автором
Обновить

Комментарии 20

Не совсем понятно какая от этого польза?
А улучшение рекомендательное системы по вашему недостаточно высокая цель?)
НЛО прилетело и опубликовало эту надпись здесь
обязательно:)
Вопросы видимо появились после моего коммента.
Как используем сейчас ответил ниже.
Пересечения кластеров — пустое множество. Так как каждый подарок попадает ровно в 1 кластер.
Но в целом, даже бинарный вектор длиной в кол-во кластеров и 1 там где из кластера дарился хотя бы один подарок — является неплохой фичей для наших рекламных задач.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Алгоритм дает однозначное сопоставление. По сути, алгоритм находит своеобразные центроиды и бьет пространство объектов на непересекающиеся области.
Кстати вариант похожий по смыслу на «пересекающиеся кластера» мы делали с помощью LDA, но топики подарков получились так себе, из-за того, что Ципфа никто не отменял. Были подарки попавшие почти везде с большим весом. Ну и визуальное представление кластеров получалось не настолько крутым. В этом варианте семантика вылазит на поверхность.
Такой вопрос, почему для коллаборативной фильтрации был выбран кластерный анализ а не ассоциативные правила? они же заточены именно под эту цель.
Быть может датасет настолько велик что только эта библиотека потянула?
Кстати, какой порядок числа записей?
Под коллаборативной фильтрацией вы здесь имеете в виду рекомендательные системы в целом или все-таки SVD над спарс матрицами? В общем случае рекомендательные системы это больше чем коллаборативная фильтрация.
В этом конкретном случае, первое что получается запилить — это улучшение тегирования. Модераторы могут тегировать подарки не по-одному, а кластерами. Это в свою очередь улучшает ранжирование выдачи.
К сожалению я не могу говорить про порядок числа реальных записей. Но для этого примера я брал примерно 200к разных подарков с медианой количества дарений в районе нескольких сотен.
НЛО прилетело и опубликовало эту надпись здесь
таргетирование… откуда оно тут взялось?)
Люди редко хотят подарок просто так. Обычно они ищут его в поиске. Ранжирование поисковой выдачи с учетом персональных интересов и без учета очевидно будет отличаться. Насколько я знаю, пока что история дарений не учитывается. Но есть множество других факторов, например: поисковый запрос, пол, текущий праздник если он есть и т.д. Этот эксперимент можно считать одним из шагов в сторону персональной выдачи подарков.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Так и не увидел ответа про ассоциативные правила, почему «побрезговали» этим инструментом? Транзакцией в данном случае выступил бы ID юзера, на выходе устойчивые релевантное правила.
Матрица дарений настолько разрежена, что нормально ассоциативные правила можно применять на очень маленькой подвыборке. Но вопрос тут скорее в другом. Какую задачу вы предлагаете так решать?
Один из очевидных путей максимизации – построить хорошую рекомендательную систему.

В нашем случае помимо рекомендаций есть задача тегирования, выделения фич для других задач и еще много чего не озвученного.
Блок «с этим товаром покупают» именно так и работает, анализируя статистику продаж других товаров в одной корзине каждого покупателя.
Но на выходе другой результат — получаются рекомендуемые товары-дополнения и аксессуары.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий