varagian Jul 18 2014 at 05:16

Пишем простую систему рекомендаций на примере Хабра

4 min

43K

Data Mining *

+20

Comments 16

Gasoid Jul 18 2014 at 06:24

А как рекомендовать по просмотренному контенту? например, рекомендации в ютубе?

efimovgk Jul 18 2014 at 06:50

Смотреть не на связь пользователей, а на связь контента, используя ту же метрику, о которой говорилось в статье.

rucoder Jul 18 2014 at 09:48

Аналогично, в БД разницы нет, что добавление в избранное, что автоматическое добавление в список просмотренных. Разве что психологическое различие — действие производится больше автоматически. Но YouTube, как и другие большие проекты, скорее всего использует гибридный метод.

sonic Jul 18 2014 at 10:21

Надо усложнить, сделать профиль хабраюзера на внешнем сайте, связать его с реальным профилем и прикрутить 10 бальные оценки.
Тогда можно будет делать более точные рекомендации.

SLY_G Jul 18 2014 at 11:12

Опробовал систему рекомендаций на себе — ни одна из рекомендованных статей не заинтересовала.
То ли что-то глючит, то ли рекомендации по этому алгоритму не работают.

varagian Jul 18 2014 at 11:35

Скорее всего я слишком упростил алгоритм, пытаясь сделать его доступным для самой широкой аудитории.

У меня есть догадка, где основная проблема с этой версией алгоритма. Попробую вечером пофиксить эту проблему, и можно будет посмотреть результат.

powerman Jul 19 2014 at 11:42

Да, у меня тоже все рекомендации абсолютно мимо. Если получится пофиксить — расскажите, в чём дело было.

varagian Jul 20 2014 at 16:29

Попробовал пофиксить. Как сейчас результаты?

powerman Jul 20 2014 at 16:31

Да, так уже намного лучше. Что изменили?

varagian Jul 20 2014 at 17:03

Сделал поиск локальным, N-top user-based filtering. Т.е. сначала определяем neighbourhood пользователя, например 15 самых схожих. Потом делаем всё тоже самое только для этого локального подпространства.

Если сделать поиск глобальным, то самая примитивная регуляризация т.е. деление на n_p приводит к отвратительным результатам.

Упрощенно говоря, у нас есть один пользователь похожий на нас на 0.5 и он рекомендует статью Неведомая хрень и еще десять пользователей рекомендующих статью Хабр всё еще торт, в том числе два пользователя похожих на нас аж на 0.9 (супер высокий показатель), и еще 8 похожих на нас на 0.01.

Тогда для первой статьи Неведомая хрень: 0.5 / 1 ==> ранг 0.5
Для второй Хабр всё еще торт: ( 0.9 + 0.9 + 0.01*8 )/10 ==> ранг 0.19

Т.е. получается, что «далёкие» пользователи создают шум при регуляризации оценки.

koltykov Jul 20 2014 at 07:48

Тоже попробовал на себе, ни одна статья не по теме моих интересов. Хотя в избранном немало статей.
А так идея очень хорошая.
И можно применить ее было бы на своих проектах. Скажем как вариант вытащить данные с поиска или контекстных сетей и показывать рекомендуемые материалы на основе этих данных.

varagian Jul 20 2014 at 16:25

Попробуйте сейчас еще раз.

SLY_G Jul 20 2014 at 19:49

Уже лучше! Из 20 рекомендаций подошли 6.

vvzvlad Jul 18 2014 at 20:12

Мне тоже рекомендованные статьи не показались интересными. Может это потому, что я не особо добавляю в избранное.

varagian Jul 20 2014 at 16:33

Не, я попытался сильно упростить алгоритм и в итоге получилась лажа. Сейчас внёс небольшие изменения в код; можете посмотреть осмысленность текущей выдачи?

vvzvlad Jul 20 2014 at 20:43

Да, стало гораздо релевантнее. Правда, для меня выдало одну мою статью — 207282