VRus 12 авг 2010 в 23:53

Расширение базы для коллаборативной фильтрации

2 мин

701

Идея коллаборативной фильтрации проста и изящна – на основании списка предпочтений пользователя система ищет людей с похожими предпочтениями, сопоставляет списки и выдает рекомендации по их пополнению. Слово «предпочтение» здесь не совсем подходит, обычно список содержит названия объектов какого-либо контентного типа — книги, музыка, фильмы. Но если допустим блог-платформа или соцсеть подыскивает вам френдов? Тогда в качестве элементов списка могут служить указанные в профиле интересы пользователя, теги к его постам, список уже имеющихся френдов и т. п. Если задаться целью максимально расширить область применения коллаборативной фильтрации, то возникают два вопроса: что в принципе может быть элементом списка и что в принципе может стимулировать пользователя эти списки создавать.

Касательно первого, на мой взгляд максимальной абстракции достигли в проекте Metaweb с их базой данных Freebase, недавно купленном Гуглом. Эта база данных – граф, узлами которого являются произвольные сущности или объекты (entity) – люди, места, вещи, организации… Там например по запросу «владелец сайта» выдается: «это сущность, которая владеет и/или манипулирует сайтом» (A website owner is an entity that owns and/or operates a website). Сами вебсайты тоже являются сущностями. Являются ими и интересы, темы, понятия. Пользователь, который перечислял бы все эти объекты в своем личном «мегасписке», дал бы богатейшую информацию для анализа в системах коллаборативной фильтрации.

На вопрос (второй) зачем ему это делать рекомендательные сервисы типа imhonet отвечают просто – пользователь понимает, что после создания списка ему посоветуют что-то полезное. Но в данном случае это не пройдет – список окажется слишком огромным (если на то пошло, мой первый и последний опыт знакомства с одним только литературным отделом imhonet был утомительным – я просто замучался перечислять книги).

Возможный вариант решения – кнопка “Like”, которую можно нажать при наведении на выделенный объект, например при выделении слова из текста. Или в более продвинутом виде при каком-нибудь визуальном распознавании объектов в реальном мире с помощью смартфонов. Увидел девушку, нажал Like. Эта деятельность не особо напряжная и не единоразовая, вы накапливаете свой список like-объектов постепенно, в процессе прогулок по интернету и привычным местам. Хотя лично мне больше нравится глагол «френдить». Если мы френдим людей, то отчего бы не френдить объекты?

Другой возможный вариант – совместить общение с созданием графовых баз данных типа упомянутой. В этом случае посты и комментарии также станут объектами общей сети и пользователи будут генерировать связи между объектами в процессе привычной активности типа общения и нетворкинга. Т.е. это никак не связано с коллаборативной фильтрацией, однако часть этих связей будет полезной с точки зрения её применения. Сервис такого типа я и пропагандирую.

Теги:

коллаборативная фильтрация

Хабы:

Чулан

Расширение базы для коллаборативной фильтрации

Публикации

Истории

Ближайшие события