Комментарии / Профиль fotol / Хабр

Пользователь

Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias

fotol 2 сен 2023 в 10:44

Привет! Есть пару комментов

1) Если я правильно понял, ты показываешь, как нелогично к одному фильму (запросу) рекомендуются другие, и строишь гипотезы на них. На мой взгляд, модель рекомендует к одному фильму другие нелогичные, просто потому, что пользователи так себя ведут. Ты фактически показываешь, что фильмы к запросу непохожи на фильм-запрос. Однако, кажется, модель не решает задачу нахождения похожих фильмов к твоему. Вероятно, пользователи смотревшие "фильм-запрос" также смотрели и другие фильмы из рекомендаций (твоих примеров справа), поэтому не очень понял, как связана непохожесть и оценка popular bias?

2) в этом датсете, насколько я его помню, действительно большой pop bias. Но предположу, что это не "результат работы прошлой рекомендательной модели". Если там был чисто датасет из интеракций людей, то много разных причин влияли на то, смотрит человек что-то или нет. Например, если на главной всем показывали огромным банером "Девятаева", то он и вышел популярным в итоге. И люди сначала смотрели что-то интересное, а потом смотрели этот фильм. И все модели обязаны оптимизироваться под этот факт, поэтому и получаются такие рекомендации

3) вообще было бы интересно, можно ли решить эту проблему на уровне алгоритма. Есть ведь подходы, которые отдельно моделируют популярность фильма и отдельно интерес к нему. Потому что как показывают некоторые статьи, можно даже на сильно смещенном датасете генерировать хорошие recall/map, но с меньше bias'ом